ماموريت كيمن
داده کاوی

داده کاوی

داده کاوی، مفاهیم و كاربرد آن در حل مساله

 کشف دانش در پایگاه داده‌ها یا داده کاوی مقوله علمی نسبتا تازه‌ای است که با توجه پیشرفت‌های اخیر در زمینه IT و ایجاد بانک‌های اطلاعاتی بزرگ توسط سازمانها، مورد كاربرد و نیاز واقع شده است. داده کاوی یعنی کشف دانش و اطلاعات معتبر پنهان در پایگاه‌های داده كه به بیان بهتر، تجزیه و تحلیل ماشینی داده‌ها برای پیدا کردن الگوهای مفید و تازه و قابل استناد در پایگاه داده‌های بزرگ است. داده کاوی در پایگاه‌های داده کوچک نیز بسیار پرکاربرد است و از نتایج و الگوهای تولید شده بوسیله آن در تصمیم‌گیری‌های استراتژیک فرایندهای کوچک نیز می‌توان بهره های فراوان برد. می‌توان کاربرد داده کاوی را در یک جمله به این صورت بیان کرد: ” داده کاوی اطلاعاتی می‌دهد که شما برای حل مسائل كاری و یا گرفتن تصمیم هوشمندانه‌ای درباره مشکلات سخت شغلتان به آنها نیاز دارید.”

 در واقع ابزار داده کاوی، داده را می‌گیرد و یك تصویر كامل از واقعیت به شكل مدل می سازد، این مدل روابط موجود در داده‌ها را شرح می دهد. در واقع  ابزار داده کاوی فرض می کند که شما خود هم نمی دانید به دنبال چه می گردید و این نکته ای  است که باعث می‌شود کار آمدی داده کاوی در مواقع بروز مشکل نمایان شود. این موضوع یكی از مغایرت های داده کاوی با تحلیل های هدفمند آماری را نشان می دهد.

          داده کاوی از نظرگاه سیستمی یك فرایند محسوب شده كه انجام گام به گام مراحل آن منجر به كشف دانش مستور در داده‌ها می‌گردد. این مراحل در شكل شماتیک زیر به چشم می خورد.

          شروع فرایند از شناخت ساز و كار مجموعه ای صورت می‌گیرد كه قرار است داده کاوی در آن انجام گیرد. در این مرحله اهداف و موضوعات و پرسشهای طرح معلوم شده و نقشه انجام مطالعه تهیه می‌گردد. هم چنین وضعیت موجود مورد تجزیه و تحلیل قرار می‌گیرد. در مرحله بعدی داده‌ها مورد تجزیه و تحلیل قرار می‌گیرند كه در آن داده‌های مقدماتی جمع آوری شده و تحلیل های ابتدایی روی آنها صورت گرفته و كیفیت آنها معین می‌شود. در مرحله بعدی آماده سازی داده‌ها انجام می‌شود. در این مرحله داده‌ها انتخاب شده و از نویزها (اختلالاتی كه به هر علت در داده‌ها موجود است مانند خطای جمع آوری داده‌ها و …) پاك سازی می‌گردند. در نهایت در این مرحله متمركز كردن داده‌ها صورت می‌گیرد. متمركز كردن داده‌ها به این معنی است كه از منابع اطلاعاتی مختلف، اطلاعات جمع‌آوری شده و در یك پایگاه داده بزرگ متمركز می‌گردند. مرحله بعد مرحله مدل‌سازی است كه در آن ابتدا وظیفه كلی مثل پیش‌بینی تعیین شده و سپس الگوریتم داده کاوی مربوط به آن معین می‌گردد. این الگوریتم ممكن است یكی از روش ها شبكه‌های عصبی و درخت تصمیم و یا دیگر الگوریتم‌های موجود باشد. پس از آن روش ارزیابی مدل معلوم می‌گردد كه بوسیله آن بتوان اعتبار و كیفیت مدل را سنجید. قسمت بعدی تعیین روش بهینه كردن مدل است و آخرین بخش این مرحله (كه همیشه الزامی نیست) اننخاب روش مدیریت داده‌هاست. مرحله بعد ارزیابی است كه در آن نتایج حاصله ارزیابی شده و فرایند بازنگری می‌گردد. بعد از این بخش تصمیم گرفته می‌شود كه به مرحله اول برگشت شده و نتایج حاصله معتبر نمی‌باشد و یا به مرحله پیاده‌سازی نتایج حركت شود. مرحله نهایی پیاده‌سازی است كه در آن ابتدا برنامه جاری سازی تدوین شده و جاری سازی انجام می‌گیرد و سپس برای بازرسی و نگهداری فرایند (مصونیت از خطا) برنامه‌ریزی شده و گزارش نهایی تهیه می‌گردد. آخرین بخش از این مرحله بازنگری پروژه است.

جنبه‌های میان رشته ای داده کاوی

داده کاوی در محل تلاقی چندین رشته علمی واقع شده است. این جنبه‌ها كه در شكل زیر مشخص شده‌اند شامل تكنولوژی پایگاه‌های داده‌ها، یادگیری ماشین، حفاظت از حریم‌های اطلاعات (امنیت اطلاعات)، مرئی‌سازی و آمار می‌شود.

از آمار و یادگیری ماشین در مد‌ل‌سازی، از تكنولوژی پایگاه‌های داده‌ها در ذخیره سازی و نگهداشت داده‌ها و از مریی‌سازی و حفاظت از حریم‌های اطلاعاتی (امنیت اطلاعات) در ارائه و جمع‌آوری داده‌ها بهره‌گرفته می‌شود.

مثال‌هایی از كاربرد ابزارهای داده کاوی در حوزه منابع انسانی

در فرایند داده کاوی مجموعه‌ای از ابزارها موجود است كه به فراخور اهداف تعیین شده پروژه می‌توان از آنها بهره گرفت.

یكی از این ابزارها درخت تصمیم است. این ابزار برای طبقه‌بندی متغیرهای اسمی بكار می‌رود.

به عنوان مثال یك نیروی انسانی دارای صفات متعددی از جمله تعداد شیفت كاری، سن، بخشی كه در آن مشغول كار است، تاهل و تحصیلات است. روشن است كه از مشكلات كاركنان تعارض بین كار و زندگی شخصی است. با تحلیل و آنالیز داده‌ها توسط ابزار درخت تصمیم می‌توان آن گروه از كاركنان را پیدا كرد كه بیشترین تعارض بین كار و زندگی آنها وجود دارد. مثلا معلوم می‌گردد كه كارگرانی كه سه شیفت باشند و متاهل و دیپلمه بوده و در سالن مونتاژ یک کارخانه خودروسازی كار می‌كنند، دچار تعارض جدی میان زندگی شخصی و كار هستند و به این ترتیب گروه هدف برای اقدام اصلاحی معلوم می‌گردد. یعنی به صورت خلاصه تصمیم گیری بر اساس اطلاعات قبلی و با دقت بالاتری انجام می‌شود.

          از دیگر ابزارهای داده کاوی قوانین ارتباط است. توسط این ابزار قوانین علت و معلولی جاری در فضای مادی به دست می‌آیند. در این ابزار از موارد مهم، یافتن الگوهای پرتكرار در داده‌هاست. به عنوان مثال در حوزه منابع انسانی معلوم می‌گردد كه رضایت شغلی بالا و پست كارگری با هم ارتباط مثبت داشته و با تحصیلات ارتباط منفی دارد. یعنی می‌توان الگوهایی كه در خصوصیات شغلی پرسنل موجود است را كشف كرد. بدیهی است كه كاربرد فوانین ارتباط منحصر به این مثال نشده و در موارد زیادی از جمله محاسبه عوامل انگیزشی، حوادث شغلی، وام های درخواست شده و … كاربرد دارد.

          از دیگر ابزارها OLAP است كه در آن عملیات مختلفی از جمله تلخیص روی داده‌ها صورت می‌گیرد. مثلا طبقه‌ای از پرسنل كه دارای درجه‌ای از بهره وری هستند – فارغ از محلی كه در آن مشغول به كارند- معلوم می‌گردد. در این كار هدف، یافتن طبقه‌ای خاص از داده‌هاست.

از دیگر ابزارهای داده کاوی، شبكه‌های عصبی مصنوعی است. در نگرش های جدید تحلیل اطلاعات، از موارد مهم موضوع یادگیری ماشین (Machine Learning) است و در این مجموعه مباحث، روش شبكه‌های عصبی مصنوعی جایگاه خاصی دارد. به صورت خلاصه این روش دارای مبانی زیر است:

این روش الهام گرفته شده از روش تحلیل اطلاعات در سیستم های عصبی طبیعی مثل مغز است.

هر سلول عصبی مصنوعی شامل یك لایه ورودی، یك لایه خروجی و یك یا چند لایه پنهان است كه اطلاعات را تبادل می‌كنند و قدرت یادگیری داشته و سیستم سازگار شونده ای دارند كه می‌تواند حین فرایند برای سازگاری بیشتر تغییر كند. شمای هر دو سلول عصبی طبیعی و مصنوعی در اشكال آمده است. در این روش مقادیر ورودی از سلول عصبی مصنوعی قبلی در ضرایبی ضرب شده و تابع ورودی را تشكیل می دهند. بر خلاف سلول های عصبی طبیعی كه دو حالت فعال و غیر فعال دارند (شرایط منطق كلاسیك)، سلول عصبی مصنوعی می‌تواند دارای حالات متنوعی از غیر فعال كامل گرفته تا فعال كامل (شرایط منطق فازی) داشته باشند.

داخل سلول بر ورودی ها عملیاتی انجام می‌گیرد كه تابع آن به دلیل كاهش خطا و افزایش توان نسبت به یك شبكه عصبی ساده، غیرخطی انتخاب می‌گردد.

این روش دارای فرایندی است كه به آن یادگیری گویند و در آن بدون تغییر نقشه كل، توابع ورودی، خروجی و ضرایب تنظیم می‌شوند. تنظیم وزن ها آنقدر ادامه می‌یابد كه خروجی سلول با آنچه كه باید باشد یكسان شود.

در واقع در هر دوره یادگیری كل ضرایب شبكه طوری تنظیم می‌شوند كه اختلاف میان مقدار مشاهده شده و مقدار پیش‌بینی شده حداقل گردد. به عنوان مثال یك شبكه عصبی ساده كه فاقد لایه پنهان است به صورت شكل فوق است.

روشن است كه این سلول با توجه به آنكه لایه پنهانی ندارد، نمی‌تواند دقت بالایی به میزان سلول‌های پیچیده‌تر داشته باشد. این عدم دقت ناشی از عدم توانایی مدل بندی تغییرات به روش غیرخطی است كه برای رفع این مشكل از روش‌هایی آزموده شده استفاده می‌شود.

این روش دارای نقاط قوت زیر است:

  1. توان بالا در كار با داده‌هایی كه نوسان (نویز) زیاد دارند.
  2. مناسب بودن برای داده‌های پیوسته
  3. موفقیت در داده‌های واقعی در كارهای كاربردی.

تكنیك‌هایی اخیرا ایجاد شده است كه برای استخراج قوانین موجود در شبكه‌های عصبی آموزش دیده‌اند(یعنی فرایند یادگیری آنها طی شده است).

نقاط ضعف این روش عبارتند از:

  1. طولانی بودن محاسبات.
  2. نیاز به پارامترهایی كه به بهترین روش برای ساختار شبكه عصبی تعیین شده باشند.
  3. سختی تفسیر مسائل زیربنایی ضرایب به دست آمده.

از مواردی كه می‌توان از این روش در آن استفاده كرد، پیش‌بینی متغیرهایی است كه تغییرات آنها وابسته به متغیرهای دیگری است. مثلا اگر مطالعه‌ای در خصوص اضافه كار در دست انجام باشد، می‌توان دید كه كدام گروه از متغیرها هستند كه در این مساله بیشتر تاثیر گذارند. به عنوان مثال ممكن است بخشی كه پرسنل در آن به كار مشغولند، جنسیت و تاهل كه در این موضوع موثر باشد. توسط روش شبكه‌های عصبی مصنوعی می‌توان متوجه شد كه هر كدام از این متغیرها با چه ضریبی در میزان اضافه كار موثر هستند و بوسیله كنترل آنها میزان اضافه كار و در نتیجه پرداختی كل در این مورد را كنترل كرد.

فرایند حل مساله

در حل مساله با این روش آنچه كه مهم است وجود حجم بالایی از داده‌هاست كه در حال حاضر با پیشرفت‌هایی كه در حوزه تكنولوژی اطلاعات حاصل شده است، به دست آوردن این حجم از داده‌ها در بسیاری موارد كار خیلی مشكلی نیست.

فرایند این كار شامل مرحله‌ای برای مساله‌یابی، شناخت داده‌های مرتبط با مساله، جمع‌آوری و آماده‌سازی داده‌ها، مدل‌سازی، ارزیابی مدل، اجرا و ارزیابی نتایج می‌باشد كه در شكل زیر نمایش داده شده است:

آن چه كه در ابتدای راه برای شروع الزامی به نظر می‌رسد معرفی این فرایند در سازمان‌ها به منظور دریافت مساله برای شروع كار است. روشن است كه در گذر زمان و بازخوردهای مثبتی كه این روش حل مساله به سازمان ها می دهد موجب روی آوردن آنها به سوی روش داده کاوی می‌شود. گروه کیمن(Keyman) آمادگی دارد تا با استفاده از متخصصین خود در تکنیک داده کاوی، نسبت به اجرای آن در سازمانهای مختلف اقدام نموده و از این طریق به سودآوری سازمان ها و حل هوشمندانه مسائل آنها کمک کند.

داده کاوی - کیمن

جوابی بنویسید

ایمیل شما نشر نخواهد شدخانه های ضروری نشانه گذاری شده است. *

*

شما می‌توانید از این دستورات HTML استفاده کنید: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>