داده کاوی، مفاهیم و كاربرد آن در حل مساله
کشف دانش در پایگاه دادهها یا داده کاوی مقوله علمی نسبتا تازهای است که با توجه پیشرفتهای اخیر در زمینه IT و ایجاد بانکهای اطلاعاتی بزرگ توسط سازمانها، مورد كاربرد و نیاز واقع شده است. داده کاوی یعنی کشف دانش و اطلاعات معتبر پنهان در پایگاههای داده كه به بیان بهتر، تجزیه و تحلیل ماشینی دادهها برای پیدا کردن الگوهای مفید و تازه و قابل استناد در پایگاه دادههای بزرگ است. داده کاوی در پایگاههای داده کوچک نیز بسیار پرکاربرد است و از نتایج و الگوهای تولید شده بوسیله آن در تصمیمگیریهای استراتژیک فرایندهای کوچک نیز میتوان بهره های فراوان برد. میتوان کاربرد داده کاوی را در یک جمله به این صورت بیان کرد: ” داده کاوی اطلاعاتی میدهد که شما برای حل مسائل كاری و یا گرفتن تصمیم هوشمندانهای درباره مشکلات سخت شغلتان به آنها نیاز دارید.”
در واقع ابزار داده کاوی، داده را میگیرد و یك تصویر كامل از واقعیت به شكل مدل می سازد، این مدل روابط موجود در دادهها را شرح می دهد. در واقع ابزار داده کاوی فرض می کند که شما خود هم نمی دانید به دنبال چه می گردید و این نکته ای است که باعث میشود کار آمدی داده کاوی در مواقع بروز مشکل نمایان شود. این موضوع یكی از مغایرت های داده کاوی با تحلیل های هدفمند آماری را نشان می دهد.
داده کاوی از نظرگاه سیستمی یك فرایند محسوب شده كه انجام گام به گام مراحل آن منجر به كشف دانش مستور در دادهها میگردد. این مراحل در شكل شماتیک زیر به چشم می خورد.
شروع فرایند از شناخت ساز و كار مجموعه ای صورت میگیرد كه قرار است داده کاوی در آن انجام گیرد. در این مرحله اهداف و موضوعات و پرسشهای طرح معلوم شده و نقشه انجام مطالعه تهیه میگردد. هم چنین وضعیت موجود مورد تجزیه و تحلیل قرار میگیرد. در مرحله بعدی دادهها مورد تجزیه و تحلیل قرار میگیرند كه در آن دادههای مقدماتی جمع آوری شده و تحلیل های ابتدایی روی آنها صورت گرفته و كیفیت آنها معین میشود. در مرحله بعدی آماده سازی دادهها انجام میشود. در این مرحله دادهها انتخاب شده و از نویزها (اختلالاتی كه به هر علت در دادهها موجود است مانند خطای جمع آوری دادهها و …) پاك سازی میگردند. در نهایت در این مرحله متمركز كردن دادهها صورت میگیرد. متمركز كردن دادهها به این معنی است كه از منابع اطلاعاتی مختلف، اطلاعات جمعآوری شده و در یك پایگاه داده بزرگ متمركز میگردند. مرحله بعد مرحله مدلسازی است كه در آن ابتدا وظیفه كلی مثل پیشبینی تعیین شده و سپس الگوریتم داده کاوی مربوط به آن معین میگردد. این الگوریتم ممكن است یكی از روش ها شبكههای عصبی و درخت تصمیم و یا دیگر الگوریتمهای موجود باشد. پس از آن روش ارزیابی مدل معلوم میگردد كه بوسیله آن بتوان اعتبار و كیفیت مدل را سنجید. قسمت بعدی تعیین روش بهینه كردن مدل است و آخرین بخش این مرحله (كه همیشه الزامی نیست) اننخاب روش مدیریت دادههاست. مرحله بعد ارزیابی است كه در آن نتایج حاصله ارزیابی شده و فرایند بازنگری میگردد. بعد از این بخش تصمیم گرفته میشود كه به مرحله اول برگشت شده و نتایج حاصله معتبر نمیباشد و یا به مرحله پیادهسازی نتایج حركت شود. مرحله نهایی پیادهسازی است كه در آن ابتدا برنامه جاری سازی تدوین شده و جاری سازی انجام میگیرد و سپس برای بازرسی و نگهداری فرایند (مصونیت از خطا) برنامهریزی شده و گزارش نهایی تهیه میگردد. آخرین بخش از این مرحله بازنگری پروژه است.
جنبههای میان رشته ای داده کاوی
داده کاوی در محل تلاقی چندین رشته علمی واقع شده است. این جنبهها كه در شكل زیر مشخص شدهاند شامل تكنولوژی پایگاههای دادهها، یادگیری ماشین، حفاظت از حریمهای اطلاعات (امنیت اطلاعات)، مرئیسازی و آمار میشود.
از آمار و یادگیری ماشین در مدلسازی، از تكنولوژی پایگاههای دادهها در ذخیره سازی و نگهداشت دادهها و از مرییسازی و حفاظت از حریمهای اطلاعاتی (امنیت اطلاعات) در ارائه و جمعآوری دادهها بهرهگرفته میشود.
مثالهایی از كاربرد ابزارهای داده کاوی در حوزه منابع انسانی
در فرایند داده کاوی مجموعهای از ابزارها موجود است كه به فراخور اهداف تعیین شده پروژه میتوان از آنها بهره گرفت.
یكی از این ابزارها درخت تصمیم است. این ابزار برای طبقهبندی متغیرهای اسمی بكار میرود.
به عنوان مثال یك نیروی انسانی دارای صفات متعددی از جمله تعداد شیفت كاری، سن، بخشی كه در آن مشغول كار است، تاهل و تحصیلات است. روشن است كه از مشكلات كاركنان تعارض بین كار و زندگی شخصی است. با تحلیل و آنالیز دادهها توسط ابزار درخت تصمیم میتوان آن گروه از كاركنان را پیدا كرد كه بیشترین تعارض بین كار و زندگی آنها وجود دارد. مثلا معلوم میگردد كه كارگرانی كه سه شیفت باشند و متاهل و دیپلمه بوده و در سالن مونتاژ یک کارخانه خودروسازی كار میكنند، دچار تعارض جدی میان زندگی شخصی و كار هستند و به این ترتیب گروه هدف برای اقدام اصلاحی معلوم میگردد. یعنی به صورت خلاصه تصمیم گیری بر اساس اطلاعات قبلی و با دقت بالاتری انجام میشود.
از دیگر ابزارهای داده کاوی قوانین ارتباط است. توسط این ابزار قوانین علت و معلولی جاری در فضای مادی به دست میآیند. در این ابزار از موارد مهم، یافتن الگوهای پرتكرار در دادههاست. به عنوان مثال در حوزه منابع انسانی معلوم میگردد كه رضایت شغلی بالا و پست كارگری با هم ارتباط مثبت داشته و با تحصیلات ارتباط منفی دارد. یعنی میتوان الگوهایی كه در خصوصیات شغلی پرسنل موجود است را كشف كرد. بدیهی است كه كاربرد فوانین ارتباط منحصر به این مثال نشده و در موارد زیادی از جمله محاسبه عوامل انگیزشی، حوادث شغلی، وام های درخواست شده و … كاربرد دارد.
از دیگر ابزارها OLAP است كه در آن عملیات مختلفی از جمله تلخیص روی دادهها صورت میگیرد. مثلا طبقهای از پرسنل كه دارای درجهای از بهره وری هستند – فارغ از محلی كه در آن مشغول به كارند- معلوم میگردد. در این كار هدف، یافتن طبقهای خاص از دادههاست.
از دیگر ابزارهای داده کاوی، شبكههای عصبی مصنوعی است. در نگرش های جدید تحلیل اطلاعات، از موارد مهم موضوع یادگیری ماشین (Machine Learning) است و در این مجموعه مباحث، روش شبكههای عصبی مصنوعی جایگاه خاصی دارد. به صورت خلاصه این روش دارای مبانی زیر است:
این روش الهام گرفته شده از روش تحلیل اطلاعات در سیستم های عصبی طبیعی مثل مغز است.
هر سلول عصبی مصنوعی شامل یك لایه ورودی، یك لایه خروجی و یك یا چند لایه پنهان است كه اطلاعات را تبادل میكنند و قدرت یادگیری داشته و سیستم سازگار شونده ای دارند كه میتواند حین فرایند برای سازگاری بیشتر تغییر كند. شمای هر دو سلول عصبی طبیعی و مصنوعی در اشكال آمده است. در این روش مقادیر ورودی از سلول عصبی مصنوعی قبلی در ضرایبی ضرب شده و تابع ورودی را تشكیل می دهند. بر خلاف سلول های عصبی طبیعی كه دو حالت فعال و غیر فعال دارند (شرایط منطق كلاسیك)، سلول عصبی مصنوعی میتواند دارای حالات متنوعی از غیر فعال كامل گرفته تا فعال كامل (شرایط منطق فازی) داشته باشند.
داخل سلول بر ورودی ها عملیاتی انجام میگیرد كه تابع آن به دلیل كاهش خطا و افزایش توان نسبت به یك شبكه عصبی ساده، غیرخطی انتخاب میگردد.
این روش دارای فرایندی است كه به آن یادگیری گویند و در آن بدون تغییر نقشه كل، توابع ورودی، خروجی و ضرایب تنظیم میشوند. تنظیم وزن ها آنقدر ادامه مییابد كه خروجی سلول با آنچه كه باید باشد یكسان شود.
در واقع در هر دوره یادگیری كل ضرایب شبكه طوری تنظیم میشوند كه اختلاف میان مقدار مشاهده شده و مقدار پیشبینی شده حداقل گردد. به عنوان مثال یك شبكه عصبی ساده كه فاقد لایه پنهان است به صورت شكل فوق است.
روشن است كه این سلول با توجه به آنكه لایه پنهانی ندارد، نمیتواند دقت بالایی به میزان سلولهای پیچیدهتر داشته باشد. این عدم دقت ناشی از عدم توانایی مدل بندی تغییرات به روش غیرخطی است كه برای رفع این مشكل از روشهایی آزموده شده استفاده میشود.
این روش دارای نقاط قوت زیر است:
- توان بالا در كار با دادههایی كه نوسان (نویز) زیاد دارند.
- مناسب بودن برای دادههای پیوسته
- موفقیت در دادههای واقعی در كارهای كاربردی.
تكنیكهایی اخیرا ایجاد شده است كه برای استخراج قوانین موجود در شبكههای عصبی آموزش دیدهاند(یعنی فرایند یادگیری آنها طی شده است).
نقاط ضعف این روش عبارتند از:
- طولانی بودن محاسبات.
- نیاز به پارامترهایی كه به بهترین روش برای ساختار شبكه عصبی تعیین شده باشند.
- سختی تفسیر مسائل زیربنایی ضرایب به دست آمده.
از مواردی كه میتوان از این روش در آن استفاده كرد، پیشبینی متغیرهایی است كه تغییرات آنها وابسته به متغیرهای دیگری است. مثلا اگر مطالعهای در خصوص اضافه كار در دست انجام باشد، میتوان دید كه كدام گروه از متغیرها هستند كه در این مساله بیشتر تاثیر گذارند. به عنوان مثال ممكن است بخشی كه پرسنل در آن به كار مشغولند، جنسیت و تاهل كه در این موضوع موثر باشد. توسط روش شبكههای عصبی مصنوعی میتوان متوجه شد كه هر كدام از این متغیرها با چه ضریبی در میزان اضافه كار موثر هستند و بوسیله كنترل آنها میزان اضافه كار و در نتیجه پرداختی كل در این مورد را كنترل كرد.
فرایند حل مساله
در حل مساله با این روش آنچه كه مهم است وجود حجم بالایی از دادههاست كه در حال حاضر با پیشرفتهایی كه در حوزه تكنولوژی اطلاعات حاصل شده است، به دست آوردن این حجم از دادهها در بسیاری موارد كار خیلی مشكلی نیست.
فرایند این كار شامل مرحلهای برای مسالهیابی، شناخت دادههای مرتبط با مساله، جمعآوری و آمادهسازی دادهها، مدلسازی، ارزیابی مدل، اجرا و ارزیابی نتایج میباشد كه در شكل زیر نمایش داده شده است:
آن چه كه در ابتدای راه برای شروع الزامی به نظر میرسد معرفی این فرایند در سازمانها به منظور دریافت مساله برای شروع كار است. روشن است كه در گذر زمان و بازخوردهای مثبتی كه این روش حل مساله به سازمان ها می دهد موجب روی آوردن آنها به سوی روش داده کاوی میشود. گروه کیمن(Keyman) آمادگی دارد تا با استفاده از متخصصین خود در تکنیک داده کاوی، نسبت به اجرای آن در سازمانهای مختلف اقدام نموده و از این طریق به سودآوری سازمان ها و حل هوشمندانه مسائل آنها کمک کند.