موسسه آموزش عالي زاگرس
مديريت تحصيلات تکميلي
پايان نامه براي دريافت درجه کارشناسي ارشد در رشته کامپيوتر (M.Sc)
گرايش نرم‌افزار
عنوان:
پيشبيني و تشخيص کنتورهاي خراب با استفاده از طراحي يک روش ترکيبي از شبکه عصبي و درخت تصميم براي کاوش دادهها (مورد کاربردي: شرکت گاز استان کرمانشاه)
استاد راهنما:
دکتر فرهاد مردوخي
استاد مشاور:
دکتر محمد کاظمي فرد
تحقيق و نگارش:
فرهاد مرادپور
بهار 1393
بسمه تعالي
اين پايان نامه با عنوان پيشبيني و تشخيص کنتورهاي خراب با استفاده از طراحي يک روش ترکيبي از شبکه عصبي و درخت تصميم براي کاوش دادهها (مورد کاربردي: شرکت گاز استان کرمانشاه) به صورت قسمتي از برنامه آموزشي دوره كارشناسي ارشد نرم افزار توسط دانشجو فرهاد مرادپور با راهنمايي استاد پايان نامه دکتر فرهاد مردوخي تهيه شده است. استفاده از مطالب آن به منظور اهداف آموزشي با ذكر مرجع مجاز مي باشد.
(نام و امضاء دانشجو )

اين پايان نامه ……. واحد درسي شناخته مي شود و در تاريخ ………………….. توسط هيئت داوران بررسي و درجه ……………… به آن تعلق گرفت.
نام و نام خانوادگيامضاءتاريخاستاد راهنما اول:استاد راهنما دوم:استاد مشاور: استاد داور 1:استاد داور 2:نماينده تحصيلات تكميلي:
موسسه آموزش عالي زاگرس
مديريت تحصيلات تکميلي

تعهدنامه اصالت اثر
اينجانب فرهاد مرادپور تعهد مي كنم كه مطالب مندرج در اين پايان نامه حاصل كار پژوهشي اينجانب است و به دستاوردهاي پژوهشي ديگران كه در اين نوشته از آن استفاده شده است مطابق مقررات ارجاع گرديده است. اين پايان نامه پيش از اين براي احراز هيچ مدرك هم سطح يا بالاتر ارائه نشده است.
كليه حقوق مادي و معنوي اين اثر متعلق به موسسه آموزش عالي زاگرس مي باشد.
نام و نام خانوادگي دانشجو:
امضاء
چکيده
داده كاوي تلاشي سيستمي براي استخراج دانش از انبوه داده‌هاي موجود است. داده كاوي به كمك مجموعه‌اي از روش‌هاي آماري و مدل‌سازي، مي‌تواند الگوها و روابط پنهان موجود در پايگاه‌هاي داده را تشخيص دهد. با توجه به اينکه هر 7 سال يکبار کنتورهاي شرکت ملي گاز بايستي از لحاظ سلامت کنترل شوند و اين پروژه بدليل حضور نيروي انساني در محل و تست آزمايش کنتور هم از لحاظ زماني و هم مالي بسيار پرهزينه ميباشد. در اين پژوهش با اهداف کاربردي، سعي بر آن شده است که با ارائه يک روش ترکيبي از شبکه عصبي و درخت تصميم، فرآيند داده کاوي را با هدف تشخيص کنتورهاي خراب از پايگاه داده در شرکت ملي گاز اجرا و هزينههاي اين پروژه را بطور چشم گيري کاهش دهد. بطور کلي پروژه حاظر سعي در تشخيص کنتورهاي با احتمال بالاي خرابي از پايگاه داده شرکت ملي گاز را دارد. در طي فرآيند تحقيق، شبکه عصبي و درخت تصميم ابتدا بصورت جداگانه هر روش تست و اجرا شدهاند. سپس به بررسي ترکيبهاي مختلف از اين روشها پرداخته شده که نتيجه حاصل شده حاکي از اين است که با ترکيب شبکه عصبي و درخت تصميم گيري احتمال پيش‌بيني کنتور خراب به 93.43% (در مقايسه با مقادير واقعي) است، بنابراين مقايسه بين روش هاي مورد مطالعه در اين پژوهش نشان داد که روش ترکيب الگوريتم ها دقت بيشتر، احتمال پيش بيني بالاتري داشته است.

کلمات کليدي: داده کاوي، درخت تصميم گيري، شبکه عصبي، ترکيب روشها، نرم افزار Rapid miner
.
فهرست مطالب
عنوان صفحه
فصل اول: مقدمه
1-1 بيان مسأله15
1-2 اهميت و ضرورت تحقيق16
1-3 جنبه نوآوري تحقيق16
1-4 اهداف تحقيق18
1-5 سوالات پروژه18
1-6 فرضيه‌ها19
1-7 راهکار ارائه شده19
1-8 ساختار پايان‌نامه23
فصل دوم: مروري بر ادبيات و پيشينه تحقيق
2-1 داده کاوي چيست؟49
2-2 تعاريف متنوعي از داده کاوي50
2-3 آيا داده کاوي سودمند است؟51
2-4 آمار و داده کاوي52
2-5 پيچيدگي و هزينه زماني54
2-6 محرمانگي دادهها54
2-7 محدوديت‌هاي داده كاوي55
2-8 مراحل داده کاوي55
2-9 وظايف و تكنيك هاي داده كاوي56
2-9-1 کلاس‌بندي56
2-9-2 تخمين57
2-9-3 پيش‌بيني57
2-9-4 قواعد وابستگي يا گروه‌بندي پيوستگي‌ها57
2-9-5 خوشه‌بندي57
2-9-6 نمايه‌سازي توصيفي58
2-10 معماري سيستم مبتني بر داده كاوي58
2-11 روش‌هاي داده كاوي59
2-12 درخت تصميم‌گيري59
2-13 نقاط قوت درخت تصميم‌گيري61
2-14 معايب درختان تصميم61
2-15 آنتروپي62
2-16 هرس درخت تصميم توليدشده64
2-17 شبکه عصبي مصنوعي65
2-18 ماتريس تداخل69
2-19 واسط K-FOLD CROSS VALIDATION72
2-20 قوانين انجمني74
2-21 مرور ادبيات و سوابق مربوطه75
2-22 خلاصه فصل76
فصل سوم فرايند داده کاوي، معرفي و ارزيابي الگوريتم ها
3-1 معرفي نرم افزار RAPID MINER 5:61
3-2 واسط کاربري RAPID MINER 561
3-3 نحوه کار با RAPID MINER 562
3-3-1 انبارهها62
3-3-2 عملگرها63
3-3-3 تب پردازش64
3-3-4 تب پارامترها64
3-3-5 تب مشکلات64
3-3-6 تب کمک65
3-3-7 تب توضيحات و تب XML65
3-4 مقدمه66
3-5 متدولوژي CRISP-DM66
3-6 شروع داده کاوي67
3-6-1 درک کسب و کار67
3-6-2 درک دادهها67
3-6-3 آماده سازي دادهها68
3-6-3-1 توليد دادههاي آموزشي69
3-6-3-2 توليد دادههاي تست و ارزيابي69
3-6-4 ساخت مدل70
3-6-4-1 افزودن انبارهاي داده به نرم افزار70
3-6-4-2 درخت تصميم71
3-6-4-3 اعمال مدل درخت تصميم و تست و ارزيابي کار75
3-6-4-4 شبکه عصبي79
3-6-4-5 روشهاي ترکيبي81
3-6-5 نتيجه گيري82
فصل چهارم: نتيجه‌گيري و راهکار آينده
4-1 نتيجه گيري84
4-2 راهکار آينده84
واژه‌نامه فارسي به انگليسي85
فهرست شکلها
شکل 1- مدل فرآيند CRISP-DM براي کاربردهاي داده کاوي]9[20
شکل (2-1): معماري سيستم مبتني بر داده كاوي [42].59
شکل (2-2): تغيير ميزان آنتروپي را براي مجموعه‌اي با دو کلاس63
شکل (2-3): توابع نرمال سازي [40]67
نمودار(2-1): تقريب خطي73
شکل(3-1): صفحه نخست نرم افزار RAPID MINER 562
شکل 3-2: خروجي شيها63
شکل 3-3: خروجي قسمت مدل (شبکه عصبي)63
شکل 3-4: خروجي قسمت اطلاعات64
شکل (4-1): متدولوژي CRISP-DM67
شکل (4-2): نحوه افزودن فايل دادهاي به برنامه70
شکل (4-3): نحوه انتخاب نوع سطر71
شکل(4-4): آدرس عملگر درخت تصميم71
شکل(4-5): آدرس عملگر SET ROLE72
شکل(4-6): آدرس عملگر SELECT ATTRIBUTE72
شکل(4-7): آدرس عملگر DISCRETIZE BY FREQUENCY72
شکل(4-8): نحوه اتصال عملگرها73
شکل(4-9): درخت حاصل از دادههاي آموزشي با تابع هدف نسبت بهره اطلاعاتي74
شکل(4-10): درخت حاصل از دادههاي آموزشي با تابع هدف آنتروپي75
شکل (4-11): درخت حاصل از دادههاي آموزشي با تابع هدف پراکندگي جمعيت(جيني)75
شکل(4-12): آدرس عملگر APPLY MODEL76
شکل(4-13): اتصالات تب پردازش در مرحله اعمال مدل76
نمودار (4-1): پيشبيني حاصل از الگوهاي درخت تصميم با تابع هدف نسبت بهره اطلاعاتي77
نمودار(4-2): پيشبيني حاصل از الگوهاي درخت تصميم با تابع هدف آنتروپي77
نمودار(4-3): پيشبيني حاصل از الگوهاي درخت تصميم با تابع هدف پراکندگي جمعيت(جيني)78
شکل (4-15): اتصالات عملگرها جهت تشکيل مدل شبکه عصبي79
شکل(4-16): ساختار شبکه عصبي80
نمودار (4-4): نتيجه تشخيص شبکه عصبي80
نمودار(4-6): نتايج حاصل از اجراي شبکه عصبي بر دادههاي خرابي پيشبيني شده توسط درخت تصميم82
فهرست جداول
جدول (2-1): مقايسه آناليز آماري و داده کاوي ………………………………………………………………….. 53
جدول (2-2) کلاس هاي پيش بيني . ………………………………………………………………………………69
جدول (2-3): ماتريس تداخل…………………………………………………………………………………………… 70
جدول(2-4): مجموعه اعتبار سنجي…………………………………………………………………………………… 74
جدول) 3-1(: دادههاي مورد استفاده در تشخيص کنتورخراب……………………………………………….. 68
جدول (4-3): نتايج حاصل از ارزيابي نتايج درختهاي تصميم ايجاد شده………………………………… 78
جدول (4-3): مقادير پارامترهاي عملگر شبکه عصبي………………………………………………………….. 79
فصل اول
کليات تحقيق
اين فصل به تعريف مسأله و راهکار کلي مي‌پردازد. در ابتدا سعي مي‌شود که مسأله تعريف شود. سپس اهميت و ضرورت مسأله، اهداف و فرضيه‌ها شرح داده مي‌شود و در نهايت ساختار اين پژوهش، توضيح داده مي‌شود.
1-1 بيان مسأله
ظرفيت ذخيره سازي داده هاي ديجيتال در سراسر جهان هر نه ماه براي حداقل يک دهه دو برابر شده است، در صورتي که در دو برابر مدت مشابه طبق پيش بيني قانون مور1 قدرت محاسباتي و سرعت رشد ميکند]1[. داده کاوي نشان دهنده يک گام در فرايند کشف دانش در پايگاه دادهها2 ميباشد]2[ که ميتوان آن را يک نياز اساسي در دنياي امروز دانست. بنا بر اعلام دانشگاه MIT امروزه مرز و محدوديتي براي دانش داده کاوي در نظر گرفته نشده و دامنه کاربرد آن را از اعماق اقبانوسها تا بي کران فضا ميدانند]3[. تلاش براي الگوهاي موجود در دادهها مدت زمان طولاني در بسياري از زمينه ها، از جمله آمار، الگوشناسي3 ، و تجزيه و تحليل دادههاي اکتشافي مورد مطالعه قرار گرفته شده است]4[.
داده کاوي به عنوان يک ابزار مهم براي کسب دانش از پايگاه داده هاي پديد آمده است]5[ از اين رو ميتوان به اهميت الگوريتمهاي داده کاوي پي برد که شبکههاي عصبي و درخت تصميم از جملهي اين الگوريتمها ميباشد. درخت تصميم يک راه طبيعي براي ارائه يک فرآيند تصميم گيري ميباشد، چرا که درک آنها براي هر کسي ساده و آسان است]6[ همچنين محبوبيت شبکههاي عصبي با دست اندرکاران داده کاوي در حال افزايش چشم گير است زيرا آنها خود را، از طريق مقايسهي قدرت پيش بيني خود با تکنيکهاي آماري با استفاده از مجموعه دادههاي واقعي اثبات کردهاند]7[. تحقيقات جديد نمايانگر اين است که الگوريتمهاي ترکيبي دقت بيشتر و عملکرد بهتري را به نسبت به استفادهي مجزا و مستقل آنها در دادهکاوي از خود نشان ميدهند]8[.
با توجه به آنکه تشخيص کنتورهاي خراب توسط خود شرکت گاز با استفاده از دادههاي موجود مقدور نميباشد، اين شرکت براي تعويض و شناسايي کنتورهاي خراب ميبايست مأموريني داشته باشد که در محل حضور داشته و بصورت فيزيکي اقدام به تست کنتور نمايد تا اگر احتمالا خراب بود اقدامات لازم را انجام دهند که با توجه به وجود تعداد زياد مشترکين اين عمل يک فرايند زمان بر، پرهزينه و سخت خواهد بود. نوع تحقيق حاضر براساس هدف طراحي و کاربردي مي باشد. هدف از طراحي، طراحي يک روش ترکيبي از شبکه عصبي و درخت تصميم براي کاوش دادههاي شرکت شرکت ملي گاز در راستاي کاهش هزينه پروژهي تعويض کنتورهاي خراب ميباشد که شرکت مذکور هر 7 سال يکبار بايد اقدام به انجام آن در حوزه مربوطه مينمايد. پروژه حاضر سعي دارد تا با طراحي روش ترکيبي از شبکه عصبي و درخت تصميم فرآيند دادهکاوي را جهت تحليل دادههاي حوزه کرمانشاه استفاده کرده و کنتورهايي با احتمال بالاي خرابي را شناسايي و به شرکت نام برده ارائه دهد تا در حد توان جهت کمينه کردن هزينه تشخيص و تعويض کنتورها کمک نمايد.
1-2 اهميت و ضرورت تحقيق
امروزه علم داده کاوي در هر جايي که داده وجود داشته باشد کاربرد پيدا کرده است و روش ترکيب روشهاي مختلف آن براي حصول نتيجه بهتر را ميتوان کاري جديد دانست. همانطور که در بيان مسأله نيز شرح داده شد، شرکت ملي گاز قادر به تشخيص کنتورهاي خراب از پايگاه داده بدون حضور در محل و همچنين کشف الگوهاي مرتبط با مسأله که در پايگاه داده شرکت موجود است، نميباشد. از اين رو اين پروژ با استفاده از علم داده کاوي و با ترکيب الگوريتمهاي موجود، سعي در حل مسأله تشخيص ميکند.
داده کاوي به عنوان يک ابزار مهم براي کسب دانش از پايگاه داده هاي حجيم ميباشد]5[ و با توجه به حجيم بودن پايگاه داده شرکت ملي گاز ميتوان فهميد که کار تجزيه و تحليل پايگاه داده بدون استفاده از علم داده کاوي و بصورت دستي امري محال ميباشد. به اين ترتيب با توجه به موارد مطرح شده در بيان مسأله ميتوان به اهميت موضوع کاملا پي برد.

1-3 جنبه نوآوري تحقيق
داده کاوي به تازگي وارد صنعت ملي گاز شده[9]، با توجه به اين مسأله و همچنين تحقيقات و بررسيهاي انجام شده در ادارات گاز استان کرمانشاه و اروميه انجام اين پروژه در اين ادارات بي سابقه بوده است. امروزه روشها و الگوريتمهاي داده کاوي در زمينههاي مختلف وارد ميشوند و روش ترکيبي جديدي که در اين پروژه طراحي و تست و ارزيابي ميشود ميتواند راهنمايي براي کارهاي مشابه باشد.

1-4 اهداف تحقيق
* از نتايج و کارهاي انجام شده در آن بطور خلاصه و نکتهاي ميتوان به موارد زير اشاره کرد:
* ارائه يک روش ترکيبي و يک مدل قابل قبول از درخت تصميم و شبکه عصبي براي حل مشکل تشخيص کنتور خراب
* تحليل دادههاي شرکت ملي گاز براي کاهش هزينه تشخيص و تعويض کنتور خراب
* مقايسه الگوريتمهاي مختلف موجود در روشهاي درخت تصميم
1-5 سوالات پروژه
مهم‌ترين سؤالات اين تحقيق در پنج مورد زير خلاصه مي‌شود.
* براي تحليل دادههاي شرکت گاز کدام ترکيب از الگوريتمهاي گفته شده مناسبتر است؟
* معيارهاي مناسب جهت تشخيص کنتور خراب چيست؟
* کدام ساختار4 براي شبکه عصبي پيشنهادي مناسبتر است؟
* مدل حاصله چگونه آموزش داده ميشود؟
* آيا ميتوان احتمال خرابي يک کنتور را با مدل تصميم گيري ارائه شده با دقت قابل قبول تشخيص داد؟
1-6 فرضيه‌ها
در اين پروژه موارد زير به عنوان فرضيه جهت حل مسأله و پاسخ به سوالات پروژه در نظر گرفته شده است:
* الگوريتم ترکيبي از درخت تصمبم و شبکه عصبي راهکار مناسبي براي حل مسأله است.
* معيارها و فاکتورهاي ارزيابي خرابي کنتور در جريان اجراي الگوريتم از پايگاه دادهها قابل دسترسي و محاسبه است.
* تعداد وروديها بستگي به تعداد متغيرها داشته و نتيجهي حاصله شامل کنتورهاي خراب ميباشد. پس ساختار مورد استفاده شامل چندين ورودي و يک خروجي ميباشد.
* اگر بنا بر دسته بندي کنتورهاي خراب در چندين دسته مانند کنتورهاي خراب، کنتورهايي با احتمال بالاي خرابي، کنتورهايي با احتمال پايين خرابي و… شبکه داراي چندين خروجي خواهد شد.
* با استفاده از دادههايي که از شناسايي يکسري محدود دادههاي کنتورهاي سالم و همچنين يکسري محدود دادههاي کنتورهاي خراب، شبکه آموزش داده ميشود.
* اختلافات بوجود آمده بين دادههاي يک مشترک در طول زمان و استمرار آن را ميتوان دليل بر خرابي کنتور دانست.
1-7 راهکار ارائه شده
با توجه به حساسيت اين شرکت بر روي دادهها قبلا مجوز دسترسي به فيلدهاي مربوطه گرفته شده است و منبع دادهها پايگاه داده شرکت ملي گاز کرمانشاه است. الگوريتمهاي داده کاوي را از يک ديد کلي بر اساس نوع ميتوان به 2 گروه تقسيم کرد که عبارتند از دسته بندي و خوشه بندي. دسته بندي شامل بررسي ويژگيهاي يک شي جديد و تخصيص آن به يکي ازمجموعههاي از قبل تعريف شده ميباشد ولي خوشه بندي به عمل تقسيم ناهمگن به تعدادي از زير مجموعهها يا خوشههاي همگن گفته ميشود]3[. با توجه به تعاريف، نوع استفاده شده در اين پروژه دسته بندي ميباشد. با توجه به گسسته بودن اطلاعات روشي مشتمل بر شبکه عصبي و درخت تصميم براي حل مساله مطرح شده طراحي ميشود. با استفاده از پرسشنامه جهت دستيابي به تجارب مسئولين مرتبط با هدف پروژه، معيارهايي براي تعريف کنتور سالم و کنتور خراب از ديدگاه شرکت مشخص خواهد شد. نتيجه اين پرسشنامه که ويژگيهاي کنتور خراب را از ديد مسئولين مشخص خواهد کرد که در تشخيص معيارهاي ارزيابي کمک خواهد نمود. با توجه به معيارهاي بدست آمده و ترکيب آنها با معيارهاي مهندسي شده درمورد ساختار شبکه عصبي تصميم گرفته خواهد شد و همچنين معيارهاي مقايسه در درخت تصميم مورد نظر بدست ميآيد. دادههاي ارزيابي شده به عنوان مجموعه اعتبارسنجي انتخاب ميشود که جداي از دادههاي آموزش شبکه ميباشد. بعد از آموزش شبکه عصبي و درخت تصميم نسبت به ارزيابي و اعتبار سنجي آنها با مناسبترين الگوريتم از بين الگوريتمهاي نام برده شده در شرح مسأله اقدام خواهد شد. بعد از اتمام طراحي و اعتبار سنجي روش حاصل توسط ابزارهاي داده کاوي تست و اجرا ميشوند و در صورت بروز مشکل يا احتمال خطا با توجه به تکرارپذير بودن داده کاوي مراحل گفته شده دوباره تا حصول بهترين نتيجه تکرار خواهند شد. بعد از اتمام کلي و نهايي شدن طراحي، روش حاصله توسط ابزارهاي داده کاوي تست و اجرا گشته و در نهايت نتايج جهت کمينه کردن هزينهي پروژهي مذکور در شرکت ملي گاز کرمانشاه به آن شرکت ارائه خواهد گرديد.
روند داده کاوي نيز طبق متودلوژي 5CRISP-DM ]6[ پيش خواهد رفت که در شکل 1 ميتوان آن را مشاهده نمود.
شکل 1- مدل فرآيند CRISP-DM براي کاربردهاي داده کاوي]6[
با توجه به اينکه داده کاوي يک فرآيند تکرارشونده است اين مراحل تا حصول يک نتيجه قابل قبول تکرار خواهند شد.
تکنيکهاي داده کاوي را ميتوان به منظور ساخت سه نوع مدل، براي سه نوع فعاليت بکار برد که عبارتند از نمايه سازي توصيفي6، نمايه سازي هدايت شده7 و پيش بيني]3[ که پروژه حاضر از نوع نمايه سازي هدايت شده ميباشد.
با توجه به استفاده از درخت تصميم و شبکه عصبي در اين پروژه مراحل انجام طراحي براي هر قسمت جداگانه در ادامه توضيح داده خواهد شد.
الگوريتمهاي درخت تصميم در دسته بندي دادههاي جديد بهترين عملکرد را ندارد. ميتوان اينگونه گفت که درخت، الگوهاي کلي را در گرههاي بزرگ و الگوهاي خاص را در گرههاي کوچکتر مييابد. به عبارتي، درخت بر مجموعه آموزشي محاط شده8 که نتيجه آن يک درخت بيثبات و ناتوان در پيش بينيهاي مناسب ميباشد. علاج کار، حذف تقسيمات ناپايدار از طريق ادغام برگهاي کوچکتر توسط فرآيندي است که هرس کردن نام دارد]10[. براي هرس کردن يکي از الگوريتمهاي موجود مانند هرس کارت9 ]11[، هرس C5 ]11[، هرس ثبات محور10 ]10[ استفاده خواهد شد.
براي اندازه گيري خلوص ارزيابي تقسيمات در متغيرهاي تابع هدف درخت تصميم با توجه به دستهاي يا عددي بودن آن از روشهاي رايج مانند جيني ( پراکندگي جمعيت)]12[، آنتروپي11 (بهره اطلاعاتي)]13[، نسبت بهره اطلاعاتي12 که بيشترين کارايي را دارد استفاده شده است]10[.

براي طراحي شبکه عصبي در راستاي اهداف پروژه مراحل زير دنبال خواهد شد]10[:
1. تشخيص مشخصههاي ورودي و خروجي
2. تبديل وروديها و خروجيها به نحوي که در يک بازه کوچک قرار گيرند.
3. ايجاد شبکه با يک ساختار13 مناسب
4. آموزش دادن شبکه به کمک مجموعه دادههاي آموزشي
5. استفاده از مجموعه اعتبار سنجي، جهت انتخاب مجموعه اوزاني که خطا را به حداقل ميرساند
6. ارزيابي شبکه با استفاده از مجموعه آزمون به منظور بررسي کيفيت عملکرد آن
7. به کار گرفتن مدل ساخته شده توسط شبکه جهت پيش بيني نتايج متناظر با وروديهاي نامعلوم
بعد از طراحي شبکه عصبي توسط مراحل گفته شده ميتوان به سوالات زير پاسخ داد:
تابع فعال سازي14 چيست؟
ساختار شبکه چگونه است؟
شبکه چگونه آموزش داده ميشود؟
ساختار شبک داراي حداقل دو لايه پنهان است. بر روي يالهاي شبکه اوزاني با استفاده از روش پس انتشار خطا15 براي تنظيم و تشخيص وروديها در نظر گرفتيم. در نهايت بعد از طراحي، مدل را ساخته و در نرم افزار Rapid Miner 5 تست و اجرا کرديم و اشکالات را يافته و با تکرار مراحل طراحي آنها را رفع کرديم تا در نهايت مدل طراحي شده بتواند به مسأله مطرح شده پاسخ قابل قبولي را ارائه دهد.
1-8 ساختار پايان‌نامه
در ادامهي متن پايان نامه، ساختار کلي فصول مختلف به صورت زير خواهند بود:
* فصل دوم: اين فصل مروري بر ادبيات و پيشينه پروژه ميباشد که در آن به معرفي اوليه الگوريتمها و روشهاي اجرا شده در پروژه اشاره ميکنيم.
* فصل سوم: در اين فصل فرآيند داده کاوي انجام شده و روشها تست و ارزيابي ميشوند و در نهايت روش ترکيبي از بهترين نتايج بدست آمده را تشکيل داده و معرفي ميکنيم.
* فصل چهارم: اين فصل به نتيجه نهايي پروژه و معرفي راهکارهاي آينده اشاره ميکند.

فصل دوم
مروري بر ادبيات و پيشينه تحقيق
2-1 داده کاوي چيست؟
بنا بر اعلام دانشگاه MIT دانش نوين داده کاوي يکي از ده دانش در حال توسعه‌اي است که دهه آينده را با انقلاب تکنولوژيکي مواجه مي‌سازد. اين تکنولوژي امروزه داراي کاربرد بسيار وسيعي در حوزه‌هاي مختلف است، به گونه‌اي که امروزه حد و مرزي براي کاربرد اين دانش در نظر نگرفته‌اند [14].
داده کاوي، تحليل داده و کشف الگوهاي پنهان با استفاده از ابزارهاي خودکار و يا نيمه خودکار است و هم چنين فرآيندي پيچيده جهت شناسايي الگوها و مدل هاي صحيح، جديد و به صورت بالقوه مفيد در حجم وسيعي از داده مي‌باشد، به طريقي که اين الگوها و مدلها براي انسان‌ها قابل‌درک باشند. جمع‌آوري داده‌ها سبب شده سازمان‌ها منابع داده غني و دانش ناچيزي داشته باشند. حجم اين مجموعه داده‌ها به سرعت افزايش مي‌يابد و باعث محدود شدن استفاده کاربردي از داده‌هاي ذخيره‌شده مي‌شود. هدف اصلي داده کاوي استخراج الگوها از داده‌هاي موجود، افزايش ارزش ذاتي‌شان و تبديل داده به دانش است [14].
با گسترش سيستمهاي پايگاهي و حجم بالاي داده‌هاي ذخيره‌شده در اين سيستمها، به ابزاري نياز است تا بتوان اين داده‌ها را پردازش کرد و اطلاعات حاصل از آن را در اختيار کاربران قرارداد. معمولاً کاربران پس از طرح فرضيه‌اي بر اساس گزارشات مشاهده‌شده به اثبات يا رد آن مي‌پردازند درحالي‌که امروزه به روش‌هايي نياز داريم که به کشف دانش مي‌پردازند، يعني روش‌هايي که با کمترين دخالت کاربر و به صورت خودکار الگوها و رابطه‌هاي منطقي را پيدا کرده و بيان نمايد.
امروزه، بيش‌ترين کاربرد داده کاوي در بانک‌ها، مراکز صنعتي و کارخانجات بزرگ، مراکز درماني و بيمارستان‌ها، مراکز تحقيقاتي، بازاريابي هوشمند مي‌باشد. داده کاوي فرآيند اکتشاف اطلاعات و روندهاي نهفته از درون حجم بسيار زياد داده‌هايي است که در قالب پايگاه‌هاي داده‌اي، انباره هاي داده‌اي و يا هر نوع انباره اطلاعاتي ذخيره مي‌شود. داده کاوي اطلاعات موجود در انبار داده‌ها را استخراج و داده‌ها را به دانشي حياتي و مهم در ارتباط با کسب و کار تبديل مي‌نمايد [15]. از طريق داده کاوي و دانش جديدي که در اختيار قرار مي‌دهد، افراد مي‌توانند از داده‌ها به عنوان اهرمي جهت خلق فرصت‌ها يا ارزش‌هاي جديد در سازمان خود استفاده کنند و همچنين براي مسائل طبقه‌بندي و رگرسيون بکار گرفته شود. در مسائل طبقه‌بندي، دسته‌اي از اشياء که در داخل يک طبقه‌اي قرار دارند پيش‌بيني مي‌شوند و در مسائل رگرسيون، يکسري از اعداد، پيش‌بيني مي‌گردند.
در حال حاضر، داده کاوي مهم‌ترين فناوري جهت بهره‌برداري موثر از داده‌هاي حجيم است و اهميت آن رو به فزوني است [16]. به طوري که تخمين زده شده است که مقدار داده‌ها در جهان هر 20 ماه به حدود دو برابر برسد. در يک تحقيق که بر روي گروه‌هاي تجاري بسيار بزرگ در جمع‌آوري داده‌ها صورت گرفت مشخص گرديد که 19 درصد از اين گروه‌ها داراي پايگاه داده‌هايي با سطح بيشتر از 50 گيگابايت مي‌باشند و 59 درصد از آن‌ها انتظار دارند که در آينده‌اي نزديک در چنين سطحي قرار گيرند [16].
2-2 تعاريف متنوعي از داده کاوي
در زير به تعاريف داده کاوي از ديدگاههاي مختلف ميپردازيم:
* داده کاوي کشف دانش از پايگاه داده‌ها ناميده مي‌شود) نشانگر فرآيند جالب استخراج دانش از قبل ناشناخته (الگو از داده است [17].
* فرآيند کشف الگوهاي مفيد از داده‌ها را داده کاوي مي‌گويند [16].
* فرآيند انتخاب، کاوش و مدل کردن داده‌هاي حجيم، جهت کشف روابط نهفته باهدف به دست آوردن نتايج واضح و مفيد، براي مالک پايگاه داده‌ها را، داده کاوي گويند [17].
* “فايد”16، داده کاوي را اين‌گونه تعريف کرد، يک فرايند استخراج از اطلاعات ضمني ناشناخته و مفيد از داده‌هاي ذخيره‌شده در پايگاه داده‌هاست [18].
* “گوديچي”17، نيز داده کاوي را فرايند انتخاب، اکتشاف ومدل سازي مقادير زيادي از داده‌ها براي به دست آوردن نتايج روشن و مفيد براي پايگاه داده‌ها تعريف مي‌کند [18].
اما تعريفي که در اکثر مراجع به اشتراك ذکرشده عبارت است از: “استخراج اطلاعات و دانش و کشف الگوهاي پنهان از يک پايگاه داده‌هاي بسيار بزرگ و پيچيده”[17].
داده کاوي يک متدلوژي بسيار قوي و با پتانسيل بالا مي‌باشد که به سازمان‌ها کمک مي‌کند که بر روي مهم‌ترين اطلاعات از مخزن داده‌هاي خود تمرکز نمايند [19].
ابزارهاي داده کاوي الگوهاي پنهاني را کشف و پيش‌بيني مي‌کنند که متخصصان ممکن است به دليل اينکه اين اطلاعات و الگوها خارج از انتظار آن‌ها باشد، آن‌ها را مدنظر قرار ندهند و به آن‌ها دست نيابند [19].
2-3 آيا داده کاوي سودمند است؟
داده کاوي به دو دليل سودآور است:
* داده کاوي منجر به تصميمات واقع‌بينانه مي‌شود.
* داده کاوي منجر به تکرار تصميمات سودآور اتفاق افتاده در گذشته مي‌شود.
با استفاده از داده کاوي تصميمات احساسي کنار گذاشته ميشوند و بر اساس واقعيت‌ها تصميمات گرفته ميشوند. بنابراين ضررهاي ناشي از ناآگاهي مديران حذف مي‌شود. داده کاوي همچنين فضاي سال‌هاي گذشته‌ي شرکت شما را بازبيني مي‌کند و در نهايت نشان مي‌دهد کدام تصميمات منجر به سود شده است درحالي‌که شما از آن تصميمات اطلاعي نداريد. شرکت‌ها و سازمان‌ها هر لحظه در حال اتخاذ تصميمات جديدي هستند که منجر به سود يا زيان آن مجموعه مي‌شود. بسياري از تصميمات بر اساس واقعيات موجود گرفته نمي‌شود و عواملي چون “فراموشي”، “تخلفات و تقلبات”، “اشکالات خط توليد”، “منافع شخصي” و “سياست‌هاي اعمال نفوذ شده از جاهاي ديگر” منجر به اتخاذ تصميمات غير شفاف و در نتيجه زيانبار مي‌شود[20].
اما داده کاوي فضاي حاکم بر کسب‌ وکار شما را شفاف مي‌کند و شما را ملزم مي‌کند واقع‌بينانه تصميم بگيريد. تصميم‌گيري واقع‌بينانه کليد از بين بردن تصميمات احساسي و در نتيجه از بين بردن بهره‌وري پايين و ضررهاي ناشي از ناآگاهي است. به طور کلي فضاي تصميم‌گيري در يک کسب‌ و کار شباهت بسيار زيادي به فضاهاي تصميم‌گيري اتفاق افتاده در 10 سال گذشته‌ي آن مجموعه دارد. اين شباهت در ياد تصميم‌گيرندگان آن کسب‌ و کار باقي نمي‌ماند و اغلب آشکار نيز نمي‌شود. داده کاوي فضاي سال‌هاي گذشته‌ي کسب‌ و کار شما را بازخواني مي‌کند و به شما مي‌گويد کدام تصميمات منجر به سود شده است و کدام تصميمات منجر به زيان کسب‌ و کار شده است. بنابراين داده کاوي باعث مي‌شود تصميمات زيان ده کسب و کارتان در گذشته را تکرار نکنيد ولي تصميمات سودآور اتفاق افتاده در گذشته را دوباره تکرار کنيد. به لحاظ فني، داده كاوي عبارت از فرآيندي است كه در ميان حوزه‌هاي گوناگون بانک‌هاي اطلاعاتي ارتباطي بزرگ، همبستگي‌ها يا الگوهايي را پيدا مي‌کند [21].
2-4 آمار و داده کاوي
تلاش براي الگوهاي موجود در دادهها مدت زمان طولاني در بسياري از زمينه ها، از جمله آمار، الگوشناسي18 ، و تجزيه و تحليل دادههاي اکتشافي مورد مطالعه قرار گرفته شده است]4[. داده کاوي اساساً يک رشته کاربردي است و يک داده کاوي بايد از روش‌هاي آماري درك خوبي داشته باشد. در داده کاوي تلاش مي‌شود بين آمار و علوم رايانه‌اي رابطه‌اي برقرار گردد. برقراري اين ارتباط به دليل وجود يک سلسله از فرضيات ضمني و غير واضح و دشوار بودن تبديل مفاهيم نظري به الگوريتم‌هاي رايانه‌اي در ادبيات آماري و به دليل وجود الگوريتم‌هاي فراوان در ادبيات رايانه‌اي دشوار است. لذا داشتن درکي درست از مدل‌سازي و الگوريتم‌هاي محاسباتي براي کارهاي داده کاوي ضروري است.
روابط در داده کاوي غالباً به صورت الگوها و مدلهايي از قبيل معادلات رگرسيوني، سري‌هاي زماني، خوشه‌ها، رده‌بندي‌ها، گراف‌ها و غيره ارائه مي‌شوند. در داده کاوي نيز همانند آمار غالباً داده‌هايي که تحليل مي‌شوند، نمونه‌اي از جامعه هستند که به تبع بزرگ بودن جامعه با نمونه‌اي حجيم مواجه هستيم. در هنگام کار با مجموعه داده‌هاي حجيم مشکلات تازه‌اي بروز مي‌کند. برخي از اين مشکلات به نحوه ذخيره‌سازي يا فراخواني داده‌ها مربوط مي‌شود و برخي ديگر مربوط به مسائلي مانند نحوه تحليل داده‌ها در زماني مناسب و استخراج الگوها و مدلهاي حاکم بر داده‌ها است [22]. به طور کلي فرآيند کاوش الگوها، مدل ها و روابط مطلوب در يک مجموعه داده شامل مراحل زير است:
* معين ساختن طبيعت و ساختار مورد نظر
* تصميم‌گيري در مورد ميزان برازش نمايش‌هاي متفاوت به داده‌ها، يعني انتخاب يک تابع امتياز
* اتخاذ يک فرآيند الگوريتمي براي بهينه‌سازي تابع امتياز
* تصميم‌گيري در مورد اصول مديريت داده‌ها براي اجراي موثر الگوريتم
با توجه به اينکه مدلها و الگوها، توابع امتياز، روش‌هاي بهينه‌سازي و راهکارهاي مديريت داده‌ها چهار مؤلفه اصلي الگوريتم‌هاي داده کاوي را تشکيل مي‌دهند، با توجه به اينکه ماهيت داده‌ها در آمار با داده کاوي متفاوت است، داده کاوي به برخي از روش‌هاي آماري که داراي ويژگي‌هاي خاصي مي‌باشند توجه بيشتري نشان مي‌دهد.
يکي از ويژگي‌هاي مورد توجه روش‌هاي آماري در داده کاوي، سادگي تعبير آن‌ها است. از اين رو به استفاده از مدلهاي نسبتاً ساده و قابل تعبير مانند گراف‌ها گرايش زيادي وجود دارد. در داده کاوي مواردي که در آن‌ها با تعداد بسيار زيادي متغير، مدل و يا فرضيه مواجه هستيم، فراوان است. از طرفي داده کاوي يک فرآيند اکتشافي و تکراري است به اين معني که در خلال تحليل داده‌ها اطلاعات جديد کشف مي‌شوند و فرضيه‌هاي قبلي اصلاح و فرضيه‌هاي جديد ارائه مي‌شوند و اين کار ممکن است با داده‌هاي زياد، بارها تکرار شود. لذا از ديدگاه آمار روش‌هايي با کارايي محاسباتي بالا، تحليل‌هاي محاسباتي و تحليل‌هاي تقريبي، مورد توجه خاص داده کاوي هستند. تاکيد بيشتر داده کاوي بر بعضي روش‌هاي آماري، به معني عدم استفاده از ساير روش‌هاي آماري نيست و در عمل از طيف گسترده‌اي از روش‌هاي آماري براي تحليل داده‌ها استفاده مي‌شود.
آمار و داده کاوي هر دو با روش‌هاي تحليل و مدل بندي داده‌ها مرتبط مي‌باشند. بنابراين اشتراك زيادي بين اين دو رشته وجود دارد. به عنوان يک شوخي، يکي از نويسندگان در پاسخ سؤال اينکه “داده کاوي چيست؟ بيان مي‌کند که “همان آمار است، اما با يک نام خيلي بهتر” البته اين ويژگي به معناي يكسان دانستن داده كاوي وآناليزآماري نيست، در جدول زير اين تفاوت‌ها آورده شده است [23،21].
جدول (2-1): مقايسه آناليز آماري و داده کاوي [22]
آناليز آماريداده كاوي آمار شناسان هميشه با يک فرضيه شروع به کار مي‌کنند. به فرضيه احتياجي ندارد. آمار شناسان بايد رابطه‌هايي را ايجاد کنند که به فرضيه آن‌ها مربوط شود الگوريتم‌هاي داده كاوي در ابزارها به طور اتوماتيک روابط را ايجاد مي‌کنند آن‌ها از داده‌هاي عددي استفاده مي‌کنند. ابزارهاي داده كاوي از انواع مختلف داده و نه فقط عددي مي‌توانند استفاده کنند. آن‌ها مي‌توانند داده‌هاي نابجا و نادرست را در طول آناليز تشخيص دهند داده كاوي به داده‌هاي صحيح و درست طبقه‌بندي شده بستگي دارد. آن‌ها مي‌توانند نتايج کار خود را تفسير کنند و براي مديران بيان کنند. نتايج داده كاوي آسان نيست و همچنان به متخصصان آمار براي تحليل آن‌ها و بيان آن‌ها به مديران نياز است.
2-5 پيچيدگي و هزينه زماني
تحليلگران دريافتهاند که پيچيدگي و زمانبر بودن دسترسي به حجم زياد دادههاي مورد نياز و پردازش آن‌ها توسط بعضي ابزارهاي داده کاوي، استفاده از اين ابزارها را در هر نقطه از زمان و مکان غيرممکن ساخته است.
وزارت امنيت داخلي ايالات‌متحده آمريکا در آگوست 2006، به 12 تلاش داده کاوي دست زد که يکي از آن‌ها سيستم TVIS19 بود. اين سيستم به منظور ايجاد و بهبود اشتراک دانش از خطرات تروريستي بالقوه، به روشي واحد دادههاي زنده توليدشده به وسيله خلبانان را ترکيب ميکرد. نتايج تحليلها نشانداد که اگرچه اين سيستم در يک دوره تناوب دو ساعته کار مي‌کند، کاربران قادر به استفاده روزانه از آن نبوده و فقط دو تحليلگر امکان استفاده همزمان از آن را دارند. اين منجر به اتلاف وقت تحليلگران در زمان جستجو در پايگاه دادههاي مضاعف شد. مشکل پيچيدگي و هزينه زماني بعضي تکنيکهاي داده کاوي، موجب کاهش پذيرش استفاده زمان واقعي از اين سيستمها توسط افراد و روي آوردن به سيستمهايي با عملکرد ضعيفتر ميشود [24].
2-6 محرمانگي20 دادهها
با وجود تکنيکهاي داده کاوي و اشتراک اطلاعات، توجه بسياري از تحليلگران به پيادهسازي محرمانگي و امنيت دادهها معطوفشدهاست. بعضي کارشناسان پيشنهاد کرده‌اند که بعضي کاربردهاي ضد تروريسمي داده کاوي ميتواند براي يافتن الگوهاي تبهکارانه و مقابله با انواع جرمها مفيد باشد. تا کنون، با وجود ديدگاه‌هاي متضاد بحث شده، توافق کمي درباره اينکه داده کاوي به چه صورت بايد اجرا شود وجود دارد. بعضي مخالف سبک سنگيني براي ايجاد محرمانگي و تأمين امنيت هستند. بعضي ناظران نيز پيشنهاد کرده‌اند که قوانين و مقررات مربوط به حمايت از محرمانگي کافي هستند و هيچ تهديدي براي محرمانگي وجود ندارد. هنوز ناسازگاريهايي در باب اين مسئله وجود دارد که بايد برطرفشوند. به موازات پيشرفت‌هاي داده کاوي، سؤالات متنوعي افزايش مييابند شامل اينکه نهادهاي شهري و دولتي تا چه اندازه مي‌بايست دادههاي تجاري را با دادههاي دولتي استفاده و ترکيب کنند، آيا منابع داده به منظورهايي غير از هدف اصلي طراحي ميشوند و کاربردهاي ممکن از اعمال محرمانگي چيست؟ [25]
2-7 محدوديت‌هاي داده كاوي
“گـرچه داده كاوي پيشرفت شگرفي در نوع ابزارهاي تحليلي موجود به وجود آورده است، لكن محدوديت‌هايي نيز درباره كاربردپذيري آن وجود دارد. يكي از محدوديت‌ها اين است كه ابزارهاي داده كاوي هنوز استانداردسازي نشده‌اند و از نظـر تأثيرگذاري اختـلاف فـاحشـي با يكـديگـر دارنـد. محدوديت ديگر آن است كه گــرچــه داده كـاوي مي‌تواند بـه آشكـارسـازي انگاره‌ها و رابطه‌ها كمك كند اما نمي‌تواند ارزش يا اهميت اين انگاره‌ها را به كاربر بگويد. بـنــابــرايــن، خــود كــاربـر بـايـد ايـن اطـلاعـات را مشخـص كنـد. محـدوديـت ديگـر اين است كه گرچه داده كاوي مي‌تواند روابط بين رفتارها يا متغيرها را شناسايي كند، اما لزوما نمي‌تواند يك رابطه تصادفي را شناسايي كند”[26].
2-8 مراحل داده کاوي
چرخهي داده کاوي شامل روشها و مراحل مختلفي ميباشد که ما در اين پروژه از متدولوژي CRIDP-DM استفاده ميکنيم. مراحل متدولوژي نام برده به ترتيب زير است:
* درک کسب و کار: در اولين قدم بايستي يک تعريف مناسب از مسأله و فضايي که قرار است پروژه در آن اجرا شود، داشت.
* درک دادهها: در دومين قدم بايستي تمامي دادهها جمع آوري شود و مورد بررسي قرار گيرند. در اين مرحله دادهها تعريف و يک ديد از هرکدام از دادهها ارائه ميشود.
* آماده سازي دادهها: در اين بخش دادههاي مورد نياز تشخيص داده شده و يا دادههاي جديد از ترکيب دادههاي قبلي توليد ميشوند.
* ساخت مدل: در اين مرحله بايستي با استفاده از دادههاي موجود مدلي براي حل مسأله ساخته شود. اين مدل ميتواند با هر يک از روشهاي داده کاوي در راستاي هدف تعريف شده ساخته شود.
* تست و ارزيابي: در اين مرحله مدل ساخته شده با دادههاي مشخص بايستي مورد تست و ارزيابي قرار بگيرند. در اين ارزيابي بنا به تعريف مسأله ميتوان معيارهايي مانند دقت و يا سرعت مدل را مورد بررسي قرار داد.
* ارائه مناسب از مدل و نتايج: در آخرين مرحله از اين فرآيند بايستي روشي مناسب براي ارائه مدل و نتايج حاصل از اجرا و تست و ارزيابي پروژه انتخاب نمود.
بايد توجه داشت که جمع‌آوري و محافظت از داده‌ها نکته بسيار مهمي مي‌باشد. اصولاً چون قالب و نوع داده‌ها در طول زمان تغيير مي‌کند ممکن است بسياري از داده‌هاي موجود در قالب‌هاي متفاوت باشند و همچنين بسياري از داده‌هاي قديمي از بين رفته و دور ريخته شوند. درحالي‌که ممکن است اهميت اين داده‌ها از داده‌هاي جديد به هيچ‌وجه کمتر نباشد. همچنين به علت اينکه داده‌ها از منابع مختلف داخلي و خارجي مانند کارکنان شرکت، مديران، مشتريان، کارفرمايان، پيمانکاران باشند باز هم ممکن است قالب داده‌ها باهم يکسان نباشد. به همين دليل انتخاب داده‌هاي درست و يکپارچه‌سازي قالب آن‌ها به منظور استفاده در داده کاوي از اهميت بسيار بالايي برخوردار مي‌باشد[27].
2-9 وظايف و تكنيك هاي داده كاوي
1. کلاس‌بندي
2. تخمين
3. پيش‌بيني
4. گروه‌بندي وابستگي‌ها
5. خوشه‌بندي
6. نمايه‌سازي توصيفي
2-9-1 کلاس‌بندي
کلاس‌بندي به معناي يادگيري تابع نگاشت تركيب مقادير خصايص به دسته‌هاي مختلف و تعيين كلاس از يك شي پايه بر اساس ويژگي‌هايش مي‌باشد. هر شي‌اي كه کلاس‌بندي مي‌شود به صورت عمومي توسط رکوردهايي در جدول يك پايگاه داده يا در يك فايل بيان مي‌گردد و عمل کلاس‌بندي با اضافه نمودن يك ستون جديد به همراه كد كلاس انجام مي‌شود. وظيفه کلاس‌بندي به خوبي توسط تعريف کلاس‌ها و يك مجموعه آموزشي شامل نمونه‌هاي کلاسه‌اي از پيش تعريف‌شده مشخص مي‌گردد .و در نهايت مدلي ساخته مي‌شود كه مي‌توان داده‌هاي غير کلاس‌بندي به اين کلاس‌ها تخصيص داد [28].

2-9-2 تخمين
برآورد كردن با مقادير خروجي پيوسته سروکار دارد .به صورت تجربي برآورد كردن اغلب قبل از کلاس‌بندي استفاده مي‌شود. از مزاياي رويكرد برآورد اين است كه رکودهاي منحصربه‌فرد مي‌توانند مطابق با برآورد رتبه ترتيبي اتخاذ نمايند [28].
2-9-3 پيش‌بيني
پيش‌بيني همانند کلاس‌بندي است و انتظار مي‌رود رکودهايي كه کلاس‌بندي شده‌اند بر طبق بعضي از ويژگي‌هاي کلاس‌ها بتوانند پيش‌بيني‌هاي رفتارهاي آينده به همراه تخمين ارزش‌هاي آينده باشند. در پيش‌بيني تنها راهي كه مشخص مي‌کند کلاس‌بندي ما صحيح بوده اين است كه منتظر بمانيم و ببينيم. داده‌هاي تاريخي براي ساخت مدلهاي مفيد هستند كه رفتار مشاهدات جاري را توصيف نمايند و زماني که مدل پيش‌بيني براي ورودي‌هاي جاري بكار برده مي‌شود ،حاصلش اين است كه رفتارهاي آينده را پيش‌بيني مي‌نمايد [28].
2-9-4 قواعد وابستگي يا گروه‌بندي پيوستگي‌ها
قواعد انجمني قابليتي براي يافتن روابط ناشناخته موجود در اطلاعات است. اين روابط مواردي از قبيل اينكه حضور مجموعه‌اي از مقولات اشاره به اين دارند كه مجموعه مقولات ديگري نيز احتمالاً وجود دارند را شامل مي‌شود. اين قواعد و وابستگي‌ها براي مشخص كردن چيزهايي است كه باهم هستند .اين وظيفه قلب تحليل سبد بازار است و رويكردي ساده براي توليد قاعده دار داده مي‌باشد[28].
2-9-5 خوشه‌بندي
اين وظيفه براي بخش‌بندي جمعيت ناهمگن به زيرمجموعه‌هاي همگن يا همان خوشه‌ها مي‌باشد. تفاوت عمده خوشه‌بندي با کلاس‌بندي در اين است كه بر اساس کلاس‌هاي از پيش تعريف‌شده عمل نمي‌نمايد. در کلاس‌بندي هر ركورد به کلاس‌هاي از پيش تعريف‌شده‌اي كه بر پايه توسعه مدل يادگيري مي‌باشند، تخصيص داده مي‌شود درحالي‌که در خوشه‌بندي کلاس‌هاي از پيش تعريف‌شده وجود ندارد و ركوردها بر پايه شباهت‌هايشان، گروه‌بندي مي‌شوند [28].

2-9-6 نمايه‌سازي توصيفي
بعضي اوقات هدف از داده كاوي ساده‌سازي توصيف و اينكه در پايگاه داده‌هاي پيچيده از چه طريقي مي‌توان با شناخت افراد، ميزان عرضه و تقاضاي محصولات را افزايش داد. درخت تصميم‌گيري ابزار قدرتمندي براي پروفايل نمودن مشتري مي‌باشد [28].
2-10 معماري سيستم مبتني بر داده كاوي
معماري سيستم مبتني



قیمت: تومان


پاسخ دهید