SlideShare una empresa de Scribd logo
1 de 36
‫سامهر‬‫ر‬‫پا‬ ‫وحید‬
‫ائه‬‫ر‬‫ا‬ ‫موضوع‬:
‫ی‬‫کاو‬‫داده‬
‫پاییز‬93
‫در‬‫دنيايي‬‫ندگي‬‫ز‬‫ميكنيم‬‫كه‬‫اطالعات‬‫ش‬‫ز‬‫ار‬‫يادي‬‫ز‬‫اي‬‫ر‬‫ب‬‫ما‬‫ند‬‫ر‬‫دا‬.‫با‬‫ايش‬‫ز‬‫اف‬‫حجم‬‫اطالعات‬‫دسترس‬‫ر‬‫د‬‫روي‬‫اينترن‬،‫ت‬‫نياز‬‫ق‬‫فو‬
‫العاده‬‫به‬‫هايي‬‫ر‬‫ا‬‫ز‬‫اب‬‫كه‬‫بتوانند‬‫در‬،‫جستجو‬‫فيلتر‬‫نمودن‬‫و‬‫مديريت‬‫منابع‬‫كمك‬‫كنند‬‫كامال‬‫محسوس‬‫است‬.
‫با‬‫توجه‬‫به‬‫گسترش‬‫روز‬‫افزون‬‫اينترنت‬‫و‬‫اسناد‬‫ديجي‬‫تال‬‫نياز‬
‫به‬‫هايي‬‫ر‬‫ا‬‫ز‬‫اب‬‫اي‬‫ر‬‫ب‬‫مديريت‬‫و‬‫اج‬‫ر‬‫استخ‬‫اطالعات‬‫مفيد‬‫از‬‫ميان‬
‫حجم‬‫عظيم‬‫داده‬‫ها‬‫ايش‬‫ز‬‫اف‬‫يافته‬‫است‬.‫از‬‫اين‬‫رو‬
‫متخصصين‬‫علوم‬‫ايانه‬‫ر‬‫روشهايي‬‫ا‬‫ر‬‫به‬‫منظور‬‫ساخت‬‫مدلهايي‬
‫كه‬‫كار‬‫طبقه‬‫بندي‬‫خودكار‬‫اسناد‬‫ا‬‫ر‬‫انجام‬،‫ميدهند‬‫ائه‬‫ر‬‫ا‬‫داده‬
‫اند‬.‫با‬‫پيدايش‬‫علوم‬‫داده‬‫ي‬‫كاو‬‫و‬‫به‬‫ي‬‫كارگير‬،‫آمار‬‫توجه‬‫ب‬‫ه‬
‫اين‬‫گونه‬‫روشها‬‫به‬‫سرعت‬‫ايش‬‫ز‬‫اف‬‫يافت‬.
‫اصلي‬ ‫هدف‬‫داده‬‫ي‬‫كاو‬
‫انبوه‬‫حجم‬‫ميان‬ ‫از‬‫ش‬‫ز‬‫ار‬‫با‬‫الگوهايي‬‫دن‬‫ر‬‫آو‬‫بدست‬‫داده‬‫ها‬
‫مي‬‫باشد‬.
Data Mining‫ت‬‫ر‬‫عبا‬‫است‬‫از‬‫اقتباس‬‫يا‬‫اج‬‫ر‬‫استخ‬‫دانش‬‫از‬‫مجموعه‬‫ای‬‫از‬‫داده‬‫ها‬،‫به‬‫بيان‬‫ديگر‬،Data
Mining‫ايندی‬‫ر‬‫ف‬‫است‬‫که‬‫با‬‫استفاده‬‫از‬‫تکنيکهای‬،‫هوشمند‬‫دانش‬‫ا‬‫ر‬‫از‬‫مجموعه‬‫ای‬‫از‬‫داده‬‫ها‬‫اج‬‫ر‬‫استخ‬‫م‬‫ی‬‫کند‬.
Data Mining‫از‬‫ساخت‬‫مدل‬‫های‬‫تحليلی‬،‫دسته‬‫بندی‬‫و‬‫پيش‬‫بينی‬‫اطالعات‬‫و‬‫ائه‬‫ر‬‫ا‬‫نتايج‬‫با‬‫استفاد‬‫ه‬‫از‬
‫های‬‫ر‬‫ا‬‫ز‬‫اب‬‫مرتبط‬‫استفاده‬‫می‬‫کند‬.
‫ای‬‫ر‬‫ب‬‫اينکه‬‫يتم‬‫ر‬‫الگو‬Data Mining‫بتواند‬‫عمل‬‫اج‬‫ر‬‫استخ‬‫دانش‬‫ا‬‫ر‬‫بخوبی‬‫انجام‬،‫دهد‬‫نياز‬‫به‬‫يک‬‫ی‬‫سر‬‫پيش‬
‫ش‬‫ز‬‫پردا‬‫ها‬‫بر‬‫ی‬‫و‬‫ر‬‫مجموعه‬‫ی‬ ‫ش‬‫ز‬‫آمو‬‫و‬‫يک‬‫ی‬‫سر‬‫پس‬‫ش‬‫ز‬‫پردا‬‫ها‬‫بر‬‫ی‬‫و‬‫ر‬‫الگوهای‬‫اج‬‫ر‬‫استخ‬‫شده‬‫د‬‫ر‬‫دا‬.
‫پاک‬‫ی‬‫ساز‬‫داده‬‫ها‬:‫در‬‫اين‬‫مرحله‬‫داده‬‫های‬‫غير‬‫معتبر‬‫از‬‫مجموعه‬‫داده‬‫های‬‫ی‬ ‫ش‬‫ز‬‫آمو‬‫خارج‬‫می‬‫شوند‬.‫داده‬‫های‬‫ای‬‫ر‬‫دا‬
،‫نويز‬‫اطالعات‬‫ناکامل‬‫و‬...‫نمونه‬‫هايی‬‫از‬‫داده‬‫هايی‬‫هستند‬‫که‬‫با‬‫يد‬‫ی‬‫پاکساز‬‫در‬‫د‬‫ر‬‫مو‬‫آنها‬‫انجام‬‫گردد‬.
‫چه‬‫ر‬‫يکپا‬‫ی‬‫ساز‬‫داده‬‫ها‬:‫در‬‫اين‬،‫مرحله‬‫منابع‬‫چندگانه‬‫داده‬‫ای‬‫با‬‫هم‬‫ترکيب‬‫می‬‫شوند‬.
‫انتخاب‬‫داده‬‫ها‬:‫داده‬‫های‬‫مرتبط‬‫به‬‫ايند‬‫ر‬‫ف‬Data Mining‫از‬‫ساير‬‫داده‬‫ها‬‫جدا‬‫می‬‫شود‬.‫اين‬‫مبحث‬‫ا‬‫ر‬‫می‬‫توان‬
‫ی‬ ‫بخش‬‫از‬‫ايند‬‫ر‬‫ف‬‫کاهش‬‫اطالعات‬‫نيز‬‫دانست‬.
‫تبديل‬‫داده‬‫ها‬:‫داده‬‫ها‬‫به‬‫قالبی‬‫قابل‬‫استفاده‬‫ای‬‫ر‬‫ب‬Data Mining‫در‬‫می‬‫آيند‬.‫از‬‫اعمالی‬‫که‬‫در‬‫اين‬‫مرحله‬
‫ت‬‫ر‬‫صو‬‫می‬‫گيرد‬،‫می‬‫توان‬‫به‬‫خالصه‬‫ی‬‫ساز‬‫و‬‫يا‬‫محاسبه‬‫مقادير‬‫تجمعی‬‫ه‬‫ر‬‫اشا‬‫کرد‬.
Data Mining:‫بخش‬‫اصلی‬‫ايند‬‫ر‬‫ف‬‫که‬‫در‬‫آن‬‫با‬‫استفاده‬‫از‬‫ش‬‫و‬‫ر‬‫ها‬‫و‬‫تکنيکهای‬‫خاص‬،‫اج‬‫ر‬‫استخ‬‫الگو‬‫ه‬‫ای‬
‫دانش‬‫ت‬‫ر‬‫صو‬‫می‬‫گيرد‬.
‫يابی‬‫ز‬‫ار‬‫الگوها‬:‫تشخيص‬‫الگو‬‫های‬‫صحيح‬‫د‬‫ر‬‫مو‬‫نظر‬،‫از‬‫ساير‬‫الگو‬‫ها‬‫در‬‫اين‬‫مرحله‬‫انجام‬‫می‬‫شود‬.‫صحت‬‫ال‬‫گوها‬‫بر‬
‫اساس‬‫يک‬‫ی‬‫سر‬‫معيار‬‫های‬‫جذابيت‬‫سنجيده‬‫می‬‫شود‬.
‫نمايی‬‫ز‬‫با‬‫دانش‬:‫در‬‫اين‬‫بخش‬‫به‬‫ر‬‫منظو‬‫ائه‬‫ر‬‫ا‬‫دانش‬‫اج‬‫ر‬‫استخ‬‫شده‬‫به‬‫بر‬‫ر‬‫کا‬،‫از‬‫يک‬‫ی‬‫سر‬‫های‬‫ر‬‫ا‬‫ز‬‫اب‬‫ی‬‫بصر‬‫س‬‫ی‬‫از‬
‫استفاده‬‫می‬‫گردد‬.
‫کاهش‬‫اطالعات‬‫ت‬‫ر‬‫عبا‬‫است‬‫از‬‫توليد‬‫يک‬‫مجموعه‬‫کوچکتر‬‫از‬‫داده‬‫های‬‫اوليه‬‫که‬‫تحت‬‫عمليات‬Data Mining‫نتايج‬‫تقريبا‬‫يکسانی‬‫با‬
‫نتايج‬Data Mining‫روی‬‫اطالعات‬‫اوليه‬‫به‬‫دست‬‫می‬‫دهد‬.
‫اين‬‫عمل‬‫ا‬‫ر‬‫می‬‫توان‬‫از‬‫طريق‬‫حذف‬‫خصيصه‬‫های‬‫غیر‬‫مرتبط‬‫با‬‫نوع‬‫عمليات‬Data Mining‫مورد‬‫نظر‬‫انجام‬‫داد‬.
‫حذف‬‫خصيصه‬‫های‬‫مرتبط‬‫که‬‫در‬‫اثر‬‫اشتباه‬‫در‬‫يابی‬‫ز‬‫ار‬‫ان‬‫ز‬‫می‬‫تباط‬‫ر‬‫ا‬‫آنها‬‫با‬‫عمليات‬Data Mining‫انجام‬‫می‬،‫گیرد‬‫می‬‫تواند‬‫منجر‬‫به‬
‫آمدی‬‫ر‬‫ناکا‬‫فرايند‬Data Mining‫و‬‫اج‬‫ر‬‫استخ‬‫قوانین‬‫ناقص‬‫و‬‫در‬‫نتيجه‬‫بی‬‫ش‬‫ز‬‫ار‬‫شود‬.
‫عدم‬‫حذف‬‫خصايص‬‫غیر‬‫مرتبط‬‫می‬‫تواند‬‫مان‬‫ز‬‫انجاخم‬‫عمليات‬Data Mining‫ا‬‫ر‬‫به‬‫طرز‬‫قابل‬‫مالحظه‬‫ای‬‫ايش‬‫ز‬‫اف‬‫دهد‬.
‫سه‬‫روش‬‫کلی‬‫ای‬‫ر‬‫ب‬‫انتخاب‬‫خصايص‬‫مرتبط‬‫با‬Data Mining‫وجود‬‫د‬‫ر‬‫دا‬:
‫انتخاب‬‫پيش‬‫رونده‬:‫در‬‫هر‬‫مرحله‬‫خصيصه‬‫ای‬‫که‬‫بيشترين‬‫تباط‬‫ر‬‫ا‬‫ا‬‫ر‬،‫د‬‫ر‬‫دا‬‫برگزيده‬‫می‬‫شود‬.
‫انتخاب‬‫عقب‬‫رونده‬:‫در‬‫هر‬‫مرحله‬‫خصيصه‬‫ای‬‫که‬‫کمترين‬‫تباط‬‫ر‬‫ا‬‫ا‬‫ر‬،‫د‬‫ر‬‫دا‬‫انتخاب‬‫و‬‫حذف‬‫می‬‫شود‬.
‫روش‬‫ترکيبی‬:‫ترکيب‬‫هر‬‫دو‬‫روش‬‫پيش‬‫رونده‬‫و‬‫پس‬‫رونده‬
‫سلسله‬‫مراتب‬‫مفهومی‬:‫ی‬ ‫روش‬‫ای‬‫ر‬‫ب‬‫کاهش‬‫تعداد‬‫مقادير‬‫ممکن‬‫ای‬‫ر‬‫ب‬‫يک‬‫خصيصه‬‫ائه‬‫ر‬‫ا‬‫می‬،‫دهد‬‫اگر‬‫چه‬‫داده‬‫های‬‫خروجی‬‫کلی‬‫تر‬‫بو‬‫ده‬‫و‬‫فاقد‬
‫برخی‬‫جزئيات‬،‫هستند‬‫اما‬‫اين‬‫داده‬‫ها‬‫بسيار‬‫ساده‬‫تر‬‫بوده‬‫و‬‫در‬‫سطح‬‫تجريدی‬‫ی‬‫باالتر‬‫نسبت‬‫به‬‫داده‬‫های‬‫اوليه‬‫ار‬‫ر‬‫ق‬‫ند‬‫ر‬‫دا‬.
‫داده‬‫های‬‫مرتبط‬‫با‬‫فرايند‬Data Mining:‫بانک‬‫اطالعاتی‬‫ممکن‬‫است‬‫شامل‬‫تعداد‬‫يادی‬‫ز‬‫از‬‫د‬‫ر‬‫رکو‬‫ها‬‫باشد‬‫که‬
‫تنها‬‫بخش‬‫کوچکی‬‫از‬‫آنها‬‫با‬‫ايند‬‫ر‬‫ف‬Data Mining‫مرتبط‬‫هستند‬.‫مشخص‬‫کردن‬‫اين‬‫بخش‬‫از‬‫اطالعات‬‫بايد‬
‫توسط‬‫بر‬‫ر‬‫کا‬‫انجام‬‫گيرد‬.
‫نوع‬‫ی‬ ‫دانش‬‫که‬‫بايد‬‫استخراج‬‫شود‬:‫نوع‬‫تين‬‫و‬‫ر‬‫هايی‬‫که‬‫بايد‬‫بر‬‫ی‬‫و‬‫ر‬‫داده‬‫های‬‫انتخاب‬‫شده‬‫اعمال‬،‫شوند‬‫ب‬‫ايد‬‫مشخص‬
‫گردد‬.
‫دانش‬‫مينه‬‫ز‬‫ای‬:‫ان‬‫ر‬‫ب‬‫ر‬‫کا‬‫می‬،‫توانند‬‫با‬‫مشخص‬‫کردن‬‫دانش‬‫مينه‬‫ز‬‫ای‬‫ايند‬‫ر‬‫ف‬Data Mining‫ا‬‫ر‬‫هدايت‬،‫نمايند‬
‫ای‬‫ر‬‫ب‬‫نمونه‬‫حدس‬‫بر‬‫ر‬‫کا‬‫در‬‫د‬‫ر‬‫مو‬‫فتار‬‫ر‬‫اطالعات‬.
‫های‬‫ر‬‫معيا‬‫يابی‬‫ز‬‫ار‬‫دانش‬‫استخراج‬‫شده‬:‫اين‬‫ها‬‫ر‬‫معيا‬‫ممکن‬‫است‬‫در‬‫مان‬‫ز‬‫ای‬‫ر‬‫اج‬‫ايند‬‫ر‬‫ف‬Data Mining‫و‬‫يا‬‫پس‬
‫از‬‫پايان‬Data Mining،‫ی‬‫و‬‫ر‬‫دانش‬‫اج‬‫ر‬‫استخ‬‫شده‬‫اعمال‬‫شده‬‫و‬‫بخش‬‫شمند‬‫ز‬‫ار‬‫دانش‬‫ا‬‫ر‬‫مشخص‬‫نمايند‬.
‫نحوه‬‫ائه‬‫ر‬‫ا‬‫دانش‬‫استخراج‬‫شده‬:‫نمايش‬‫دانش‬‫و‬‫قوانين‬‫اج‬‫ر‬‫استخ‬‫شده‬‫در‬‫قالب‬‫های‬‫مختلفی‬‫نظير‬‫ل‬‫جدو‬،‫ن‬‫مودار‬،
‫خت‬‫ر‬‫د‬‫تصميم‬‫ی‬‫گير‬‫و‬...
‫اين‬‫شها‬‫و‬‫ر‬‫ر‬‫بطو‬‫کلی‬‫به‬‫دو‬‫دسته‬‫ير‬‫ز‬‫تقسيم‬‫می‬‫شوند‬:
‫يتمهای‬‫ر‬‫الگو‬‫ی‬‫يادگير‬‫با‬‫ت‬‫ر‬‫نظا‬(Prediction Method)
‫يتمهای‬‫ر‬‫الگو‬‫ی‬‫يادگير‬‫ن‬‫بدو‬‫ت‬‫ر‬‫نظا‬)(Description Methods
‫در‬‫يتمهای‬‫ر‬‫الگو‬‫ی‬‫يادگير‬‫با‬‫ت‬‫ر‬‫نظا‬‫هدف‬‫از‬Data Mining‫مشخص‬‫است‬‫و‬‫می‬‫دانيم‬‫که‬‫به‬‫دنبال‬
‫چه‬‫نوع‬‫ی‬ ‫دانش‬‫می‬‫گرديم‬.‫مانند‬‫دسته‬‫بندی‬.
‫در‬‫شهای‬‫و‬‫ر‬‫ی‬‫يادگير‬‫ن‬‫بدو‬،‫ت‬‫ر‬‫نظا‬‫هدف‬‫کامال‬‫تعريف‬‫شده‬‫نيست‬.‫مانند‬‫خوشه‬‫بندی‬.
‫دسته‬‫بندی‬(Classification [Predictive]):‫در‬‫اين‬‫ش‬‫و‬‫ر‬‫يک‬‫نمونه‬‫به‬‫يکی‬‫از‬‫چند‬‫دسته‬‫از‬‫پيش‬
‫تعريف‬‫شده‬‫دسته‬‫بندی‬‫می‬‫شود‬.
‫ن‬‫رگرسيو‬(Regression [Predictive]):‫پیش‬‫بینی‬‫یک‬‫مقدار‬‫متغير‬‫مبنی‬‫بر‬‫متغيرهای‬‫دیگر‬.
‫خوشه‬‫بندی‬((Clustering [Descriptive]:‫يک‬‫دسته‬‫داده‬‫ا‬‫ر‬‫به‬‫يکی‬‫از‬‫چند‬‫خوشه‬‫نگاشت‬‫می‬‫کن‬‫د‬.
‫خوشه‬‫ها‬‫ه‬‫و‬‫گر‬‫بنديهای‬‫دسته‬‫های‬‫داده‬‫ای‬‫هستند‬‫که‬‫بر‬‫اساس‬‫شباهت‬‫برخی‬‫از‬‫ها‬‫ر‬‫معيا‬‫بوجو‬‫د‬‫می‬
‫آيند‬.
‫کشف‬‫قواعد‬‫وابستگی‬(Association Rule Discovery [Descriptive]):‫ابط‬‫و‬‫ر‬‫وابستگی‬‫بين‬
‫خصيصه‬‫های‬‫مختلف‬‫ا‬‫ر‬‫بيان‬‫می‬‫کند‬.
‫تحليل‬‫دنباله‬:‫الگوهای‬‫دنباله‬‫ای‬‫ن‬‫همچو‬‫سريهای‬‫مانی‬‫ز‬‫ا‬‫ر‬‫مدل‬‫می‬‫کند‬.
‫هدایت‬‫یابی‬‫ر‬‫ا‬‫ز‬‫با‬(Direct Marketing):
‫اهداف‬:
•‫کاهش‬‫هزینه‬‫ی‬‫پست‬‫با‬‫موقعیت‬‫یابی‬‫هی‬‫و‬‫گر‬‫از‬‫مصرف‬‫کنندگان‬.
‫ش‬‫و‬‫ر‬‫کار‬:
•‫استفاده‬‫از‬‫اطالعات‬‫یک‬‫ل‬‫محصو‬‫که‬‫قبال‬‫تولید‬‫شده‬‫به‬‫ر‬‫منظو‬‫استفاده‬‫در‬‫نمونه‬‫های‬‫جدید‬
.
•‫ما‬‫با‬‫توجه‬‫به‬‫اطالعات‬‫موجود‬‫بدانیم‬‫که‬‫چه‬‫فردی‬‫بیشتر‬‫چه‬‫چيزهایی‬‫ا‬‫ر‬‫می‬‫خرد‬‫و‬‫چ‬‫ه‬
‫چيزهایی‬‫ا‬‫ر‬‫نمی‬‫خرد‬.
•‫جمع‬‫ی‬‫ر‬‫آو‬‫های‬‫ر‬‫نمودا‬‫ی‬‫آمار‬‫مختلف‬‫و‬‫اطالعات‬‫مربوط‬‫به‬‫تعامالت‬‫ی‬‫مشتر‬‫و‬‫شرکت‬.
‫شناسایی‬‫تخلف‬(Fraud Detection):
‫اهداف‬:
•‫شناسایی‬‫د‬‫ر‬‫موا‬‫کاله‬‫ی‬‫بردار‬‫در‬‫معامالت‬‫تهای‬‫ر‬‫کا‬‫ی‬‫اعتبار‬.
‫ش‬‫و‬‫ر‬‫کار‬:
•‫استفاده‬‫از‬‫اطالعات‬‫معامالت‬‫تهای‬‫ر‬‫کا‬‫ی‬‫اعتبار‬‫و‬‫اطالعات‬‫نده‬‫ر‬‫دا‬‫ی‬‫آن‬.
•‫برچسب‬‫دن‬‫ز‬‫به‬‫معامالت‬‫گذشته‬‫به‬‫عنوان‬‫ی‬‫کالهبردار‬‫یا‬‫معامالت‬‫نسبتا‬‫خوب‬.
•‫شناسایی‬‫یک‬‫مدل‬‫ای‬‫ر‬‫ب‬‫یک‬‫ده‬‫ر‬‫از‬‫معامالت‬
•‫استفاده‬‫از‬‫این‬‫مدل‬‫ای‬‫ر‬‫ب‬‫تشخیص‬‫کالهبردای‬‫با‬‫مشاهده‬‫ی‬‫معامالت‬‫ت‬‫ر‬‫کا‬‫ی‬‫اعتبار‬‫شخص‬.
‫پیش‬‫بینی‬‫یک‬‫مقدار‬‫متغير‬‫مبنی‬‫بر‬‫متغيرهای‬‫دیگر‬.
‫مثال‬:
•‫پیش‬‫بینی‬‫مقدار‬‫ش‬‫و‬‫فر‬‫یک‬‫ل‬‫محصو‬‫جدید‬‫بر‬‫مبنای‬‫هزینه‬‫تبلیغات‬
•‫پیش‬‫بینی‬‫سرعت‬‫باد‬‫به‬‫عنوان‬‫یک‬‫تابع‬‫از‬‫دما‬،‫طوبت‬‫ر‬،‫فشار‬‫هوا‬‫وغيره‬.
•Example training database
• Two predictor attributes:
Age and Car-type (Sport,
Minivan and Truck)
• Spent indicates how much
person spent during a recent
visit to the web site
• Dependent attribute is
numerical
Regression Example
‫تقسیم‬‫ار‬‫ز‬‫با‬(Market Segmentation):
‫اهداف‬:
•‫تقسیم‬‫ار‬‫ز‬‫با‬‫به‬‫یر‬‫ز‬‫مجموعه‬‫های‬‫مستقل‬‫،مبتنی‬‫بر‬‫مصرف‬‫کنندگان‬‫،جایی‬‫که‬‫ه‬‫ر‬‫یر‬‫ز‬
‫مجموعه‬‫بتواند‬‫به‬‫عنوان‬‫یک‬‫ار‬‫ز‬‫با‬‫مستقل‬‫انتخاب‬‫شود‬.
‫ش‬‫و‬‫ر‬‫کار‬:
•‫جمع‬‫ی‬‫ر‬‫آو‬‫مشخصات‬‫مختلف‬‫مصرف‬‫کنندگان‬‫بر‬‫پایه‬‫ی‬‫موقعیت‬‫افیایی‬‫ر‬‫جغ‬.
•‫یافتن‬‫ه‬‫و‬‫گر‬‫مصرف‬‫کنندگان‬‫مشابه‬
•‫ه‬‫ز‬‫اندا‬‫ی‬‫گير‬‫کیفیت‬‫ه‬‫و‬‫گر‬‫با‬‫مشاهده‬‫ی‬‫الگوهای‬‫خرید‬‫مصرف‬‫کنندگان‬‫در‬‫یک‬‫ه‬‫و‬‫گر‬‫در‬‫مقابل‬
‫الگوهای‬‫دیگر‬‫ه‬‫و‬‫گر‬‫ها‬.
‫خوشه‬‫بندی‬‫اسناد‬(Document Clustering):
‫اهداف‬:
•‫ای‬‫ر‬‫ب‬‫پیدا‬‫کردن‬‫هی‬‫و‬‫گر‬‫از‬‫اسناد‬‫که‬‫از‬‫لحاظ‬‫ظاهر‬‫شدن‬‫کلمات‬‫مهم‬‫در‬‫آنها‬‫شبیه‬‫به‬‫هم‬‫هستند‬
‫ش‬‫و‬‫ر‬‫کار‬:
•‫ای‬‫ر‬‫ب‬‫تشخیص‬‫اتی‬‫ر‬‫عبا‬‫که‬‫در‬‫سند‬‫به‬‫ر‬‫طو‬‫متوالی‬‫ار‬‫ر‬‫تک‬‫میشوند‬.‫تشکیل‬‫یک‬‫مقیاس‬‫همانندی‬‫بر‬‫پا‬‫یه‬‫ی‬‫اوانی‬‫ر‬‫ف‬
‫ات‬‫ر‬‫عبا‬‫مختلف‬.‫استفاده‬‫از‬‫مقیاس‬‫در‬‫خوشه‬‫بندی‬.
‫مدیریت‬‫ایی‬‫ر‬‫دا‬(Inventory Management):
‫اهداف‬:
•‫یک‬‫شرکت‬‫تعمير‬‫وسایل‬‫مصرف‬‫کنندگان‬‫خواستار‬‫پیش‬‫بینی‬‫ماهیت‬‫ات‬‫ر‬‫تعمي‬‫مص‬‫رف‬
‫کنندگان‬‫است‬‫تا‬‫همیشه‬‫ماشين‬‫های‬‫یس‬‫و‬‫سر‬‫دهنه‬‫اش‬‫ا‬‫ر‬‫مجهز‬‫نگه‬‫د‬‫ر‬‫دا‬.
‫ش‬‫و‬‫ر‬‫کار‬:
•‫ش‬‫ز‬‫پردا‬‫داده‬‫ها‬–‫ها‬‫ر‬‫ا‬‫ز‬‫اب‬‫و‬‫قطعه‬‫هایی‬‫که‬‫که‬‫در‬‫ات‬‫ر‬‫تعمي‬‫قبلی‬‫در‬‫مکان‬‫های‬‫متفاوت‬‫نیاز‬
‫شده‬‫است‬–‫و‬‫کشف‬‫الگوهای‬‫خدادهای‬‫ر‬‫مختلف‬.
INSIGHTFUL MINER
Angoss Knowledge ACCESS
ARMiner
Eudaptics Viscovery
Goal TV
MDR
Viscovery SOMine
SPSS
‫دو‬‫مشکل‬‫اصلی‬‫که‬‫اکثر‬‫سيستم‬‫های‬Data Mining‫با‬‫آن‬‫مواجه‬،‫هستند‬‫تند‬‫ر‬‫عبا‬‫از‬:
‫حجم‬‫باالی‬‫داده‬‫های‬‫ی‬ ‫ش‬‫ز‬‫آمو‬
‫وجود‬‫عدم‬‫قطعيت‬‫در‬‫اطالعات‬
‫ای‬‫ر‬‫ب‬‫فع‬‫ر‬‫مشکالتی‬‫که‬‫اين‬‫سيستم‬‫ها‬‫در‬‫د‬‫ر‬‫برخو‬‫با‬‫داده‬‫های‬‫حجيم‬،‫ند‬‫ر‬‫دا‬‫معموال‬‫شهای‬‫و‬‫ر‬
‫ير‬‫ز‬‫استفاده‬‫می‬‫گردند‬:
‫احی‬‫ر‬‫ط‬‫يتم‬‫ر‬‫الگو‬‫های‬‫سريع‬:‫کاهش‬،‫پيچيدگيها‬‫بهينه‬،‫ی‬‫ساز‬‫ی‬‫مواز‬‫ی‬‫ساز‬
‫کاهش‬‫حجم‬‫داده‬‫ها‬:‫نمونه‬‫ی‬‫گير‬،‫گسسته‬،‫ی‬‫ساز‬‫کاهش‬‫ابعاد‬‫و‬...
‫ی‬‫بکارگير‬‫يک‬‫ائه‬‫ر‬‫ا‬‫ابطه‬‫ر‬‫ای‬:‫استفاده‬‫از‬‫قابليتهای‬‫ذخيره‬‫و‬‫يابی‬‫ز‬‫با‬‫اطالعات‬‫در‬‫پايگاه‬‫های‬‫داده‬
‫ای‬‫ر‬‫ب‬‫ی‬‫بکارگير‬‫امکانات‬‫سيستمهای‬‫مديريت‬‫پايگاههای‬‫داده‬‫به‬‫ر‬‫منظو‬‫اف‬‫دن‬‫و‬‫ز‬‫قابليت‬
Data Mining،‫مجموعه‬‫عملياتهای‬‫ير‬‫ز‬‫ا‬‫ر‬‫می‬‫توان‬‫انجام‬‫داد‬:
‫ی‬‫بکارگير‬‫بان‬‫ز‬SQL‫و‬‫ساير‬‫اشياء‬‫پايگاههای‬‫داده‬‫ای‬‫ر‬‫ب‬‫دن‬‫و‬‫افز‬‫قابليت‬Data Mining‫به‬
‫سيستم‬‫يت‬‫ر‬‫مدي‬‫پايگاه‬‫داده‬
‫احی‬‫ر‬‫ط‬‫و‬‫ايجاد‬‫يک‬‫بان‬‫ز‬‫پرس‬‫و‬‫جو‬‫همانند‬SQL‫ای‬‫ر‬‫ب‬‫پشتيبانی‬‫از‬‫انجام‬‫فعاليتهای‬‫مختلف‬
Data Mining
‫توسعه‬‫مجموعه‬‫ای‬‫از‬‫ات‬‫ر‬‫عبا‬‫به‬‫ر‬‫منظو‬‫پوشش‬‫دادن‬‫مجموعه‬‫عمليات‬Data Mining
‫داده‬‫هاي‬‫عملياتی‬‫موجود‬‫در‬‫سيستم‬‫های‬‫اطالعاتی‬‫معموال‬‫ای‬‫ر‬‫دا‬‫عدم‬‫قطعيت‬‫هستند‬.‫عدم‬
‫قطعيت‬‫می‬‫تواند‬‫به‬‫اشکال‬‫مختلفی‬‫در‬‫پايگاههای‬‫داده‬‫ر‬‫ظهو‬‫کند‬.
‫ر‬‫بطو‬‫کلی‬‫عدم‬‫قطعيت‬‫در‬‫سيستمهای‬‫پايگاه‬‫داده‬‫به‬‫دو‬‫دسته‬‫تقسيم‬‫می‬‫شوند‬:
‫اطالعات‬‫ناکامل‬(‫مقادير‬‫نامشخص‬):‫ر‬‫منظو‬‫خصيصه‬‫هايی‬‫است‬‫که‬‫ی‬‫مقدار‬‫ای‬‫ر‬‫ب‬‫آنها‬‫ثبت‬‫نشده‬‫است‬.
‫اطالعات‬‫ناسازگار‬:‫اطالعاتی‬‫که‬‫در‬‫اثر‬‫ه‬‫ز‬‫اندا‬‫ی‬‫گير‬‫ست‬‫ر‬‫ناد‬‫يا‬‫بوجود‬‫آمدن‬‫نويز‬‫در‬‫داده‬‫ها‬‫ايجاد‬‫شده‬‫ب‬‫اشد‬‫و‬
‫مقادير‬‫ثبت‬‫شده‬‫با‬‫مقادير‬‫واقعی‬‫ابر‬‫ر‬‫ب‬‫نباشند‬.
‫اد‬‫ر‬‫اف‬‫يادي‬‫ز‬‫داده‬‫ي‬‫كاو‬‫ا‬‫ر‬‫مثالي‬‫ادف‬‫ر‬‫مت‬‫با‬‫اتي‬‫ر‬‫عبا‬‫ل‬‫متداو‬‫ن‬‫همچو‬‫كشف‬‫دانش‬‫در‬‫پايگاه‬‫داده‬،‫ميدانند‬‫در‬‫حالي‬‫كه‬‫داده‬
‫ي‬‫كاو‬‫تنها‬‫يكي‬‫از‬‫احل‬‫ر‬‫م‬‫ي‬‫ضرور‬‫در‬‫ايند‬‫ر‬‫ف‬‫كشف‬‫دانش‬‫در‬‫پايگاه‬‫داده‬‫است‬.
1.‫ك‬‫ر‬‫د‬‫فضاي‬‫مسئله‬
2.‫شناخت‬‫داده‬
3.‫تهيه‬‫داده‬
4.‫داده‬‫ي‬‫كاو‬
5.‫يابي‬‫ز‬‫ار‬‫دانش‬‫كشف‬‫شده‬
6.‫استفاده‬‫از‬‫دانش‬‫كشف‬‫شده‬
1.‫به‬‫فرضیه‬‫احتیاجی‬‫ندارد‬.
2.‫ارهای‬‫ز‬‫اب‬‫داده‬‫ی‬‫کاو‬‫از‬‫انواع‬‫مختلف‬‫داده‬‫ها‬(‫نه‬‫تنها‬‫عددی‬)‫می‬‫توانند‬‫استفاده‬‫کنند‬.
3.‫الگوریتم‬‫های‬‫داده‬‫ی‬‫کاو‬‫به‬‫طور‬‫اتوماتیک‬‫روابط‬‫ا‬‫ر‬‫ایجاد‬‫می‬‫کنند‬.
4.‫داده‬‫ی‬‫کاو‬‫به‬‫داده‬‫های‬‫صحیح‬‫و‬‫درست‬‫نیاز‬‫دارد‬.
5.‫نتایج‬‫داده‬‫ی‬‫کاو‬‫نسبتا‬‫پیچیده‬‫می‬‫باشد‬‫و‬‫نیاز‬‫به‬‫متخصصانی‬‫جهت‬‫بیان‬‫انها‬‫به‬‫ان‬‫ر‬‫مدی‬‫دارد‬.
6.‫اساس‬‫داده‬‫ی‬‫کاو‬‫برمبنای‬‫سه‬‫فعالیت‬‫اصلی‬‫حذف‬‫داده‬‫های‬‫بی‬‫ش‬‫ز‬‫ار‬،‫فشرده‬‫ی‬‫ساز‬‫داده‬‫ها‬‫و‬‫کشف‬‫الگوها‬‫است‬.
‫خرده‬‫ی‬ ‫فروش‬:
─‫تعیين‬‫الگوهای‬‫خرید‬‫مشتریان‬
─‫تجزیه‬‫و‬‫تحلیل‬‫سبد‬‫خرید‬‫ار‬‫ز‬‫با‬
─‫پیشگویی‬‫ان‬‫ز‬‫مي‬‫خرید‬‫مشتریان‬‫طریق‬‫ز‬‫ا‬‫پست‬(‫فروش‬‫الکترونیکی‬)
‫بیمه‬:
─‫تجزیه‬‫و‬‫تحلیل‬‫ی‬‫دعاو‬
─‫پیشگویی‬‫ان‬‫ز‬‫مي‬‫خرید‬‫بیمه‬‫نامه‬‫های‬‫جدید‬‫توسط‬‫مشتریان‬
‫پزشکی‬:
─‫تعیين‬‫نوع‬‫فتار‬‫ر‬‫با‬‫ان‬‫ر‬‫بیما‬‫وپیشگویی‬‫ان‬‫ز‬‫مي‬‫موفقیت‬‫عمل‬‫های‬‫احی‬‫ر‬‫ج‬
─‫تعیين‬‫ان‬‫ز‬‫مي‬‫موفقیت‬‫روش‬‫های‬‫مانی‬‫ر‬‫د‬‫برخورد‬‫ر‬‫د‬‫با‬‫ی‬‫بیمار‬‫های‬‫سخت‬
‫ی‬‫بانکدار‬:
─‫پیش‬‫بینی‬‫الگوهای‬‫ی‬‫کالهبردار‬‫طریق‬‫ز‬‫ا‬‫ت‬‫ر‬‫کا‬‫های‬‫ی‬‫اعتبار‬
─‫تشخیص‬‫مشتریان‬‫ثابت‬
─‫تعیين‬‫ان‬‫ز‬‫مي‬‫استفاده‬‫از‬‫ت‬‫ر‬‫کا‬‫های‬‫ی‬‫اعتبار‬‫اساس‬‫ر‬‫ب‬‫گروه‬‫های‬‫اجتماعی‬
•‫متن‬‫ی‬‫کاو‬
•‫تصویر‬‫ی‬‫کاو‬
•‫سیستم‬‫ی‬ ‫هواشناس‬
•‫صنعت‬‫و‬‫ار‬‫ز‬‫با‬‫کار‬
‫و‬...
‫به‬‫طور‬‫مشخص‬‫پروژه‬‫هایی‬‫که‬‫ای‬‫ر‬‫دا‬‫نتایج‬‫کامال‬‫ملموس‬‫می‬‫باشند‬‫شامل‬‫موارد‬‫ذیل‬‫است‬:
1.‫بانکها‬‫و‬‫موسسات‬‫مالی‬‫و‬‫ی‬‫اعتبار‬
2.‫اکز‬‫ر‬‫م‬‫ائه‬‫ر‬‫ا‬‫خدمات‬‫بیمه‬
3.‫بورس‬‫و‬‫سهام‬‫و‬‫شرکت‬‫های‬‫فعال‬‫در‬‫این‬‫حوزه‬
4.‫شرکت‬‫ها‬‫و‬‫سازمان‬‫های‬‫تولیدی‬
5.‫شرکت‬‫های‬‫ائه‬‫ر‬‫ا‬‫دهنده‬‫خدمات‬(‫به‬‫طور‬‫ویژه‬‫فروشگاه‬‫های‬‫زنجيره‬‫ایی‬‫و‬‫بزرگ‬)
6.‫اکز‬‫ر‬‫م‬‫ی‬ ‫آموزش‬
7.‫مدیریت‬‫منابع‬‫انسانی‬
8.‫مدیریت‬‫ریسک‬
9.‫هتل‬‫ی‬‫دار‬
-‫پیش‬‫بینی‬‫تقاضاهای‬‫آینده‬‫خرید‬‫از‬‫طرف‬‫مشتریان‬
-‫پیش‬‫بینی‬‫تقاضاهای‬‫آینده‬‫جهت‬‫مندی‬‫ز‬‫نیا‬‫های‬‫آینده‬‫خدمات‬
-‫دسته‬‫بندی‬‫انواع‬‫مشتریان‬(‫خوشه‬‫بندی‬)
-‫کمک‬‫به‬‫ان‬‫ر‬‫مدی‬‫در‬‫تصمیم‬‫ی‬‫گير‬
-‫بهبود‬‫امر‬،‫یابی‬‫ر‬‫ا‬‫ز‬‫با‬‫ی‬‫مشتر‬‫یابی‬‫و‬...
‫بحث‬‫است‬‫شده‬ ‫د‬‫ر‬‫وا‬‫ی‬‫کاو‬ ‫داده‬‫بر‬‫که‬ ‫ایرادی‬ ‫مهمترین‬‫ی‬ ‫خصوص‬ ‫حریم‬‫میباشد‬
Parsamehr datamining

Más contenido relacionado

Destacado

Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 

Destacado (20)

Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 

Parsamehr datamining

Notas del editor

  1. به طور مشخص فرایند بررسی سوابق گذشته مشتریان در تمام بنگاه های اقتصادی به عنوان ارزشمندترین فعالیت در سطح جوامع پیشرفته و همجنین در حال توسعه قلمداد می گردد.