سلام دوست عزیز وارد حساب کاربری خود شوید
ازخوشه بندی درحوزه داده کاوی برای تحلیل ، گروه بندی یا طبقه بندی داده ها درخوشه هایی که اعضای ان ها خواص کمابیش یکسانی دارند ، استفاده می شود . خوشه بندی کاربردهای متعددی از تشخیص الگو ، روان شناﺴﻰ ، اقتصاد تا طبقه بندی ژنی ، پردازش تصویر و … دارد . دراین پروژه چند الگوریتم خوشه بندی نسبتاً ساده ، کارامد و متداول که درخوشه بندی داده ها به کار می روند مورد بررسی قرارمی گیرند . فصل اول به مفاهیم و کلیات داده کاوی و خوشه بندی اختصاص دارد . در فصل دوم ابتدا مختصری در مورد خوشه بندی سلسله مراتبی و در ادامه انواع الگوریتم های خوشه بندی سلسله مراتبی تجمیعی توضیح داده شده است ( با این وصف که معادلات ومبحث های ریاضی الگوریتم ها مطرح نشده وصرفاً روی خود الگوریتم ها تأکید شده ) . درفصل اخرهم توضیحی کوتاه درباره نرم افزارmatlab داده شده و یک نمونه ازالگوریتم های فصل دوم با زبان برنامه نویسی matlab شبیه سازی شده است .
کلمات کلیدی: داده کاوی، خوشه بندی، الگوریتم سلسه مراتبی تجمیعی، Proximity ، Matlab
واژه خوشه بندی که به گروهی از اشیای هم جنس یا گروهی از اشیای مشابه اشاره دارد اکنون در تنوعی از رشته های علمی معمول است . این واژه در نظم و ترتیب مختلف معنای فنی متفاوتی دارد اما انچه که مورد نظرماست انالیزوتحلیل خوشه بندی یا خوشه کردن داده ها است که شاخه ای در انالیز داده ها بوده و اشاره به دسته ای از الگوریتم های طبقه بندی بدون سرپرستی دارد . به همین خاطر از اصطلاح تحلیل خوشه بندی ، خوشه بندی داده ها ، طبقه بندی قابل تغییر بدون سرپرستی استفاده می کنیم و مکرراً ان را خوشه بندی می نامیم همان طور که بسیاری از پژوهشگران این کار را کرده اند .
مسائل طبقه بندی به امارکلاسیک و بایسیان و نیزدرمطالعات شبکه های عصبی توجه دارند . یک بخش مهمی ازمطالعات به طبقه بندی نظارت شده اختصاص دارد که تعدادی ازکلاس ها (دسته ها) ی اشیا از قبل داده می شوند و نظارتی قراردادی باید به یکی ازدسته ها تخصیص داده شود . به عبارت دیگر یک سری از قوانین طبقه بندی شده باید از یک سری فرض های ریاضی و دسته های داده شده استنتاج شوند .
در یک موضوع طبقه بندی بدون سرپرستی دسته های از پیش تعریف شده داده نمی شود اما اشیا و اشخاص داده ها باید تعدادی گروه تشکیل دهند ، ان چنان که فاصله ها بین یک جفت اشیای درون یک گروه نسبتاً کم باشد و بین گروه های مختلف باید نسبتاً زیاد باشد .
شیوه های خوشه بندی به مدت طولانی مطالعه شده و تعدادی کتاب به این موضوعات اختصاص یافته اند . این کتاب ها تکنیک های خوشه بندی متفاوت را بر طبق ایده خودشان رده بندی می کنند اما ما به دو دسته تکنیکی کلاسیک سلسله مراتبی و غیرسلسله مراتبی که در اندربرگ مطرح شده اند توجه می کنیم . ۳ دلیل برای در نظر گرفتن این دو کلاس داریم ؛ اول این که این طبقه بندی ساده است چون فقط دو دسته دارد . دوم این که هردودسته یک روش نمونه دارد : روش سلسله مراتبی تجمیعی درکلاس خوشه بندی سلسله مراتبی و روش k-means( یک الگوریتم تفکیکی است که به تعیین تعداد kخوشه به عنوان ورودی نیاز دارد ، این الگوریتم با یک مجموعه انتخابی تصادفی k نقطه ای شروع می شود و معروفیت ان در اصل از سادگی و پیچیدگی زمانی ان است : O(knl) که n تعداد اشیایی می باشد که قراراست خوشه بندی شوند وlتعداد تکرارهایی است که الگوریتم انجام می دهد ) در کلاس خوشه بندی غیرسلسله مراتبی . به علاوه هر دو دسته خاستگاه خود را دارند . در مورد خوشه بندی سلسله مراتبی می توانیم به رده بندی شمارشی مراجعه کنیم ، اگرچه قدیمی است ولی اعتبار و تأثیر ان تا امروز ادامه دارد .
در مورد یک سری داده عموماً باید از روش های مختلف خوشه بندی استفاده کنیم . دانش در مورد روابط میان روش های متفاوت فایده اش این است که پیش بینی می کنیم که چه نوع خروجی هایی قبل از کاربرد واقعی یک الگوریتم به دست خواهند امد . برای این منظور مطالعات نظری پیشنهادی سودمند است چرا که ویژگی های نظری قادر به پیش گویی کلی نتایج خوشه بندی هستند .
۱-۱-۸ الگوریتم های داده کاوی.. ۱۲
۱-۱- ۹-۱ قابلیتهای ابزارهای داده کاوی.. ۱۳
۱-۱-۹-۲ نرم افزارهای داده کاوی.. ۱۶
۱-۱-۱۰ کاربردهای داده کاوی.. ۱۷
۱-۲-۵ فرایندهای خوشه بندی.. ۳۲
۱-۲-۶ کاربردهای خوشه بندی.. ۳۴
۱-۲-۷ مطالعه تکنیک های خوشه بندی.. ۳۷
۲-۱ خوشه بندی سلسله مراتبی.. ۴۰
۲-۲ خوشه بندی سلسله مراتبی تجمیعی.. ۴۲
۲-۲-۳ الگوریتم پیوند کامل.. ۴۴
۲-۲-۴ الگوریتم پیوند میانگین گروهی.. ۴۴
۲-۲-۵ الگوریتم پیوند میانگین وزن دار. ۴۴
۲-۲-۶ الگوریتم پیوند مرکزی.. ۴۴
۲-۲-۷ الگوریتم پیوند میانی.. ۴۵
۲-۳-۶ الگوریتم های پیوند تک مبتنی بردرختان پوشای مینیمم.. ۵۳
۲-۴ روش های دیگر خوشه بندی سلسله مراتبی.. ۵۵