text mining

يك دليل مهم براي بكارگيري روش­هاي داده کاوي در مجموعه مستندات متني سازمان دادن آنها است. يك ساختار مي ­تواند به طور چشم­گيري دسترسي به مجموعه مستندات را براي كاربر ساده كند. مشهورترين دسترسي به ساختارها كاتالوگ­ هاي كتابخانه يا اندیس­ هاي كتاب هستند. یکی از مشکلاتی که در طراحي دستي ايندكس­ ها در کتابخانه ­ها، زماني است كه براي نگهداري آنها لازم است. در نتيجه آنها هميشه به روز نيستند و اطلاعاتي كه اخيرا به اشتراك گذاشته شده را در بر ندارند يا اينكه بارها اطلاعات آنها تغيير مي­كند مانند اطلاعات وب. روش­هايي كه براي سازمان دهی مجموعه­ ها وجود دارند تلاش مي كنند تا مستندات را بر اساس كلمات كليدي آن­ها کلاس بندي کنند، يا به طورخودكار مجموعه مستندات را بر اساس مستندهاي مشابه سازماندهی[1] کنند.

اساس دسته ­بندي متون انتصاب كلاس ­هاي پيش تعريف شده  به مستندات متني است. يعني بتوان با توجه به کلاس­هاي از قبل تعيين شده، کلاس سند مورد نظر را تشخيص داد. به عنوان مثال برچسب زدن خودكار خبرهاي رسيده با موضوعاتي از قبيل ورزش، هنر و …. . متد کلاس بندي در داده کاوي كار خود را با يك مجموعه آموزشي D={d1,d2,..,dn} از مستنداتي كه قبلا کلاس­بندي شده ­اند آغاز مي­كنند. از اين مجموعه آموزشي در تعيين کلاس سند هاي جديد استفاده مي شود. عبارت بالا سند جديد d  از دامنه را  به كلاس مناسب انتصاب مي دهد.

طبقه ­بندی متن، مسئله­ ای است که در آن سند متنی را به یک یا چند طبقه از قبل تعیین شده نسبت می دهند. زمانی که تعداد اطلاعات متنی بیش­تر می­شود بازیابی اطلاعات بصورت موثر بدون اندیس­ گذاری و خلاصه ­سازی محتوای متن سخت و پیچیده می ­شود. طبقه­ بندی متن یک راه­ حل برای این مسئله است. با افزایش تعداد روش­های کلاس­بندی بر پایه ­ی روش­های آماری و تکنیک­های یادگیری ماشین، در سال­های اخیر، منجر به اعمال روش­ها در طبقه­ بندی متن شده است.

اکثر تحقیقات در طبقه­ بندی متن به حل مسئله بصورت باینری پرداخته است. بدین معنا که آیا یک سند به یک موضوع از قبل تعیین شده مربوط است یا خیر. بهرحال، منابع متنی زیادی از داده­های متنی مثل اخبار اینترنتی، ایمیل و کتابخانه­ های دیجیتال وجود دارد. که هریک می­توانند به عناوین مختلف تعلق داشته باشند که مسئله چندبرچسبی بیان می­شود. به عبارت دیگر در مسائل چندبرچسبی غالبا یک نمونه متنی به بیش از یک عنوان تعلق دارد. برای مثال یک متن خبری می­تواند به چندین موضوع تعلق داشته باشد.

به طور کلی تحلیل متن به دو دسته تقسیم می­شود که عبارتند از روش­های آماری و روش­های پردازش زبان. روش­های آماری بر طبق قانون احتمالات به تحلیل متن می ­پردازد و تلاش بر این دارد که اسناد متنی را به صورت ماتریسی نمایش دهد. روش­های پردازش زبان که بر طبق ساختار متن به استخراج خودکار مفاهیم از متن می­شود و آن را علم هستی شناسی[2] نیز می­ نامند.

براي سنجش كارايي مدل طراحي شده براي دسته بندي مي توان از مستنداتي براي تست مدل استفاده کرد . نکته قابل توجه اين است که سندي که براي تست مدل ساخته شده استفاده مي شود نبايد در مستندات مجموعه آموزشي قرار داشته باشد. ما مستندات اين مجموعه آزمايشي را دسته­بندي مي­كنيم و کلاس­هاي نتيجه را با کلاس­هاي صحيح مقايسه كنيم. ميزان درستي کلاس مستندات نسبت به تعداد كل مستندات، دقت[3] ناميده مي­شود و نخستين سنجش كارايي است.

بعد از آماده سازی مجموعه داده، کلاسبندی متن را انجام می­دهیم. بطور کلی در داده کاوی برچسب تابعی از بردارهای موجود در مجموعه داده است و می­توان آن را بصورت f:wàL نمایش داد که w برداری از صفات است و L نشان دهنده­ی برچسب است. در متن کاوی صفات، کلمات و نشانه­ها هستند و تعیین برچسب­ها هدف اصلی در کلاسبندی متن می­باشد که با لغات استخراج شده در ارتباط است.

بطور کلی در داده کاوی یادگیری به کمک الگوریتم­های یادگیری مختلف از مجموعه داده­ی از قبل برچسب گذاری شده­ای  انجام می­شود که آنرا مجموع داده­ی آموزشی می­نامند و بر طبق آن مجموعه بدون برچسب ورودی، برچسب گذاری می­شود. جهت پیش­بینی و کلاسبندی متون و توانایی استخراج دانش از اطلاعات موجود در متون و بکارگیری دانش در پیش­بینی نمونه­ها، ابتدا همچنانکه بیان کردیم باید آنها در قالب ساختارمندی ذخیره کنیم. صفحه گسترده(یا ماتریس) قالبی است که می­توان اطلاعات متنی را در آن قرار داد. در ادامه با استفاده از روش­های یادگیری مختلف مانند روش­های منطقی، احتمالی، نزدیک­ترین همسایه و رتبه بندی وزنی می­تواند یادگیری از متن را انجام داد و کلاسبند متن را ساخت. شکل زیر این مطلب را بیان می­ کند.

روند کلاسبندی یک سند متنی

[1] Clustering

[2] Ontology

[3] Accuracy

متن کاوي فرآيندي است که شامل فيلدهاي تکنولوژيکي فراواني است. بازيابي اطلاعات[1]، داده کاوي[2]، هوش مصنوعي[3] و زبان­شناسي محاسباتي[4]، همگی فيلدهايي هستند که در اين زمينه، نقشي را دارا هستند. اما به طور کلي دو فاز اصلي در فرآيند متن کاوي وجود دارد.

همچنین مطالب زیر را مطالعه کنید:

گزارش کارشناسی ارشد کلاسبندی متون چندبرچسبی

اولين فاز، پيش پردازش مستندات[5] است. خروجي نخستين فاز مي تواند دو قالب مختلف داشته باشد که شامل مبتني بر سند و مبتني بر مفهوم می­ باشد. در اولين قالب نمايش، آنچه اهمیت دارد، نمايش بهتري براي مستندات است که مي­تواند شامل تبدیل مستندات متنی به يك فرمت مياني و نيمه ساخت­يافته باشد يا بكار بردن اندیس يا هر نوع نمايش ديگري كه كار كردن با مستند را كاراتر مي كند. در اين صورت هر موجوديت در اين نمايش، در نهايت باز هم يك مستند خواهد بود. در نوع دوم بهبود بخشي به نمايش مستند، مفاهيم و معاني موجود در سند و نيز ارتباط ميان آنها و هر نوع اطلاعات مفهومي ديگري كه  قابل استخراج است، از متن استخراج مي شود. در اين نوع نمايش ديگر با مستندات به عنوان يك موجوديت مواجه نيستيم بلكه با مفاهيمي روبرو هستیم كه از اين مستندات استخراج شده ­اند.

قدم بعدي استخراج دانش از فرم­هاي مياني نمايش مستندات است. بسته به نحوه­ي نمايش يك مستند، روال استخراج دانش براي يك مستند متفاوت است. نمايش مبتني بر سند، براي گروه بندي، طبقه بندي، تصويرگري و نظاير آن استفاده مي شود، در حاليكه نمايش مبتني بر مفهوم براي يافتن روابط ميان مفاهيم، آنتولوژي[1] و نظاير آن بكار  مي­رود.

[1] Ontology


[1] Information Retrieval

[2] Data Mining

[3] Artificial Intelligence

[4] Computational Linguistic

[5] Document Preprocessing