يك دليل مهم براي بكارگيري روشهاي داده کاوي در مجموعه مستندات متني سازمان دادن آنها است. يك ساختار مي تواند به طور چشمگيري دسترسي به مجموعه مستندات را براي كاربر ساده كند. مشهورترين دسترسي به ساختارها كاتالوگ هاي كتابخانه يا اندیس هاي كتاب هستند. یکی از مشکلاتی که در طراحي دستي ايندكس ها در کتابخانه ها، زماني است كه براي نگهداري آنها لازم است. در نتيجه آنها هميشه به روز نيستند و اطلاعاتي كه اخيرا به اشتراك گذاشته شده را در بر ندارند يا اينكه بارها اطلاعات آنها تغيير ميكند مانند اطلاعات وب. روشهايي كه براي سازمان دهی مجموعه ها وجود دارند تلاش مي كنند تا مستندات را بر اساس كلمات كليدي آنها کلاس بندي کنند، يا به طورخودكار مجموعه مستندات را بر اساس مستندهاي مشابه سازماندهی[1] کنند.
همچنین مطالعه کنید:
اساس دسته بندي متون انتصاب كلاس هاي پيش تعريف شده به مستندات متني است. يعني بتوان با توجه به کلاسهاي از قبل تعيين شده، کلاس سند مورد نظر را تشخيص داد. به عنوان مثال برچسب زدن خودكار خبرهاي رسيده با موضوعاتي از قبيل ورزش، هنر و …. . متد کلاس بندي در داده کاوي كار خود را با يك مجموعه آموزشي D={d1,d2,..,dn} از مستنداتي كه قبلا کلاسبندي شده اند آغاز ميكنند. از اين مجموعه آموزشي در تعيين کلاس سند هاي جديد استفاده مي شود. عبارت بالا سند جديد d از دامنه را به كلاس مناسب انتصاب مي دهد.
طبقه بندی متن، مسئله ای است که در آن سند متنی را به یک یا چند طبقه از قبل تعیین شده نسبت می دهند. زمانی که تعداد اطلاعات متنی بیشتر میشود بازیابی اطلاعات بصورت موثر بدون اندیس گذاری و خلاصه سازی محتوای متن سخت و پیچیده می شود. طبقه بندی متن یک راه حل برای این مسئله است. با افزایش تعداد روشهای کلاسبندی بر پایه ی روشهای آماری و تکنیکهای یادگیری ماشین، در سالهای اخیر، منجر به اعمال روشها در طبقه بندی متن شده است.
اکثر تحقیقات در طبقه بندی متن به حل مسئله بصورت باینری پرداخته است. بدین معنا که آیا یک سند به یک موضوع از قبل تعیین شده مربوط است یا خیر. بهرحال، منابع متنی زیادی از دادههای متنی مثل اخبار اینترنتی، ایمیل و کتابخانه های دیجیتال وجود دارد. که هریک میتوانند به عناوین مختلف تعلق داشته باشند که مسئله چندبرچسبی بیان میشود. به عبارت دیگر در مسائل چندبرچسبی غالبا یک نمونه متنی به بیش از یک عنوان تعلق دارد. برای مثال یک متن خبری میتواند به چندین موضوع تعلق داشته باشد.
به طور کلی تحلیل متن به دو دسته تقسیم میشود که عبارتند از روشهای آماری و روشهای پردازش زبان. روشهای آماری بر طبق قانون احتمالات به تحلیل متن می پردازد و تلاش بر این دارد که اسناد متنی را به صورت ماتریسی نمایش دهد. روشهای پردازش زبان که بر طبق ساختار متن به استخراج خودکار مفاهیم از متن میشود و آن را علم هستی شناسی[2] نیز می نامند.
براي سنجش كارايي مدل طراحي شده براي دسته بندي مي توان از مستنداتي براي تست مدل استفاده کرد . نکته قابل توجه اين است که سندي که براي تست مدل ساخته شده استفاده مي شود نبايد در مستندات مجموعه آموزشي قرار داشته باشد. ما مستندات اين مجموعه آزمايشي را دستهبندي ميكنيم و کلاسهاي نتيجه را با کلاسهاي صحيح مقايسه كنيم. ميزان درستي کلاس مستندات نسبت به تعداد كل مستندات، دقت[3] ناميده ميشود و نخستين سنجش كارايي است.
بعد از آماده سازی مجموعه داده، کلاسبندی متن را انجام میدهیم. بطور کلی در داده کاوی برچسب تابعی از بردارهای موجود در مجموعه داده است و میتوان آن را بصورت f:wàL نمایش داد که w برداری از صفات است و L نشان دهندهی برچسب است. در متن کاوی صفات، کلمات و نشانهها هستند و تعیین برچسبها هدف اصلی در کلاسبندی متن میباشد که با لغات استخراج شده در ارتباط است.
بطور کلی در داده کاوی یادگیری به کمک الگوریتمهای یادگیری مختلف از مجموعه دادهی از قبل برچسب گذاری شدهای انجام میشود که آنرا مجموع دادهی آموزشی مینامند و بر طبق آن مجموعه بدون برچسب ورودی، برچسب گذاری میشود. جهت پیشبینی و کلاسبندی متون و توانایی استخراج دانش از اطلاعات موجود در متون و بکارگیری دانش در پیشبینی نمونهها، ابتدا همچنانکه بیان کردیم باید آنها در قالب ساختارمندی ذخیره کنیم. صفحه گسترده(یا ماتریس) قالبی است که میتوان اطلاعات متنی را در آن قرار داد. در ادامه با استفاده از روشهای یادگیری مختلف مانند روشهای منطقی، احتمالی، نزدیکترین همسایه و رتبه بندی وزنی میتواند یادگیری از متن را انجام داد و کلاسبند متن را ساخت. شکل زیر این مطلب را بیان می کند.

[1] Clustering
[2] Ontology
[3] Accuracy