فرآيند متن کاوي

متن کاوي فرآيندي است که شامل فيلدهاي تکنولوژيکي فراواني است. بازيابي اطلاعات[1]، داده کاوي[2]، هوش مصنوعي[3] و زبان­شناسي محاسباتي[4]، همگی فيلدهايي هستند که در اين زمينه، نقشي را دارا هستند. اما به طور کلي دو فاز اصلي در فرآيند متن کاوي وجود دارد.

همچنین مطالب زیر را مطالعه کنید:

گزارش کارشناسی ارشد کلاسبندی متون چندبرچسبی

اولين فاز، پيش پردازش مستندات[5] است. خروجي نخستين فاز مي تواند دو قالب مختلف داشته باشد که شامل مبتني بر سند و مبتني بر مفهوم می­ باشد. در اولين قالب نمايش، آنچه اهمیت دارد، نمايش بهتري براي مستندات است که مي­تواند شامل تبدیل مستندات متنی به يك فرمت مياني و نيمه ساخت­يافته باشد يا بكار بردن اندیس يا هر نوع نمايش ديگري كه كار كردن با مستند را كاراتر مي كند. در اين صورت هر موجوديت در اين نمايش، در نهايت باز هم يك مستند خواهد بود. در نوع دوم بهبود بخشي به نمايش مستند، مفاهيم و معاني موجود در سند و نيز ارتباط ميان آنها و هر نوع اطلاعات مفهومي ديگري كه  قابل استخراج است، از متن استخراج مي شود. در اين نوع نمايش ديگر با مستندات به عنوان يك موجوديت مواجه نيستيم بلكه با مفاهيمي روبرو هستیم كه از اين مستندات استخراج شده ­اند.

قدم بعدي استخراج دانش از فرم­هاي مياني نمايش مستندات است. بسته به نحوه­ي نمايش يك مستند، روال استخراج دانش براي يك مستند متفاوت است. نمايش مبتني بر سند، براي گروه بندي، طبقه بندي، تصويرگري و نظاير آن استفاده مي شود، در حاليكه نمايش مبتني بر مفهوم براي يافتن روابط ميان مفاهيم، آنتولوژي[1] و نظاير آن بكار  مي­رود.


[1] Ontology


[1] Information Retrieval

[2] Data Mining

[3] Artificial Intelligence

[4] Computational Linguistic

[5] Document Preprocessing