کلیدواژگان: متن کاوی، سازمان دهی دانش، طبقه بندی خودکار، استخراج خودکار دانش، بازیابی.
مقدمه
کشف خودکار دانش به منظور کاهش هزینه های دسترسی مؤثر به محتوا و پایگاه های دادگان بزرگ، اهمیت بسیاری دارد. متن کاوی، امکان خودکارسازی انبوه دادگان را فراهم می آورد. متن کاوی، فناوری استخراج دانش ارزشمند از مجموعه ای از دادگان انبوه است؛ برای نمونه، استخراج دانش فروشندگی از دادگان نظرسنجی مشتریان، نوعی متن کاوی به شمار می رود. این فناوری به تازگی در کانون توجه بسیاری از دانش ها و پیشه ها، مانند مدیریت ارتباط مشتری، امنیت و پایش شبکه قرار گرفته است که در آن، ارزش افزوده ای به محتواهای موجود می دهند. داده کاوی، اطلاعات را گردآوری و فهرست نویسی کرده، سپس اقدام به تولید دانش از بین حجم عظیمی از داده ها می کند.
متن کاوی، نمونه ای از حوزه داده کاوی است که می کوشد الگوهای مطلوب از پایگاه دادگان بزرگ بیابد. متن کاوی همچنین به مثابه تحلیل هوشمند متن، کاوش متن داده یا کشف دانش از متن نیز شناخته شده است. به گونه کلی، متن کاوی به فرایندهایی از استخراج اطلاعات مطلوب و غیر بدیهی، و نیز استخراج دانش از متون ساختارنیافته مرتبط می شود. متن کاوی، حوزه ای نو و میان رشته ای است که از رشته های بازیابی اطلاعات، داده کاوی، یادگیری ماشینی، آمار و زبان شناسی محاسباتی مشتق شده است. از آنجا که بسیاری از اطلاعات به شکل متن ذخیره شده اند، متن کاوی، ارزش اقتصادی بسیار بالایی در پی خواهد داشت. دانش ممکن است از منابع گوناگون اطلاعاتی به دست آمده باشد، اما متون ساختارنیافته، بیشترین منابع دانش در دسترس را تشکیل می دهند. مسأله کشف دانش از متون، استخراج مفاهیم صریح و نیز غیر صریح و روابط معنایی میان مفاهیم با استفاده از فنون پردازش زبان طبیعی است. هدف استخراج دانش، به دست آوردن بصیرت هایی درباره دادگان متنی عظیم است. کشف دانش از متن ریشه در پردازش زبان طبیعی دارد؛ اما روش هایی از آمار، یادگیری ماشینی، استدلال استخراج اطلاعات، مدیریت دانش و دیگر رشته های مرتبط برای فرایند کشف خود، وام گرفته است. کشف دانش از متن، نقش فزاینده مهمی در ظهور برنامه هایی مانند فهم متن ایفا می کند.
متن کاوی، شبیه داده کاوی است؛ مگر اینکه ابزار داده کاوی برای کار با دادگان ساختاریافته از پایگاه دادگان طراحی شده است؛ اما متن کاوی ممکن است به مجموعه دادگان ساختارنیافته یا نیمه ساختاریافته مانند: ایمیل ها، اسناد متن کامل و مدارک اچ.تی.ام.ال نیز اعمال شود. (Gupta and Lehal, 2009, 60)
شیوه های متن کاوی نوعاً شامل: طبقه بندی، خوشه بندی، کشف قواعد ارتباط، تحلیل مجموعه زمان، تحلیل وابستگی گرافیکی، تشخیص تخلف و نظایر آن می شود. مهم ترین امر برای همه این شیوه ها، یادگیری ماشینی است. یادگیری ماشینی، برای یادگیری خودکار یک الگو یا قالبی از دادگان به منظور فهم ماهیت منابع اطلاعات و ساختن تصمیم معقول برای دادگان آینده انجام می شود. افزون بر آن، همه فرایندهای کشف دانش های سودمند از پایگاه دادگان بزرگ باید گام های: گزینش داده، پیش پردازش، انتقال، تفسیر و ارزیابی را دربربگیرد. این کار، فرایند کشف دانش از پایگاه دانش نامیده می شود.
هدف داده کاوی، کشف انگاره های معتبر، جدید و قابل ردیابی در حجم عظیمی از داده ها با استفاده از ابزارهای آماری و هوش مصنوعی است.
سازمان دهی دانش، به معنای نظام فناورانه ای است که هدفش کشف دانش سودمند از دادگان است. سهم متن کاوی در سازمان دهی دانش، کاهش مؤثر هزینه های طبقه بندی یا خوشه بندی میزان بسیار دادگان است.
رسالت اصلی داده کاوی، در دو طبقه کلی جای می گیرد: توصیف و پیش بینی. در سطح توصیف، هدف فهمیدن داده های زمان گذشته و حال است. از الگوهای توصیف برای جست وجوی گروهی از متغیرهای مشابه در افراد یا دسته هایی از گروه های جمعیت شناختی مشترک که ویژگی های خاصی از خود نشان می دهند، استفاده می شود. از پیش بینی نیز برای اظهارنظر در باره امور ناشناخته بر اساس امور شناخته شده استفاده می شود. از این ویژگی می توان برای پیش بینی آینده و یا اظهارنظر در باره حال استفاده کرد. در پیش بینی، دو نوع کارکرد وجود دارد: «رده بندی» که هدف از آن، قرار دادن یک فقره در یک طبقه است و «تخمین» که هدف از آن، تولید مقادیر عددی برای یک متغیر ناشناخته است.
متن کاوی با استفاده از پردازش پیچیده زبان طبیعی، کاربردپذیری کشف دانش از داده ها را به طور خیره کننده ای افزایش داده است. این بدان معناست که نیازی نیست فرایند کشف دانش از داده ها را تنها به آن دسته از اطلاعات موجود در پایگاه های ساختاریافته محدود کنیم. با توجه به اینکه بیشتر اطلاعات ارزشمند برای استخراج هم اکنون در متون زبان طبیعی وجود دارد، پردازش زبان طبیعی می تواند فنون مورد نیاز برای متن کاوی را فراهم کرده و دانش را به طور خودکار از این متون استخراج کند. به تازگی، متن کاوی به عنوان یک فناوری بسیار مناسب پذیرش وافری یافته است.
مراحل سه گانه متن کاوی
فرایند متن کاوی، شامل سه مرحله است که عبارت اند از: آماده سازی، پردازش و تحلیل متن.
- آماده سازی متن: این مرحله، انتخاب، پاکسازی و پردازش مقدماتی متن را شامل می شود. در این مرحله، پایگاه ها یا منابعی که قرار است متن کاوی بر روی آنان انجام پذیرد، انتخاب می شوند که معمولاً این کار، با راهنمایی یک متخصص انسانی و یا نرم افزار مناسب انجام می شود. پردازش مقدماتی متن، از قبیل شناسایی جمله/ پاراگراف و برچسب گذاری نقش کلمه، در این مرحله صورت می پذیرد.
- پردازش متن: این مرحله، شامل استفاده از الگوریتم داده کاوی به منظور پردازش داده های آماده سازی شده و فشرده سازی و انتقال آن به منظور شناسایی قطعات پنهان اطلاعات است. در این فرایند، با استفاده از یک نظام پردازش زبان طبیعی، مشخصات استاندارد و گوناگون موجودیت ها (افراد، شرکت ها، سازمان ها و...) شناسایی می شود، رابطه مفهومی بین آنها مشخص می شود و حتی قالب های خاص مورد علاقه نیز معرفی می گردند. طبقه بندی شرکت کنندگان، تاریخ ها و نتایج، و جداول موجودیت ها و روابط استخراج شده، ویژگی های معناداری نظیر: درخت های تصمیم گیری، شبکه های خنثا، قوانین وابستگی یا الگوریتم های ژنتیک، برای الگوریتم ها و فنون استاندارد تهیه می کند.
- تحلیل متن: در این مرحله، برون داد مورد ارزیابی قرار می گیرد تا مشخص شود که آیا کشف دانش صورت پذیرفته است و آیا دانش کشف شده اهمیت دارد یا خیر. با اجرای الگوریتم ها، داده/ متن استخراج شده به فنون مختلفی تحویل داده می شود که امکان استفاده مستقیم از اطلاعات استخراج شده را از طریق ابزار کشف پیوند یا مصورسازی فراهم می کنند.
این سه مرحله، باید به روشی اندیشمندانه صورت پذیرد؛ به طوری که به اهداف یک فرایند خاص متن کاوی، محدودیت های داده ها/متن استخراج شده، و نقاط قوت و ضعف الگوریتم مورد نظر توجه کافی واقع گردد. شواهد نشان داده است که چنانچه این ملاحظات اعمال شود، هم اطلاعات مربوط و هم اطلاعات غیرمربوط کشف خواهد شد و در این صورت است که نتایج غیرمنتظره ای به وقوع خواهد پیوست و این همان هدف متن کاوی، داده کاوی و همه انواع کشف دانش از داده هاست. (خاصه، 1389، 6)
شکل 1: فرایند مدیریت دانش
نقش داده کاوی در مدیریت دانش
مدیریت دانش، فرایند نظام وار برای به دست آوردن، سازمان دهی، تأیید کردن، اعمال، به اشتراک گذاری، بازآوری اطلاعات دقیق و صریح برای تقویت کارهای سازمانی، افزایش مطابقت سازمانی، افزایش ارزش محصولات و خدمات موجود و یا ایجاد محصولات دانش، فرایندها و خدمات است. دانش نو ممکن است ایجاد یا کسب شده باشد. دانش از طریق نمایه سازی عناصر دانش نمایه سازی می شود، بر پایه محتوا غربال می گردد و پیوندها و روابطی میان عناصر بنیان می نهد. این دانش با مخزن دانش یکپارچه شده و به کاربر منتقل می شود تا فرایند تصمیم سازی او را پشتیبانی کند. این کارکرد دانش ممکن است در نگهداری دانش که در آن دانش موجود، اصلاح یا نو می شود، نتیجه بخش باشد.
هدف نهایی داده کاوی، استخراج دانش معتبر و سودمند از پایگاه های دادگان عظیم است. از این رو، داده کاوی ممکن است نقشی فعال برای ایجاد دانش داشته باشد. همان گونه که سازمان دهی، دادگان انبوه را از تعاملات گوناگونش انباشته می کند، یا همان گونه که تصمیم ها و تأثیر آنها پس از کاربرد اطلاعات در دسترس قرار می گیرد، داده کاوی نیز ممکن است در اصلاح دانش و تازه کردن آن با بازکشف آنها از مجموعه دادگان نو، مشارکت کند. افزون بر کاربرد داده کاوی در مدیریت دانش، همچنین در سازمان دهی و توزیع دانش نیز می تواند سهیم باشد؛ برای نمونه، اگر دانش مدیریت شده در قالب متنی باشد، فعالیت سازمان دهی دانش باید با سازمان دهی اسناد دانش در سلسله مراتبی از دسته ها اهتمام داشته باشد تا کاربران اطلاعات در جست وجو و مرور این اسناد دانش، کار ساده ای داشته باشند. افزون بر آن، فعالیت سازمان دهی دانش، باید پشتیبانی هایی برای تخصیص خودکار اسناد دانش یک یا چند دسته از پیش تعیین شده، فراهم آورد. داده کاوی، به ویژه متن کاوی، ممکن است برای فراهم آوردن کارکردهای مطلوب فعالیت سازمان دهی دانش منطبق باشد. از سوی دیگر، الگوها یا رفتارهای استفاده از دانش ممکن است از تاریخ استفاده دانش ورزان از دانش کشف شود و کشف دانش ممکن است با سوق دادن دانش به گونه فعالانه به دانش ورزان بالقوه، آسان سازی و پرورش یافته شود. (Wei, Piramuthu and Shaw)
استفاده از فنون متن کاوی در سازمان دهی دانش
1. استخراج اطلاعات
نقطه عزیمت رایانه برای تحلیل متون ساختارنیافته، استفاده از استخراج اطلاعات (Information Extraction) است. برنامه های استخراج اطلاعات، عبارات کلیدی و روابط میان متن را مشخص می کنند. این کار با نظر به زنجیره های از پیش تعیین شده متن، فرایندهایی که تطبیق الگو خوانده می شود، صورت می گیرد. برنامه ها، روابط میان همه اشخاص، مکان ها و زمان های تعیین شده را استنتاج می کنند تا برای کاربران، اطلاعاتِ بامعنا فراهم آورند. این فن ممکن است هنگام کار کردن با کتبی با مجلدات عظیم بسیار سودمند باشد. (Gupta and Lehal, 2009, 61)
از راه های سازمان دهی دانش، استفاده از اطلاعات موجود در متون و دیگر مواد است؛ به این معنا که با استفاده از اطلاعات موجود در اسناد، محتوای آنها نظم دهی می شود و نظام های سازمان دهی دانش نیز بر این مبنا عمل می کنند. از این روی، استفاده از این فن در سازمان دهی اطلاعات، بسیار سودمند است.
2. رهگیری عنوان
نظام رهگیری عنوان (Topic Tracking)، با نگهداری نمایه های کاربر عمل، و با ابتنای بر اسنادی که کاربر مشاهده کرده است، دیگر اسنادی را که مطلوب کاربر است، پیش بینی می کند. موتور جست وجوی یاهو، ابزارهای رایگان رهگیری عنوان را عرضه کرده است که با استفاده از آن، کاربران، مجاز به گزینش کلیدواژگان و آگاه سازی آنها هنگامی که اخبار مرتبط با آن عنوان ها در دسترس باشد. فن رهگیری عنوان، محدودیت هایی دارد؛ برای نمونه، اگر کاربر، برنامه آگاهی بخشی (Alert) برای عبارت «متن کاوی» نصب کند، اخبار گوناگونی درباره کاوش و معدن را دریافت خواهد کرد که مقدار اندکی از آنها ممکن است درباره متن کاوی باشد.
از راه های سریع و کم هزینه در رساندن کاربران به اطلاعات درخواستی، استفاده از فن رهگیری عنوان است. این فن، گرچه به گونه مستقیم به کار سازمان دهی اطلاعات نیاید، اما از نتایج آن می توان در سازمان دهی دانش استفاده کرد؛ به این گونه که از اطلاعات به دست آمده از نمایه کاربران، راه هایی برای دسته بندی متن به دست داد.
3. خلاصه سازی
خلاصه سازی (Summarization) متن، برای شکل دادن نیازهای کاربران و خوانش درست اطلاعات انبوه، بسیار سودمند است. برنامه خلاصه سازی، متن های بزرگ را در زمان کوتاه پردازش و تلخیص می کند. کلید تلخیص، کاهش طول و جزئیات متن است؛ در حالی که نکات مهم و معنای کلی آن را نگه می دارد. چالش پیش روی خلاصه سازی متن، آن است که هرچند رایانه ها قادر به تشخیص شخص، مکان و زمان اند، اما هنوز فرادادن تحلیل معنایی و تفسیر معنا به نرم افزار، دشوار است.
از نظام های سنتی سازمان دهی دانش، چکیده نویسی است. این نظام در کنار نمایه سازی، در سازمان دهی متون چاپی، و نیز در متون رقمی همچنان استفاده می شود. اگرچه خلاصه نویسی و چکیده نویسی تفاوت هایی با هم دارند، اما شاید هر دو یک نتیجه را در سازمان دهی داشته باشند.
4. دسته بندی
دسته بندی (Clustering)، شامل تشخیص درون مایه اصلی سند با قرار دادن آن در مجموعه عنوان های از پیش تعیین شده است. هنگام دسته بندی یک سند، برنامه رایانه ای اغلب با اسناد به مانند کیف واژگان برخورد می کند. برنامه در پردازش اطلاعات واقعی، مانند آنچه در استخراج اطلاعات انجام می شود، نمی کوشد؛ بلکه تنها دسته بندی واژگانی را که ظاهر می شوند، برمی شمارد و از این شمارش، مشخص می کند که عنوان اصلی ای که این سند پوشش می دهد، چیست. دسته بندی، اغلب بر اصطلاح نامه هایی مبتنی است که از آنها عنوان های از پیش تعریف شده و روابط معین شده با نظر به اصطلاح های عام، اصطلاح های خاص، مترادفات و اصطلاح های مرتبط را گرفته است. ابزارهای دسته بندی به گونه معمول، دارای شیوه ای برای رتبه بندی اسناد در نظامی که آنها بیشترین محتوا را در عنوانی واحد دارند، هستند.
از دسته بندی، می توان به همراه رهگیری عنوان و خلاصه سازی متن، برای دقت بیشتر در مرتبط کردن اسناد به شخص جوینده اطلاعات در باب یک عنوان، استفاده کرد.
دسته بندی، از ابزارهای سازمان دهی اطلاعات به شمار می رود که با ظهور فنون متن کاوی، می توان از آن برای سامان دادن به دانش سود جست.
5. خوشه بندی
خوشه بندی (Clustering)، فنی است که برای گروه بندی اسناد مشابه به کارمی رود؛ به خلاف دسته بندی که در آن، اسناد، از طریق عنوان های از پیش تعریف شده مرتب می شوند و حال آنکه خوشه بندی بر پایه امری نامتعین انجام می گیرد. از سودمندی های خوشه بندی این است که اسناد ممکن است در چند زیرعنوان ظاهر شوند. از این رو، می توان از اینکه اسناد مفهوم از نتایج جست وجو حذف نخواهند شد، اطمینان یافت.
خوشه بندی به شیوه خودکار و با استفاده از فنون متن کاوی، هم در افزایش سرعت و هم در کاهش هزینه ها بسیار سودمند است. گاه دقت در خوشه بندی به مثابه فن متن کاوی، بیش از خوشه بندی سنتی است. از این روی، متن کاوی کمک بسیاری در ساختارمند کردن متن خواهد داشت.
6. پیوند مفهومی
ابزارهای پیوند مفهومی (Concept Linkage)، اسناد مرتبط را با مشخص کردن مفاهیم عموماً مشترک متصل می کند و کاربران را در یافتن اطلاعاتی که شاید با استفاده از شیوه های سنتی یافت نمی شد، یاری می رساند. این شیوه، مرور فهرست ها برای دستیابی به اطلاعات را به جای جست وجو برای آنها، ترویج می دهد. پیوند مفاهیم مفهومی ارزشمند در متن کاوی، به ویژه در حوزه زیست پزشکی است که در آن پژوهش بسیاری انجام شده است که خواندن همه محتوای آن و مرتبط ساختن آنها به دیگر پژوهش ها، برای پژوهشگران غیر ممکن است. برنامه های پیوند مفاهیم ممکن است پیوند میان بیماری ها و درمان ها را تشخیص دهد که معمولاً انسان از عهده آن برنمی آید؛ برای نمونه، نرم افزار متن کاوی ممکن است به آسانی پیوند میان عنوان «آ» و «ب» و «پ» و «ت» را که روابط مشهور هستند، تشخیص دهد؛ اما ابزارهای متن کاوی همچنین قادر به تشخیص پیوند بالقوه میان «آ» و «ت» نیز هستند که پژوهشگر انسانی به سبب آنکه باید مجلدات بسیاری از متون را دسته بندی کند تا این ارتباطات را دریابد، قادر به فهم آن نباشد.
از رهیافت ها و نظام های نوین در سازمان دهی دانش، پیوند دادگان و شبکه های مفهومی است. برای ایجاد چنین شبکه هایی، استفاده از فنون متن کاوی بسیار مددرسان خواهد بود. بسیاری از ابزارها و فنون متن کاوی، به ویژه پیوند مفهومی، در ایجاد پیوند میان متون و مفاهیم و اصطلاح ها و ایجاد شبکه ای درهم تنیده از دادگان و در نتیجه کشف اطلاعات و دانش از آنها، نقشی مؤثر خواهند داشت؛ به ویژه در حجم انبوه منابع که انسان به سختی قادر به ساخت دهی به آن است، متن کاوی می تواند راهگشا باشد.
7. مصورسازی اطلاعات
متن کاوی مریی یا مصورسازی اطلاعات (Information Visualization)، منابع متنی بزرگی را در سلسله مراتبی مریی قرار می دهد و افزون بر جست وجوی ساده، قابلیت مرور را نیز برای آن ایجاد می کند. (Gupta and Lehal, 2009, 61-65)
از رهیافت های نو به سازمان دهی متون، مصورسازی اطلاعات است.
شکل 2: نمونه ای از مصورسازی اطلاعات
نتیجه گیری
متن کاوی و نظام های سازمان دهی دانش، گرچه دو حوزه متفاوت از دانش به شمار می روند و هر یک از آنها زمینه و روش های گوناگون دارند، اما نتیجه کار آنها در برخی از نمونه ها، بسیار به هم نزدیک می شود. کاوش و تحلیل متن با استفاده از فنون و برنامه های مختلف و استفاده از دانش های گوناگون: رایانه، زبان شناسی، فلسفه ذهن، فلسفه زبان، هوش مصنوعی و دیگر علوم، برای کشف دانش از منابع کار متن کاوی است و سامان مند کردن متون و منابع، روشی برای دسترسی آسان و سریع به اطلاعات، با استفاده از نظام ها و ابزارهایی نظیر: فهرست نویسی، نمایه سازی و طبقه بندی، کار نظام های سازمان دهی دانش به شمار می رود.
با این نگاه، ارتباط های تنگاتنگی میان این دو حوزه مشاهده می شود و این دو زمینه از دانش، تعامل بسیاری با هم دارند. چنان که متن کاوی برای پیاده سازی فنون خود نیازمند نظام هایی چون: رده بندی، دسته بندی، خوشه بندی، اصطلاح نامه، سرعنوان های موضوعی و نمایه سازی است.
شکل 3: تعامل میان متن کاوی و نظام های سازمان دهی دانش
نظام های سازمان دهی دانش نیز نیازمند فنون متن کاوی اند تا هم نظام هایی نظیر: دسته بندی، فهرست نویسی، نمایه سازی و شبکه های معنایی را تقویت و به سرعت نو کنند و هم فرایند سازمان دهی دانش را با کمترین هزینه و بیشترین سرعت، در قیاس با شیوه های سنتی انجام دهند.
منابع:
1. Gupta, V., & Lehal, G. S. "A Survey of Text Mining Techniques and Applications". Journal of emerging technologies in web intelligence. (2009): 60-77.2. Wei, C.-P., Piramuthu, S., and Shaw, M. (n.d.). "Knowledg Discovery and data minig".3. خاصه، علی اکبر. «داده کاوی، متن کاوی و وب کاوی؛ تعاریف و کاربردها». مجله الکترونیکی ارتباط علمی. 55. (1389): 1 6.