استخراج مفهوم در داده کاوی

چهارشنبه, 31 خرداد 1396 ساعت 15:30
    نویسنده: خدیجه مرادی* این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

مقدمه

استفاده از رایانه در امور مختلف، باعث شده تا داده های بسیاری با سرعت های زیاد در پایگاه داده ها انباشته و ذخیره شوند. پردازش این داده های حجیم، خارج از توان انسان است. تلاش های فراوانی تاکنون انجام شده است تا نرم افزارها و سخت افزارها توسعه پیدا کنند و تولید، ذخیره و انتقال داده ها انجام گردد؛ اما تجزیه و تحلیل این حجم از داده ها توسط رایانه ها، بعد از ذخیره و پردازش، تاکنون انجام نشده است. داده ها در عصر حاضر، قلب تپنده هر سازمان را تشکیل می دهند و هر روز به میزان داده ها در سیستم های اطلاعاتی افزوده می شود. در واقع، سازمان ها در اطلاعات غرق شده اند؛ درحالی که تشنه دانش هستند. این امر، نشانگر آن است که سازمان ها نتوانسته اند از دانش درون داده ها به نحو مناسب استفاده نمایند. در درون حجم عظیمی از داده ها، الگوها و روابط بسیاری میان پارامترهای مختلف به صورت پنهان باقی می ماند که برای برنامه ریزی های استراتژیک و طولانی مدت می تواند حیاتی باشد. بنابراین، نیاز به ابزاری است تا داده ها را به گونه ای پردازش کند تا دانش حاصل از آن را در اختیار تصمیم گیران سازمان قرار دهد. یکی از راهکارهایی که امروزه در این زمینه ایجاد و در حال گسترش است، داده کاوی(1) است. داده کاوی، فرآیند کشف دانش پنهان درون داده هاست که با توصیف، تشریح، پیش بینی و کنترل پدیده های گوناگون پیرامونی، دارای کاربرد بسیار وسیعی در حوزه های مختلف است؛ به گونه ای که مرز و محدودیتی برای کاربرد آن در نظر گرفته نشده و زمینه های کاربردی آن را از ذرات کف اقیانوس تا اعماق فضاء می دانند (شهرابی، 1386).

تعریف داده، اطلاعات و دانش، کار مشکلی است و تنها از دیدگاه کاربران و استفاده کنندگان می توان تمایزی بین آنها ایجاد نمود و آنها را از یکدیگر تشخیص داد. از دیدگاه صاحب نظران، داده به واقعیت های ساخت نیافته و بدون ساختار اطلاق می شود که به تنهایی معنا ندارد؛ به بیانی دیگر، داده ها حقایق خام هستند و در پایگاه های داده ذخیره و مدیریت می شوند و تا زمانی که پردازش نشوند، هیچ برداشتی از آنها صورت نمی گیرد. اطلاعات، داده های خلاصه ای هستند که گروه بندی، ذخیره، پالایش و سازماندهی شده اند تا بتوانند معنادار شوند. اطلاعات زمانی ارزش پیدا می کند که برای یک فرد، هدف و در زمان خاص گردآوری و آماده سازی شود. دانش، عبارت است از اطلاعات دسته بندی شده و مرتبط که کاربرد اجرایی و عملی یافته اند (داونپورت(2) ، 1998). دانش، عبارت است از مجموعه باورها، مهارت ها، شناخت ها، تئوری ها، مقررات و اقدامات عملی که سازمان و افراد آن را در اختیار دارند و برای اتخاذ تصمیمات و حل مسائل مختلف از آن استفاده می کنند. دانش، آن بخشی از اطلاعات است که در عمل برای اخذ تصمیمات و انجام اقدامات به کارمی رود (باقری و سلاجقه، 1389).

هرم دانش در فناوری اطلاعات - هرم داده تا خردشکل1: هرم داده تا خِرد

کشف دانش(3)

فرایند استخراج دانش مفید از میان انبوهی از داده ها، «کشف دانش» نامیده می شود. کشف دانش، مربوط به کل فرآیند استخراج دانش است؛ از جمله: چگونه داده ها ذخیره و قابل دسترس می شوند، چگونه با استفاده از الگوریتم های کارآمد و مقیاس پذیر به تجزیه و تحلیل مجموعه داده های عظیم می پردازد، چگونه به تفسیر و مصورسازی نتایج می پردازد و چگونه به مدل سازی و پشتیبانی تعاملات میان انسان و ماشین می پردازد. همچنین، مرتبط با پشتیبانی برای یادگیری و تحلیل در برخی حوزه های کاربردی است. داده کاوی و استخراج دانش از پایگاه داده ها، از موضوعاتی است که هم زمان با تولد پایگاه های اطلاعاتی ایجاد شد. پژوهشگران و متخصصان رایانه، هوش مصنوعی، یادگیری ماشینی و غیره، از اوایل دهه 20میلادی، به پژوهش در این زمینه پرداختند (تاج الدینی، موسوی و دلیری، 1388). عبارت «کشف دانش در پایگاه داده ها» منسوب به کارگاهی آموزشی در سال 1989 است. این عبارت، به این معناست که نتایج نهایی از تجسس داده ها، باید در کشف دانش قابل استفاده باشد (فایاد(4) ، 1996).

کشف دانش، به دو روش انجام می شود:

  1. داده کاوی یا استخراج دانش از پایگاه داده ها؛
  2. متن کاوی یا استخراج دانش از متن (هوتو(5) ، 2005).

عوامل موثر بر استخراج دانش - عوامل مؤثر بر استخراج دانششکل 2: عوامل موثر بر استخراج دانش

داده کاوی و استخراج دانش از پایگاه داده ها هم زمان با تولد پایگاه اطلاعاتی ایجاد گردید و توسط متخصصان آمار، یادگیری ماشینی، تحلیل گران داده، پژوهشگران هوش مصنوعی و مصورسازی، در اوایل دهه 80 برای اوّلین بار به کار گرفته شد. بعدها با افزایش رشد فناوری اطلاعات، استفاده از آن در بسیاری از علوم متداول گشت. اوّلین گزارش رسمی از داده کاوی را به لوول در سال 1983 نسبت می دهند؛ اما به طور کلی، پژوهش های جدی در این زمینه، از دهه 90 آغاز گردیده است (تاج الدینی و موسوی، 1388).

داده کاوی

داده کاوی یا استخراج دانش از پایگاه داده ها(6)، ترجمه اصطلاح data mining است. نگاهی به این ترجمه تحت اللفظی تقریباً مفهوم آن را نشان می دهد. Mine، به معنای استخراج از منابع نهفته و با ارزش زمین است و ترکیب داده با کلمه mine، جست و جوی عمیق برای کشف و پیداکردن اطلاعات اضافی مفید را که قبلاً نهفته بودند، از داده های حجیم پیشنهاد می دهد (برسون(7)، 2004). داده کاوی، نام خود را از شباهت هایی که بین دو حوزه جستجوی اطلاعات مرتبط و ارزشمند در پایگاه های داده ای بزرگ و کند و کاو سنگ ها در معادن برای استخراج رگه هایی از سنگ های معدنی ارزشمند به عاریت گرفته است و این دقیقاً همان چیزی است که داده کاوی دنبال می کند و هدف آن است. داده کاوی، به دنبال استخراج اطلاعات ارزشمند از یک پایگاه اطلاعاتی بزرگ است (خاصه، 1389). برخی، داده کاوی را معادل استخراج دانش، وارسی داده ها و لایروبی داده ها می دانند.

از داده کاوی تعاریف مختلفی در متون مختلف ارائه شده است؛ برخی از تعاریف، داده کاوی را به عنوان ابزاری برای ارتباط کاربر با داده های عظیم معرفی می کند و برخی دیگر، به کاوش داده ها و ارائه تعاریف دقیق تری از داده کاوی پرداخته اند که در زیر به شماری از آنها اشاره می گردد:

  • • داده کاوی، فرایند کشف دانش پنهان موجود در داده هاست (شهرابی، 1386)؛
  • • داده کاوی، یک فرآیند شناخت الگوهای معتبر، جدید، ذاتاً مفید و قابل فهم از داده هاست؛
  • • کشف دانش از پایگاه داده ها؛
  • • فرآیند کشف الگوهای مفید از داده ها؛
  • • فرآیند انتخاب، کاوش و مدل بندی داده های حجیم، جهت کشف روابط نهفته با هدف به دست آوردن نتایج واضح و مفید، برای مالک پایگاه داده ها (گیورودی(8)، 2001).

متداول ترین تعریف از داده کاوی که در بیشتر متون و مراجع به کار برده شده، عبارت است از: «استخراج اطلاعات و دانش و کشف الگوهای پنهان از یک پایگاه داده بسیار بزرگ و پیچیده.» داده کاوی کمک می کند تا سازمان ها با کاوش بر روی داده های یک سیستم، الگوها، روندها و رفتارهای آینده را کشف و پیش بینی کنند و بهتر تصمیم بگیرند. داده کاوی با استفاده از تحلیل وقایع گذشته، یک تحلیل خودکار و پیش بینانه ارائه می نماید و به سؤالاتی جواب می دهد که پاسخ آنها در گذشته ممکن نبوده و یا به زمان بسیاری نیاز داشت. ابزارهای داده کاوی، الگوهای پنهانی را کشف و پیش بینی می کنند که متخصصان ممکن است به دلیل اینکه این اطلاعات و الگوها خارج از انتظار آنها باشد، آنها را مدنظر قرار ندهند و به آنها دست نیابند (بری(9)، 1997).

مراحل داده کاوی

داده کاوی، شامل مراحل زیر است:

  1. شناخت: اوّلین مرحله این است که ما حوزه موضوعی و کاربری مورد نظری را که قرار است داده کاوی در آن انجام شود، بشناسیم. نیازها و هدف های کاربران را بررسی کرده، دانشی در آن باره کسب نماییم.
  2. داده های هدف: مجموعه هدف را انتخاب کنیم و داده های مورد نظر خود را انتخاب نماییم.
  3. پاک سازی داده ها(10): داده های اضافی و نامربوط از مجموعه داده ها حذف می شوند.
  4. تبدیل و تغییر شکل داده ها: داده های انتخاب شده به صورتی متناسب جهت انجام فرایند داده کاوی تبدیل می شوند.
  5. داده کاوی: این مرحله، سخت ترین مرحله است و در آن از تکنیک های هوشمند همچون: قوانین انجمنی، خوشه بندی، طبقه بندی و... برای استخراج الگوهای مفید استفاده می شود.
  6. ارزیابی و تفسیر الگوها(11
  7. دانش.

فرآیند داده کاوی - فرایند داده کاوی

شکل 3: فرایند داده کاوی

اهمیت و لزوم داده کاوی

در این قسمت، به این سؤال خواهیم پرداخت که چرا داده کاوی مهم است؟ و لزوم انجام داده کاوی چیست؟

مزایای داده کاوی را می توان به شرح ذیل خلاصه نمود:

  • • فرض های ساده، مانند استقلال و یا وابستگی احتمالی همه پدیده ها را در نظر نمی گیرد.
  • • دینامیک است و محدود به توابع تعریف شده قبلی نیست؛ یعنی توابع به صورت دینامیک و دائماً از داده های خام موجود در مخزن داده ساخته می شوند. بنابراین، مدل محدود به تابع خاص نیست.
  • • آنالیزهای هم زمان بر روی پدیده های مختلف صورت می گیرد.
  • • به بومی سازی مدل نیازی نیست؛ زیرا مدل ها و توابع دائماً از بتن داده ها ساخته می شود و چون داده ها متعلق به سازمان است، بومی سازی معنا ندارد.
  • • عدم نیاز به اعتبارسنجی نتایج محصول استخراج مدل از داده هاست.
  • • اشکالات معمول حاصل از نمونه گیری آماری، در داده کاوی وارد نمی شود. حجم داده در داده کاوی، بستگی به موضوع داده کاوی دارد.
  • • داده کاوی، نیازمند به فرضیه نیست و ممکن است برای اثبات فرضیه از داده کاوی استفاده شود.
  • • در داده کاوی، آنالیزهای واقعی صورت می گیرد و به توزیع داده ای وابسته نیست. از دیدگاه داده کاوی، همه چیز به همه چیز مرتبط است و آنهایی که به هم نزدیک ترند، مرتبط ترند.

شش عمل و وظیفه مهم را می توان برای داده کاوی به شرح ذیل برشمرد که سه مورد اوّل در گروه داده کاوی هدایت شده و دو مورد بعدی، در گروه داده کاوی غیرهدایت شده هستند:

  • - دسته بندی(12
  • - تخمین(13
  • - پیش بینی(14
  • - گروه بندی شباهت(15
  • - خوشه بندی(16
  • - توصیف و نمایه سازی(17).

داده کاوی، یکی از مؤلفه های مهم مدیریت، تحلیلی ارتباط با مشتری است و هدف آن، ارتباط مؤثر با مشتری است که به بازتولید روابط یادگیرنده می انجامد. تعاملات یک بانک با مشتریانش، داده های بسیاری را تولید می کند. این داده ها در وهله اوّل، از طریق سیستم های پردازش تعاملات مثل فایل اطلاعات مشتریان تولید می شود. سپس، داده ها جمع آوری، تصفیه خودکار و خلاصه می شوند تا در انبارداده های مشتری قرار گیرند (شهرابی، 1386).

کاربردهای داده کاوی

رسالت اصلی داده کاوی، در دو طبقه کلی جای می گیرد: توصیف و پیش بینی. در سطح توصیف، هدف فهمیدن داده های زمان گذشته و حال است. از الگوهای توصیف برای جست وجوی گروهی از متغیرهای مشابه در افراد یا دسته هایی از گروه های جمعیت شناختی مشترک که ویژگی های خاصی از خود نشان می دهند، استفاده می شود. از پیش بینی نیز برای اظهارنظر درباره امور ناشناخته بر اساس امور شناخته شده استفاده می شود. از این ویژگی می توان برای پیش بینی آینده و یا اظهارنظر درباره حال استفاده کرد. در پیش بینی، دو نوع کارکرد وجود دارد: «رده بندی» که هدف از آن، قراردادن یک فقره در یک طبقه است و «تخمین» که هدف از آن، تولید مقادیر عددی برای یک متغیر ناشناخته است.

کاربردهایی که برای داده کاوی وجود دارند، بسیار گسترده اند و ما در این نوشتار، فقط امکان معرفی تعداد محدودی از آنها را داریم؛ به عنوان مثال های بیشتر، می توان به کاربردهای داده کاوی در زمینه های ذیل اشاره کرد:

  • • سیستم های مدیریتی؛ مثلاً مدیریت ارتباط با مشتریان؛
  • • نرم افزارهای امنیتی؛ مثلاً نرم افزاری مانیتورینگ شبکه و ویروس کش ها؛
  • • سیستم های بانکی؛ مثلاً تخصیص اعتبار به مشتریان و طبقه بندی آنها؛
  • • مالی و اقتصادی؛ مثلاً پیش بینی قیمت یک یا چند سهام یا شاخص؛
  • • برنامه ریزی و مکان یابی؛ مثلاً چینش داخلی فروشگاه های بزرگ و یا تخصیص امکانات شهری؛
  • • علوم پزشکی؛ مثلاً پیش بینی خطرات احتمالی ناشی از یک عمل جراحی خاص؛
  • • علوم اجتماعی و سیاسی؛ مثلاً پیش بینی یا تحلیل نتایج انتخابات.

پزشکی:

  • • تعیین نوع رفتار با بیماران و پیشگویی میزان موفقیت اعمال جراحی؛
  • • تعیین میزان موفقیت روش های درمانی در برخورد با بیماری های سخت؛
  • • تشخیص بیماری ها براساس انواع اطلاعات (تصاویر پزشکی، مشخصات بیمار احتمالی)؛
  • • تشخیص ناهنجاری هایی که توسط انسان به سختی قابل تشخیص خواهند بود.

کتابخانه و داده کاوی

در عصر کنونی، یکی از عناصر کلیدی و مهم سازمان ها برای حفظ بقاء و چابکی سازمانی و همچنین مزیت رقابتی با دیگر سازمان ها، دانش است (کرمی، 1386). همان گونه که در بخش های قبلی عنوان شد، امروزه داده ها قلب تپنده هر سازمانی هستند؛ به این دلیل که بیشتر فعالیت های سازمان ها از طریق تعاملات در سیستم های عملیاتی شکل می گیرند و در نتیجه، نیاز است که این داده های ذخیره شده به خوبی پردازش شوند و اطلاعات حاصل از آن در اختیار کاربران قرار گیرد (شهرابی، 1386). سازمان ها در دنیای پُر رقابت امروزی، باید از لحاظ دانشی قوی باشند تا بتوانند به حیات و رقابت خود ادامه دهند. کتابخانه ها همانند بسیاری از سازمان ها با تغییرات سریع و پُرشتاب رو به رو هستند و در نتیجه، باید قدرت تحلیل شرایط و موقعیت های فعلی و آینده خود را داشته باشند تا بتوانند برای آینده خویش تصمیم گیری درست و به موقع داشته باشند و این زمانی محقق خواهد شد که کتابخانه ها از لحاظ دانشی، قوی و غنی باشند (کرمی، 1386).

برای تولید دانش، نیاز است که تراکنش بین داده ها شناسایی شده و با برقراری رابطه بین آنها، دانش کشف شده، در امور مختلف از آن بهره برداری نمود. استفاده از داده کاوی و متن کاوی، یکی از راهکارهای تولید دانش از پایگاه های اطلاعاتی است. داده کاوی، نه تنها در صدد یافتن اطلاعات یا پاسخگویی به سؤالاتی است که در ذهن کاربر وجود دارد، بلکه دانش عمیقی را که در دل داده ها نهفته است نیز کشف می کند. یکی از اهداف کتابخانه ها، رفع نیازهای کاربران است. داده کاوی می تواند در این امر نقش مهمی داشته باشد. با روش های تحلیل داده و کشف روابط بین آنها می توان کاربران را راضی تر نمود و در مواقعی باعث جذب بیشتر آنان گردید.

متن کاوی

در عصر کنونی، متون، یکی از ابزارهای مهم برای تبادل اطلاعات هستند و بیشتر اطلاعات رسمی نیز از همین طریق انتقال پیدا می کنند. بنابراین، نیاز است تا اطلاعات موجود در این متون، به گونه ای استخراج و تحلیل شوند. متن کاوی، یک حوزه جدید و در حال رشد است که سعی دارد اطلاعات معناداری را از متون زبان طبیعی استخراج کند (ویتن(18)، 2000). متن کاوی که گاه به جای آن از واژه های «کاوش داده های متنی(19)» و یا «کشف دانش در متن(20)» استفاده می شود، برای نخستین بار در سال 1995 توسط فلدمن(21) به کار برده شد (صالحی شهرودی و دیگران، 1392). متن کاوی، به فرایندهایی از استخراج اطلاعات مطلوب و غیربدیهی، و نیز استخراج دانش از متون ساختار نیافته(22) مرتبط می شود. متن کاوی، حوزه ای نو و میان رشته ای است که از رشته های بازیابی اطلاعات، داده کاوی، یادگیری ماشینی، آمار و زبان شناسی محاسباتی مشتق شده است. از آنجا که بسیاری از اطلاعات به شکل متن ذخیره شده اند، متن کاوی، ارزش اقتصادی بسیار بالایی در پی خواهد داشت. دانش، ممکن است از منابع گوناگون اطلاعاتی به دست آمده باشد، اما متون ساختارنیافته، بیشترین منابع دانش در دسترس را تشکیل می دهند. مسئله کشف دانش از متون، استخراج مفاهیم صریح و نیز غیرصریح و روابط معنایی میان مفاهیم، با استفاده از فنون پردازش زبان طبیعی تحقق می یابد. هدف استخراج دانش، به دست آوردن بصیرت هایی درباره دادگان متنی عظیم است. کشف دانش از متن، ریشه در پردازش زبان طبیعی دارد؛ اما روش هایی از آمار، یادگیری ماشینی، استدلال استخراج اطلاعات، مدیریت دانش و دیگر رشته های مرتبط برای فرایند کشف خود، از متن کاوی وام گرفته است.

متن کاوی، شبیه داده کاوی است؛ مگر اینکه ابزار داده کاوی برای کار با دادگان ساختاریافته از پایگاه دادگان طراحی شده است؛ اما متن کاوی ممکن است به مجموعه دادگان ساختارنیافته یا نیمه ساختاریافته مانند: ایمیل ها، اسناد متن کامل و مدارک اچ.تی.ام.ال نیز اعمال شود (ره آورد نور، 1393). تعاریف مختلفی از متن کاوی ارائه شده است؛ از جمله:

  • • متن کاوی به استخراج داده های متنی(23) و کشف دانش از پایگاه های متن محور(24) گفته می شود (فلدمن(25)، 1995).
  • • به فرایند شناسایی اطلاعات جدید از مجموعه ای از متون گفته می شود (هیرست(26)، 1999).
  • • متن کاوی به دنبال استخراج اطلاعات مفید از داده های متنی غیرساخت یافته از طریق تشخیص و نمایش الگوهاست؛ به عبارت دیگر، متن کاوی روشی برای استخراج دانش از متون است. متن کاوی، کشف اطلاعات جدید و از پیش ناشناخته، به وسیله استخراج خودکار اطلاعات از منابع مختلف نوشتاری است.
  • • کشف اطلاعات جدید و اطلاعاتی که از قبل ناشناخته بوده اند، توسط رایانه به کمک استخراج خودکار اطلاعات از منابع متنی غیرساخت یافتۀ غالباً بزرگ.

در متن کاوی از همان تکنیک های داده کاوی استفاده می گردد و در کنار آن، به فناوری هایی مانند پردازش زبان طبیعی(27) و یادگیری ماشین نیاز است تا به صورت خودکار، آمارهایی را جمع آوری نموده، ساختار و معنای مناسبی از متن استخراج گردد. بنابراین، متن کاوی = داده کاوی + پردازش زبان طبیعی.

تفاوت داده کاوی و متن کاوی

داده کاوی و متن کاوی، هر دو به دنبال کشف دانش از داده هستند. حال این سؤال مطرح می گردد که چه رابطه ای بین داده کاوی و متن کاوی وجود دارد؟

داده کاوی، عبارت از کسب اطلاعات و دانش از یک مجموعه ساخت یافته. در داده کاوی، داده های ساخت یافته بررسی و تحلیل می شوند. داده های ساخت یافته، به داده هایی گفته می شود که به طور کاملاً مستقل از همدیگر، ولی یکسان از لحاظ ساختاری، در یک محل گردآوری شده اند. انواع پایگاه های اطلاعاتی را می توان نمونه ای از داده های ساخت یافته برشمرد؛ اما متن کاوی با متونی که عمدتاً غیرساخت یافته هستند، مانند صفحات وب، یادداشت، صورت حساب و ایمیل، و یا متون نیمه ساخت یافته، مانند صفحات اچ.تی.ام.ال(28) و ایکس.ام.ال(29) مواجه است. بنابراین، در متن کاوی، ابتدا باید متون را توسط روش هایی ساختارمند نمود و سپس، از این روش ها برای استخراج اطلاعات و دانش از آنها استفاده کرد.

در نتیجه، متن، خود یک داده است و متن کاوی، یکی از زیرشاخه های داده کاوی است. استفاده از داده کاوی در مورد متن، شاخه ای دیگر را در علوم هوش مصنوعی به نام متن کاوی به وجود آورد که از جمله فعالیت های بسیار مهم در این زمینه، طبقه بندی (دسته بندی) متن است. در متن کاوی به دلیل اینکه روی متن کار می شود، باید از روش های پردازش زبان طبیعی استفاده کرد. در متن کاوی، کارهای پیش پردازش با استفاده از روش های پردازش طبیعی و کارهای پردازش توسط داده کاوی انجام می شود (کروئزه(30)، ماتئه(31) و بودما(32)، 2004).

تفاوت متن کاوی و داده کاوی - text mining - data mining

شکل4: تفاوت داده کاوی و متن کاوی

تفاوت متن کاوی با بازیابی اطلاعات(33)

در بازیابی اطلاعات، برخلاف متن کاوی، هیچ اطلاعات جدیدی پیدا نمی شود و اطلاعات مورد نظر و مطلوب به ندرت با اطلاعات مشابه دیگری به طور هم زمان وجود دارند. متن کاوی، ترکیبی از فناوری های آماری، بازیابی اطلاعات، وب کاوی، داده کاوی و پردازش زبان طبیعی است. معمولاً در بازیابی اطلاعات، با توجه به نیاز مطرح شده از سوی کاربر، مرتبط ترین متون و مستندات و یا در واقع «کیسه کلمه» از میان دیگر مستندات یک مجموعه بیرون کشیده می شود. بازیابی اطلاعات، یافتن دانش نیست؛ بلکه تنها آن مستنداتی را که مرتبط تر به نیاز اطلاعاتی جستجوگر تشخیص داده، به او تحویل می دهد. این روش، در واقع، هیچ دانش و حتی هیچ اطلاعاتی را به ارمغان نمی آورد.

متن کاوی، ربطی به جست وجوی کلمات کلیدی در وب ندارد. این عمل در حوزه بازیابی اطلاعات گنجانده می شود. به عبارتی بازیابی اطلاعات جست و جو، کاوش، طبقه بندی و فیلتر نمودن اطلاعاتی است که در حال حاضر شناخته شده اند و در متن قرار داده شده است. ولی در متن کاوی مجموعه ای از مستندات بررسی شده و اطلاعاتی که در هیچ یک از مستندات به صورت مجرد یا صریح وجود ندارد، استخراج می گردد.

مراحل متن کاوی

متن کاوی، شامل سه مرحله است که عبارت اند از:

1. آماده سازی متن: این مرحله، انتخاب، پاک سازی و پردازش مقدماتی متن را شامل می شود. در این مرحله، پایگاه ها یا منابعی که قرار است متن کاوی بر روی آنان انجام پذیرد، انتخاب می شوند که معمولاً این کار، با راهنمایی یک متخصص انسانی و یا نرم افزار مناسب انجام می شود. پردازش مقدماتی متن، از قبیل شناسایی جمله/پاراگراف و برچسب گذاری نقش کلمه، در این مرحله انجام می شود.

2. پردازش متن: این مرحله، شامل استفاده از الگوریتم داده کاوی به منظور پردازش داده های آماده سازی شده و فشرده سازی و انتقال آن، به منظور شناسایی قطعات پنهان اطلاعات است. در این فرایند، با استفاده از یک نظام پردازش زبان طبیعی، مشخصات استاندارد و گوناگون موجودیت ها (همچون: افراد، شرکت ها و سازمان ها) شناسایی می شود، رابطه مفهومی بین آنها مشخص می شود و حتی قالب های خاص مورد علاقه نیز معرفی می گردند. طبقه بندی شرکت کنندگان، تاریخ ها و نتایج، و جداول موجودیت ها و روابط استخراج شده، ویژگی های معناداری نظیر: درخت های تصمیم گیری، شبکه های خنثی، قوانین وابستگی یا الگوریتم های ژنتیک، برای الگوریتم ها و فنون استاندارد تهیه می کند.

3. تحلیل متن: در این مرحله، برون داد مورد ارزیابی قرار می گیرد تا مشخص شود که آیا کشف دانش صورت پذیرفته است؟ و آیا دانش کشف شده اهمیت دارد یا خیر؟ با اجرای الگوریتم ها، داده/متن استخراج شده به فنون مختلفی تحویل داده می شود که امکان استفاده مستقیم از اطلاعات استخراج شده را از طریق ابزار کشف پیوند یا مصورسازی فراهم می کنند.

این سه مرحله، باید به روشی اندیشمندانه صورت پذیرد؛ به طوری که به اهداف یک فرایند خاص متن کاوی، محدودیت های داده ها/متن استخراج شده و نقاط قوت و ضعف الگوریتم مورد نظر، توجه کافی شود. شواهد نشان داده است که چنانچه این ملاحظات اعمال گردد، هم اطلاعات مرتبط و هم اطلاعات غیرمرتبط، کشف خواهد شد و در این صورت است که نتایج غیرمنتظره ای به وقوع خواهد پیوست و این، همان هدف متن کاوی، داده کاوی و همه انواع کشف دانش از داده هاست (خاصه، 1389).

مراحل متن کاوی - text mining

شکل5: مراحل متن کاوی

تکنیک های متن کاوی

این تکنیک ها عبارت اند از:

  • ♦ ساختارهای مفهومی.
  • ♦ قوانین انجمنی(34): روابط و وابستگی های متقابل بین مجموعه بزرگی از اقلام داده ای را نشان می دهند. پیدا کردن چنین قوانینی، می تواند در حوزه های مختلف مورد توجه بوده، کاربردهای متفاوتی داشته باشد؛ به عنوان مثال، کشف روابط انجمنی بین حجم عظیم تراکنش های کسب و کار، می تواند در تشخیص تقلب در حوزه پزشکی، و همچنین داده کاوی در مورد اطلاعات، روش به کارگیری وب توسط کاربران و شخصی سازی، مورد استفاده قرار گیرد (پارک(35)، چن(36) و یو(37)، 1996) و یا در طراحی کاتالوگ، بازاریابی و دیگر مراحل فرایند تصمیم گیری کسب و کار، موثر باشد.
  • ♦ درخت های تصمیم گیری(38): درخت های تصمیم گیری، ابزار استانداردی در متن کاوی هستند. این الگوریتم ها، در متغیرها و نیز اندازه مجموعه آموزش، سریع و مقیاس پذیر هستند. یکی از مشکلات درخت های تصمیم گیری برای متن کاوی، این است که تنها به تعداد کمی از ترم ها وابسته است.
  • ♦ روش های استنتاج قوانین.
  • ♦ تکنیک های بازیابی اطلاعات.

نمونه ای از درخت تصمیم گیری

شکل6: نمونه ای از درخت تصمیم گیری

استخراج مفهوم(39)(معنا) از متن

متن کاوی، وابسته به زبان و زبان شناسی است و سعی در کشف مفاهیم و معانی موجود در متن به جای شمارش واژه های پُرتکرار در متن دارد. استخراج مفاهیم، هم رایانه و هم انسان را که در یک همکاری دوسویه هستند، شامل می گردد. قبل از پرداختن به استخراج معانی در متن، به تعریف معنا می پردازیم:

* چیستی معنا: خاستگاه و ریشه اصلی معنا، در زبان شناسی است؛ اما برخی از حوزه های علمی نیز همچون علم اطلاعات و دانش شناسی، ارتباط مستقیمی با معنا دارند و بر اساس هدف و نیاز خود، تعاریف مختلفی از معنا را ارائه می دهند؛ اما همه آنها به نوعی وام دار و وابسته به زبان شناسی هستند. در زبان شناسی، هر واژه دارای یک معنای ثابت بوده، تلقی فرد از آن یکسان است. این امر، به دلیل بافت زبان شناسی، نشانه شناسی و تاریخی منحصر به فرد یک واژه یا متن است که امکان مجزا شدن از معنای خود را نمی دهد (رشیدیان، 1383). برخی از متخصصان، معنا را وابسته به سابقه ذهنی فرد می دانند و معتقدند که معنای یک واژه، به سابقه ذهنی فرد و میزان آشنایی او با آن بستگی دارد. معنا به موجودیت ها، اتفاق ها و واقعه هایی اشاره می کند که در ذهن کاربر قرار داشته است و کاربر قصد دارد اطلاعاتی را درباره آن جست وجو نماید (پارامسواران(40) و دیگران، 2010).

* استخراج معنا از متن: فرض کنید که یک فرد دارای یک کیسه حاوی کلمات نامرتبی است که متن یک جمله یا یک پاراگرف را تشکیل می دهد. از در کنار یکدیگر قرار دادن این کلمات، معنا دریافت می گردد. انسان ها دارای تجربه فرهنگی و زبان شناسی خاص خود هستند و به راحتی می توانند با در کنار یکدیگر قرار دادن کلمات و برقراری رابطه بین آنها، معنا را کشف نمایند؛ اما رایانه ها قادر به این امر نیستند و باید از قبل یکسری از اطلاعات برای آنها تعریف گردد تا بتوانند بخشی از این کار را انجام دهند.

استخراج مفهوم، یکی از مهم ترین ابزارهای طبقه بندی متن بر اساس مفاهیم است (یونتائو(41) و دیگران، 2003). استخراج معنا از یک متن، علاوه بر اینکه جست و جو را گسترش می دهد، تقویت کننده ارائه مدارک مرتبط تر با اصطلاح مورد جستجو نیز هست و دارای فواید دیگری است که شامل موارد ذیل است:

  • • ارائه مفاهیم مرتبط با اصطلاح مورد جست وجو. این فایده، کاربر را با مفاهیم دیگری آشنا کرده، در نتیجه، دانش جدیدی را در اختیار وی قرار می دهد.
  • • ایجاد روابط بین مفاهیم و گسترش دامنه جست وجو؛
  • • توسعه دانش زمینه ای؛
  • • تولید تفاسیر متون؛
  • • تعریف روابط بین متون؛
  • • طبقه بندی و دسته بندی متون (پارامسواران(42) و دیگران، 2010).

مشکلات استخراج معنا از متن

  1. مفاهیم می تواند در قالب یک کلمه و یا چندین کلمه بازگو شوند. در نظر گرفتن یک مفهوم در یک کلمه یا چندین کلمه، به زمینه موضوعی و میزان خاص و عام بودن آن بستگی دارد؛ برای مثال، کلمه «شبکه»، یک مفهوم، و «شبکه معنایی»، مفهوم خاص تری دارد. بنابراین، یکی از چالش های استخراج مفاهیم، توجه به این مورد است.
  2. در یک زمینه موضوعی خاص نیز مفاهیم یک کلمه و چند کلمه ای به کار می رود که برای گزینش آنها باید به میزان تکرارشان در متن توجه نمود.

چگونگی استخراج معنا از متن

هر متن، دارای یکسری از کلمات و واژه هاست که برخی از آنها، فاقد بار اطلاعاتی هستند و برخی دیگر، مفاهیم اصلی را بازگو می کنند. بسیاری از کلمات همچون حروف اضافه و حروف ربط که در متن بسیار تکرار می شوند، قبل از استخراج معنا و مفاهیم از متن، در فهرست های بازدارنده(43) نگهداری می شوند و هنگام استخراح مفاهیم از متن، حذف می گردند. یکی دیگر از گام ها قبل از استخراج معنا، پیش پردازش متن است؛ برای مثال، در زبان انگلیسی، شناسایی کلمات هم ریشه؛ مانند developing و developed که از ریشه develop است. دلیل پیش پردازش متن، آماده سازی آن برای انجام استخراج مفاهیم اصلی موجود در متن است. بین کلمات موجود در متن، روابط مختلفی نیز حاکم است؛ مثلاً هم معنا، مترادف و شبه مترادف. در استخراج معنا، این روابط شناسایی شده، همه به عنوان یک کلمه در نظر گرفته می شوند.

در آماده سازی داده های متنی، چگونگی ذخیره داده های غیرساخت یافته، نمایه سازی آنها و تبدیل فرمت آنها به شکل های قابل استفاده در نرم افزارها، مورد بررسی قرار می گیرد. نادیده گرفتن واژگان بدون محتوای با ارزش اطلاعاتی، همانند: از، به، با، تا و... که معمولاً بیشترین میزان تکرار در متن را به خود اختصاص می دهند، در مرحله دوم مورد بررسی قرار می گیرد. از آنجا که در متن کاوی به دنبال واژگان ارزشمند اطلاعاتی هستیم، این دسته از واژگان را کنار خواهیم گذاشت. ریشه یابی واژگان، در مرحله سوم مورد بررسی قرار می گیرد. واژگانی مانند: «دانش»، «دانشمند» و «دانایی»، واژگان هم ریشه به حساب می آیند. در بررسی یک متن توسط فرایند متن کاوی، به تعیین ریشه و واژگانی هم ریشه پرداخته می شود تا در بررسی آماری واژگان متن، این دسته از واژگان در کنار هم مورد بررسی قرار گیرد.

تعیین واژگان کلیدی و مهم متن، مهم ترین بخش فرایند متن کاوی است و دقت تمامی کاربردهای متن کاوی، تا حدود بسیاری به دقت در تعیین واژگان کلیدی بستگی خواهد داشت. برای تعیین واژگان کلیدی و مهم متن، الگوریتم های مختلفی بر اساس تکنیک های ریاضی ارائه شده است. روش تکرار واژگان، معمولی شده و روش وزن دهی بر اساس جست وجوی کاربر و سایر الگوریتم های مشتق شده از این الگوریتم ها در تعیین واژگان کلیدی و مهم به کار گرفته می شوند. وجه اشتراک تمامی این الگوریتم ها، آن است که تعیین واژگان کلیدی یک متن، بر اساس آنالیز یک مجموعه متون مرتبط با هم تعیین می شود. کاربردهای مختلفی را می توان از فرایند، «کا ـ مینز» متن کاوی انتظار داشت. بر اساس واژگان کلیدی می توان با الگوریتم های خوشه بندی و یا سایر الگوریتم ها به خوشه بندی متون پرداخت. با استفاده از خوشه بندی متون «سلسله مراتبی» می توان متن های مشابه را شناسایی و دسته بندی کرد. با تعیین واژگان کلیدی و استفاده از تکنیک های مختلف وزن دهی به جملات و واژگان متن، می توان یک چکیده از متن تهیه و ارائه کرد (زعفریان، 1385).

رویکردهای معمول استخراج مفاهیم از متن

از روش هایی که در سال های گذشته و اکنون در زمینه دریافت معنا از متن در رایانه به کار می رود، روش ها و رویکردهای مربوط به زبان شناسی و دانش محور است. این رویکردها، به ساختار دانشی متن و هستی شناسی ها مربوط هستند که بیشتر روی زبان و ساختار آن تأکید می کنند که در ادامه به برخی از آنان پرداخته می شود:

* شبکه های واژگانی: شبکه های واژگانی، ابزارهای ارزشمندی در پردازش زبان طبیعی هستند که برای نخستین بار بر مبنای یافته های روان شناسی زبان ساخته شدند. این شبکه ها، بر اساس روابط معنایی میان واژه ها شکل گرفته اند و تلاشی در جهت بازنمایی آنچه در ذهن انسان ها از واژه ها و روابط آنها وجود دارد، می باشند و بنابراین، تلاش بر این است که حداکثر واژه های موجود در یک زبان را به صورت شبکه ای از روابط در خود بگنجانند (حسابی، 1394)؛ برای مثال، وردنت، یک پایگاه داده لغوی بزرگ از لغات انگلیسی است. این بانک اطلاعاتی، اسم ها، فعل ها، صفت ها و قیدها را به مجموعه ای از لغات مترادف دسته بندی می نماید که هر دسته، یک مفهوم مجزا را بیان می کند. مجموعه مترادف ها، با استفاده از روابط معنایی ـ مفهومی و ارتباطات لغوی به یکدیگر پیوند داده شده اند. شبکه به دست آمده که شبکه ای است از لغات و مفاهیم مرتبط از لحاظ معنایی، می تواند توسط مرورگرها پیمایش شود. به علاوه، وردنت به صورت رایگان و برای عموم در دسترس و قابل بارگذاری است. ساختار وردنت، از آن یک ابزار مفید جهت زبان شناسی محاسباتی و پردازش زبان طبیعی به وجود آورده است. وردنت، مشابه یک لغت نامه است که لغات را بر اساس معانی آنها دسته بندی می کند؛ هر چند تفاوت های مهمی بین وردنت و دیگر لغت نامه ها وجود دارد:

اوّل اینکه وردنت، تنها شکل کلمات ـ رشته هایی از حروف ـ را پیوند نمی دهد؛ بلکه مفاهیم لغات را نیز مرتبط می سازد. در نتیجه، لغاتی که در نزدیکی یکدیگر در شبکه یافت می شوند، قرابت معنایی نیز دارند. دومین تفاوت این است که وردنت روابط معنایی میان لغات را برچسب گذاری می کند؛ در حالی که دسته بندی های لغات در یک لغت نامه، از هیچ گونه الگوی مشخصی جز مشابهت معنایی پیروی نمی نماید.

 

منبع: Source: www.w3.org/.../WNET/wordnet-sw-20040713.html

* هستی شناسی(44): هستی شناسی، الگویی انتزاعی از جهان واقع است که مفاهیم و روابط میان آن را در قلمروی مورد بحث نمایش می دهد. هستی شناسی ها، پایگاه دانش مفهومی(45) هستند (شمس فرد و عبدالله زاده، 1381). هستی شناسی ها به منزله ابزار بازنمون دانش در نظام های ذخیره و بازیابی، استفاده می شوند و آن را مجموعه ای از مفاهیم، خصیصه ها و روابط میان آن مفاهیم تعریف کرده اند. این تعریف در حوزه الگوسازی مفهومی، چندان جدید نیست. مدل های موجودیت ـ رابطه از دهه 1970 در پایگاه های اطلاعاتی استفاده می شود و در الگوهای گسترش یافته آن نیز چنین الگویی از مفاهیم، خصیصه ها و روابط قابل شناسایی است؛ اما دلیل این همه استقبال از هستی شناسی ها در این نکته نهفته است که هستی شناسی ها برخلاف الگوهای مفهومی پیش گفته، استنتاج هوشمند را ممکن می سازند (شریف، 1388).

نمونه ای از هستی شناسی

شکل 8: نمونه ای از هستی شناسی

* رویکرد آماری: این رویکرد، به میزان تکرار یک کلمه در متن اشاره دارد.

استخراج روابط معنایی در سطح گفتمان از متن

عمده کارها در این حوزه، به دو دسته «استخراج مفاهیم» و «استخراج روابط» تقسیم می شوند. بسیاری از کاربردها در استخراج اطلاعات، اکتساب دانش، فهم زبان طبیعی و بازیابی اطلاعات، نیازمند درک در سطح مفهوم، معنا، رابطه و روابط معنایی است. هر کدام از موجودیت های ذکر شده، دارای ویژگی ها و تعاریف مشخص می باشند. رابطه معنایی، به روابط بین مفاهیم موجود در ذهن که به آن مفاهیم ادراکی گفته می شود یا به روابط بین کلمات که روابط لغوی نامیده می شوند، اشاره دارد. روابط معنایی در حوزه متن می توانند در سطوح پایین و بین واژگان و یا در سطوح بالاتر بین عبارات، جمله ها، پاراگراف ها و حتی بالاتر از بخش های یک متن، مثلاً بین دو سند یا مجموعه ای از اسناد رخ دهد. سطوح ذکر شده، دارای یک محدوده تعریف ساختاری می باشند.

اما سطح دیگری در حوزه زبان شناسی، سطح گفتمان نام دارد که محدوده تعریف آن، نه ساختار، بلکه معناست. در این سطح، مقیاس، نه یک جمله یا پاراگراف یا سند، بلکه واحد معنایی است و ممکن است بین چند جمله، چند پاراگراف و یا تمام متن باشد. نکته قابل توجه، وقوع این روابط معنایی در سطح گفتمان، به صورت صریح و یا ضمنی در متن است و اهمیت آن، به دلیل انتشار روزافزون اطلاعات در سطح وب است که غالباً در قالب متن هستند و اکتساب دانش و استخراج اطلاعات مورد نیاز از بین این حجم انبوه داده، مستلزم درک مفاهیم و روابط معنایی حاکم بین آنها، به ویژه در حوزه های زبان شناسی، روان شناسی، علوم شناختی و زبان شناسی محاسباتی است. بهره گیری از روش های پردازش زبان طبیعی در کنار محاسبات آماری و روش تجزیه مقدار تکینه و روش استخراج و شناسایی الگو بدون ناظر، از مشخصه های روش پیشنهادی است. هدف، کمک به درک و فهم دقیق و عمیق تر از متن و پیاده سازی در کاربردهای بسیار در حوزه های مرتبط با زبان شناسی، روان شناسی، علوم شناختی و به ویژه زبان شناسی محاسباتی است. تحقیقات موجود نشان می دهد که روش های ارائه شده هوش مصنوعی و یادگیری ماشین در این حوزه، نیازمند سطح بالایی از مهندسی دانش یا پایگاه داده های بزرگ برای یادگیری و آزمایش هستند (کاهانی، 92).

یادگیری از متن ها

این نوع یادگیری، شامل استخراج هستی شناسی با استفاده از تکنیک های پردازش زبان طبیعی از متن است. دستاوردهای شناخته شده در این گروه، به صورت ذیل می باشد:

* استخراج مبتنی بر الگو: یک رابطه وقتی شناخته می شود که یکسری از کلمات در متن به یک الگو نگاشت شوند؛ برای مثال، یک الگو می تواند ایجاد شود، اگر یک دنباله ای از n نام داریم. سپس، n-1 از این نام ها hyponyms برای nامین نام می باشند.

* قوانین انجمنی: این قوانین در ابتدا در زمینه پایگاه داده به شرح ذیل تعریف شد:

با توجه به مجموعه ای از تراکنش ها که هر تراکنش مجموعه ای از آیتم هاست. یک قانون انجمنی، یک عبارت از شکل X دلالت می کند به Y است که در آن، X و Y مجموعه از آیتم ها هستند. معنای مستقیم چنین قانونی، این است تراکنش هایی از پایگاه داده که شامل X است، گرایش به Y دارند. قوانین انجمنی، در فرآیند داده کاوی به منظور کشف اطلاعات ذخیره شده در پایگاه داده مورد استفاده قرار می گیرد.

* خوشه بندی مفهومی: مفاهیم با توجه به فاصله معنایی بین یکدیگر برای ساختن سلسله مراتب، گروه بندی می شوند. فرمول برای محاسبه فاصله معنایی بین دو مفهوم، ممکن است به عوامل مختلفی بستگی داشته باشد که در این روش ها ارئه می شود.

* یادگیری مفهوم: یک طبقه بندی داده شده به صورت تدریجی به روز می شود؛ به طوری که مفاهیم جدید، از متن دنیای واقعی استخراج می شوند.

* یادگیری هستی شناسی از فرهنگ لغت: در ساخت هستی شناسی، از یک دیکشنری که قابل خواندن توسط ماشین است، برای استخراج مفاهیم مرتبط و روابط بین آنها استفاده می شود که هدف، ساخت یک هستی شناسی خلاصه شده است.

* یادگیری از یک پایگاه دانش: هدف این کار، یادگیری هستی شناسی با استفاده از منبع موجود پایگاه دانش است.

* یادگیری از داده های نیمه ساخت یافته: یعنی استخراج هستی شناسی از منابعی که ساختار از پیش تعریف شده دارند؛ مانند شمای XML.

* یادگیری از شمای رابطه ای: هدف این یادگیری، استخراج مفاهیم مرتبط هستی شناسی و روابط از دانش پایگاه داده است.

پی نوشت ها:

منابع فارسی:

منابع انگلیسی:

اطلاعات تکميلي

  • تاریخ انتشار نسخه چاپی: یکشنبه, 28 خرداد 1396
  • صفحه در فصلنامه: صفحه 63
  • شماره فصلنامه: فصلنامه شماره 58
بازدید 847 بار
شما اينجا هستيد:خانه