وضعیت موجود خلاصه‌سازی خودکار متون فارسی

سه شنبه, 31 خرداد 1390 ساعت 14:58
    نویسنده: دکتر بهروز مینایی؛ عضو هیأت علمی دانشگاه علم و صنعت ایران/ دبیر هیأت علمی مرکز تحقیقات کامپیوتری علوم اسلامی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید ، احسان براتی؛ کارشناسی ارشد مهندسی فناوری اطلاعات دانشگاه قم این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید
این مورد را ارزیابی کنید
(1 رای)

چکیده

با گسترش روزافزون حجم اطلاعات، نیاز به سیستم‌های کامپیوتری جهت پردازش و تحلیل اطلاعات بیشتر احساس می‌شود. از آنجا که درصد قابل توجهی از اطلاعات تولید شده به صورت متنی غیر ساختار یافته(1) و نیمه‌ساختار یافته(2) است، سیستمی که بتواند این اطلاعات را تحلیل و پردازش کند، به‌شدت مورد توجه قرار خواهد گرفت. یکی از انواع سیستم‌هایی که در تحلیل و پردازش متون وجود دارد، سیستم‌های خلاصه‌ساز متن(3) است که حجم زیادی از متن را دریافت نموده و بر اساس الگوریتم‌ها و تکنیک‌های مختلف، آن را خلاصه می‌نماید. این مقاله به معرفی فرآیند خلاصه‌سازی متون فارسی می‌پردازد.

 واژگان کلیدی: خلاصه‌سازی، فارسی، فرآیند، پیش‌پردازش، تحلیل، انتخاب، خلاصه.

مقدمه

منظور از «خلاصه‌سازی»، دریافت یک متن و تولید یا استخراج یک متن دیگر از آن متن است؛ به گونه‌اي که متن به دست‌آمده از متن اصلی کوتاه‌تر باشد، نکات اصلی و مهم آن را دربرداشته باشد، خوانا(4) بوده و بین جملات آن پیوستگی(5)  وجود داشته باشد.

اگر متن خلاصه با انتخاب جملاتی از متن اصلی به دست آید، نوع خلاصه‌سازی، «استخراجی»(6) یا «گزینشی» است و اگر خلاصه متن پس از فهم مطالب موجود در متن اصلی تولید شود، خلاصه‌سازی از نوع «چکیده»(7) است.

هر دو نوع خلاصه‌سازی، با چالش‌های مختلفی مواجه هستند. در روش استخراجی، تشخیص جملات مهم متن، شناسایی و استخراج کلمات کلیدی، تجزیه متن اصلی و تولید متن خلاصه‌ای که دارای خوانایی و پیوستگی باشد، از چالش‌های اصلی به شمار می‌رود.

در روش چکیده نیز باید ابتدا متن اصلی فهمیده شود و بر اساس معنای موجود در متن و به صورت معنایی(8) ، چکیده‌ای از متن اصلی تولید شود. در این روش، با چالش‌های موجود در زمینه پردازش زبان طبیعی و تجزیه و تحلیل معنایی متن، برای درک و تفسیر متن روبه‌رو هستیم.

اگرچه برخی تشابهات بین سیستم‌ها و الگوریتم‌های خلاصه‌سازی مختلف وجود دارد، اما معمولاً با توجه به زبان، فرآیند متن‌کاوی تغییراتی خواهد داشت.

در این مقاله ابتدا به معرفی فرآیند خلاصه‌سازی پرداخته شده است. در بخش بعدی، تفاوت‌های خلاصه‌سازی متون فارسی با سایر زبان‌ها بیان شده و پس از آن، فازهای فرآیند خلاصه‌سازی متون فارسی تشریح شده است. در بخش آخر نیز برخی از مهم‌ترین سیستم‌های خلاصه‌ساز بررسی شده و در نهايت، نتیجه‌گیری مقاله ارائه شده است.

فرآیند خلاصه‌سازی

فرآیند خلاصه‌سازی متون به طور کلی شامل سه فاز: پیش‌پردازش(9)، تحلیل(10) و انتخاب(11) است. در فاز پیش‌پردازش، پردازش‌های اولیه مورد نیاز بر روی متن صورت می‌گیرد. وجود این فاز، در فرآیند خلاصه‌سازی بسیار ضروری است؛ به طوری که اگر وظایف(12) این فاز به‌خوبی انجام نشود، کیفیت خلاصه تولید شده به ميزان چشمگیری کاهش می‌یابد.

فاز دوم، فاز تحلیل است. در این فاز، وظایف اصلی خلاصه‌سازی انجام می‌شود و بخش‌های مهم و اصلی متن شناسایی و امتیاز دهی می‌شوند.

در فاز سوم، با توجه به بخش‌های مهم متن که در فاز دوم شناسایی شده‌اند، خلاصه نهایی تولید می‌شود. باید توجه داشت که اطلاعات تکراری، اضافی و یا ناخوانا در چکیده وجود نداشته باشد.

برخی از روش‌های ارائه شده جهت خلاصه‌سازی متون، در هر یک از این فازها، از منابع اطلاعاتی و پایگاه‌های داده آماده استفاده می‌کنند. از آنجا که تولید و نگهداشت چنین پایگاه‌های داده‌ای پر هزینه و در برخی موارد بسیار دشوار است، هر چه یک سیستم خلاصه‌ساز، ضمن حفظ کیفیت خلاصه تولید شده، به پایگاه داده‌های کمتری نیاز داشته باشد، مقبولیت بیشتری خواهد داشت.

تفاوت‌های فرآیند خلاصه‌سازی متون فارسی با سایر زبان‌ها

خلاصه‌سازی متون فارسی، به دلیل ویژگی‌های نگارشی و گرامری خاص این زبان، نیازمند انجام وظایف خاصی در فازهای یاد شده است.

برخلاف زبان انگلیسی که در آن هم حروف و هم لغات کاملاً متمایز از یکدیگر هستند، در زبان فارسی پیوستگی میان برخی علائم با لغات وجود دارد و علاوه بر آن، تنوع نگارش در کلمات نیز وجود دارد. ریشه‌یابی فعل(13)، که یکی از مراحل مهم پیش‌پردازش متن برای خلاصه‌سازی است، در زبان فارسی چالش‌های خاص خود را دارد؛ به عنوان مثال، در یک لغت به هم پیوسته، بن فعل، شناسه، علامت زمان فعل و حتی شناسه‌های مفعولی می‌توان داشت که کار پردازش لغات را پیچیده‌تر می‌کند؛ به طوری که نمی‌توان از دانش، تجربه و نرم‌افزارهای موجود در این زمینه استفاده نمود و تولید نرم‌افزاری که قادر به حل تمامی این پیچیدگی‌ها باشد، فرآیندی زمان‌بر و مستلزم تلاش فراوان است.

تفاوت‌های ذاتی زبان‌های گسسته‌ای مانند انگلیسی با زبان‌هایی مانند فارسی، عربی و ... که با یکدیگر تفاوت‌های بنیادین در قواعد دستوری دارند، منجر به آن شده است که ادعای اعمال تغییرات در ساختار یک نرم‌افزار انگلیسی و به دست آوردن نتایج خوب برای زبان فارسی، لزوماً امکان‌پذیر نیست و مستلزم آزمایش‌های فراوان برای اثبات صحت آن خواهد بود.(14)

فاز پیش‌پردازش

از جمله مهم‌ترین وظایفی که در این فاز انجام می‌شود، می‌توان به موارد ذیل اشاره نمود:

آنچه که در مرحله پیش‌پردازش متون فارسی قابل توجه است، چالش‌ها و استثنائات مختلف موجود در زبان فارسی، در انجام هر یک از این وظایف است. همچنین ممکن است با توجه به وظایف در نظر گرفته شده برای فاز تحلیل، تنها بخشی از این وظایف در مرحله پیش‌پردازش انجام شوند.

فاز تحلیل

در این فاز، جملات موجود در متن با توجه به اطلاعات به دست آمده از فاز پیش‌پردازش، تحلیل و امتیازدهی می‌شوند. این امتیازدهی ممکن است با استفاده از تکنیک‌های آماری (در خلاصه‌سازی استخراجی یا گزینشی) و یا تکنیک‌های پردازش زبان طبیعی و مبتنی بر درک متن (در خلاصه‌سازی معنایی یا چکیده) صورت بگیرد.

چنانچه از تکنیک‌های آماری استفاده شود، خصوصیات کمّی متن، فرکانس کلمات و عبارات، مکان جمله در متن، مکان محلی پاراگراف، کلمات کلیدی موجود در جمله و سایر ویژگی‌های متن، جهت تحلیل و امتیازدهی، مورد استفاده قرار می‌گیرد.

همچنین می‌توان از روش‌های معناگرا، همانند: روش‌های موجودیتی ـ معنایی، هم‌مکانی، مبتنی بر گراف، زنجیره لغوی، ساختار کلامی و یا روش‌های ترکیبی استفاده نمود.

 فاز انتخاب

در این فاز، با توجه به تحلیل صورت گرفته در فاز دوم، جملات و یا مفاهیم موجود در متن، بر اساس امتیاز و وزن مرتب می‌شوند. سپس جملات و مفاهیم با امتیاز و وزن بیشتر، با توجه به اندازه خلاصه مورد نظر که معمولاً به صورت درصد بیان می‌شود، جهت استفاده در خلاصه نهایی انتخاب می‌شوند.

در این فاز، در حین و یا پس از تولید خلاصه، راهکارهایی اتخاذ می‌شود تا خلاصه تولید شده، یکپارچه و خوانا بوده و حاوی مطالب تکراری نباشد.

 برخی از سیستم‌های خلاصه‌ساز معروف

برای خلاصه‌سازی متون فارسی، تا کنون سیستم‌های مختلفی پیشنهاد و تولید شده است که در ادامه برخی از آنها را بررسی می‌کنیم:

همان گونه که مشخص است، در هیچ یک از نمونه‌های یاد شده در این جدول، خلاصه‌سازی به صورت معنایی یا چکیده کار نشده است. علت آن هم پیچیدگی، پر هزینه بودن و آماده نبودن ابزارها و زیرساخت‌های لازم جهت خلاصه‌سازی به روش چکیده است.

نتیجه‌گیری

در این مقاله به بررسی خلاصه‌سازی متون فارسی پرداخته شد. خلاصه‌سازی به دو روش «گزینشی» و «چکیده» انجام می‌شود. برای خلاصه‌سازی سه فاز کلی: پیش‌پردازش، تحلیل و انتخاب وجود دارد. در مرحله پیش‌پردازش، عملیات اولیه  روی متن ورودی انجام می‌شود و متن جهت انجام پردازش‌های فاز تحلیل آماده می‌شود. در فاز تحلیل، جمله‌ها بر اساس معیار‌های مختلف معنایی و یا آماری امتیازدهی می‌شوند و نهایتاً در فاز انتخاب، تعدادی از جملات با امتیاز بیشتر انتخاب می‌شود و پس از پالایش، به عنوان خلاصه ارائه داده می‌شود.

در انتهای مقاله نیز چند نمونه از پروژه‌های انجام شده در زمینه خلاصه‌سازی متون فارسی معرفی شدند و مشاهده شد که به دلیل پیچیدگی‌های موجود و عدم وجود زیرساخت‌های لازم (همچون شبکه واژگان زبان فارسی) در زمینه خلاصه‌سازی متون فارسی به روش معنایی، کار عملیاتی قابل اعتنایی تا کنون انجام نشده است. تمامی کارهای انجام شده در حوزه خلاصه‌سازی فارسی و غیر فارسی، از گونه خلاصه‌سازی استخراجی/گزینشی بوده است. تا کنون در حوزه چکیده‌گیری کاری انجام نشده است. با توجه به حجم سنگین چکیده‌های آماده موجود در مرکز نور در علوم مختلف، برآنیم که سیستم خلاصه‌سازی از نوع چکیده‌گیری با تکیه بر الگوریتم‌های یادگیری ماشین به محک آزمایش گذاشته شود.

 پي‌نوشت‌ها:

15. Stop Words.

اطلاعات تکميلي

  • تاریخ انتشار نسخه چاپی: پنج شنبه, 26 خرداد 1390
  • صفحه در فصلنامه: صفحه 107
  • شماره فصلنامه: فصلنامه شماره 34
بازدید 14831 بار
شما اينجا هستيد:خانه سایر مقالات فصلنامه شماره 34 (بهار 1390) وضعیت موجود خلاصه‌سازی خودکار متون فارسی