واژگان کلیدی: خلاصهسازی، فارسی، فرآیند، پیشپردازش، تحلیل، انتخاب، خلاصه.
مقدمه
منظور از «خلاصهسازی»، دریافت یک متن و تولید یا استخراج یک متن دیگر از آن متن است؛ به گونهاي که متن به دستآمده از متن اصلی کوتاهتر باشد، نکات اصلی و مهم آن را دربرداشته باشد، خوانا(4) بوده و بین جملات آن پیوستگی(5) وجود داشته باشد.
اگر متن خلاصه با انتخاب جملاتی از متن اصلی به دست آید، نوع خلاصهسازی، «استخراجی»(6) یا «گزینشی» است و اگر خلاصه متن پس از فهم مطالب موجود در متن اصلی تولید شود، خلاصهسازی از نوع «چکیده»(7) است.
هر دو نوع خلاصهسازی، با چالشهای مختلفی مواجه هستند. در روش استخراجی، تشخیص جملات مهم متن، شناسایی و استخراج کلمات کلیدی، تجزیه متن اصلی و تولید متن خلاصهای که دارای خوانایی و پیوستگی باشد، از چالشهای اصلی به شمار میرود.
در روش چکیده نیز باید ابتدا متن اصلی فهمیده شود و بر اساس معنای موجود در متن و به صورت معنایی(8) ، چکیدهای از متن اصلی تولید شود. در این روش، با چالشهای موجود در زمینه پردازش زبان طبیعی و تجزیه و تحلیل معنایی متن، برای درک و تفسیر متن روبهرو هستیم.
اگرچه برخی تشابهات بین سیستمها و الگوریتمهای خلاصهسازی مختلف وجود دارد، اما معمولاً با توجه به زبان، فرآیند متنکاوی تغییراتی خواهد داشت.
در این مقاله ابتدا به معرفی فرآیند خلاصهسازی پرداخته شده است. در بخش بعدی، تفاوتهای خلاصهسازی متون فارسی با سایر زبانها بیان شده و پس از آن، فازهای فرآیند خلاصهسازی متون فارسی تشریح شده است. در بخش آخر نیز برخی از مهمترین سیستمهای خلاصهساز بررسی شده و در نهايت، نتیجهگیری مقاله ارائه شده است.
فرآیند خلاصهسازی
فرآیند خلاصهسازی متون به طور کلی شامل سه فاز: پیشپردازش(9)، تحلیل(10) و انتخاب(11) است. در فاز پیشپردازش، پردازشهای اولیه مورد نیاز بر روی متن صورت میگیرد. وجود این فاز، در فرآیند خلاصهسازی بسیار ضروری است؛ به طوری که اگر وظایف(12) این فاز بهخوبی انجام نشود، کیفیت خلاصه تولید شده به ميزان چشمگیری کاهش مییابد.
فاز دوم، فاز تحلیل است. در این فاز، وظایف اصلی خلاصهسازی انجام میشود و بخشهای مهم و اصلی متن شناسایی و امتیاز دهی میشوند.
در فاز سوم، با توجه به بخشهای مهم متن که در فاز دوم شناسایی شدهاند، خلاصه نهایی تولید میشود. باید توجه داشت که اطلاعات تکراری، اضافی و یا ناخوانا در چکیده وجود نداشته باشد.
برخی از روشهای ارائه شده جهت خلاصهسازی متون، در هر یک از این فازها، از منابع اطلاعاتی و پایگاههای داده آماده استفاده میکنند. از آنجا که تولید و نگهداشت چنین پایگاههای دادهای پر هزینه و در برخی موارد بسیار دشوار است، هر چه یک سیستم خلاصهساز، ضمن حفظ کیفیت خلاصه تولید شده، به پایگاه دادههای کمتری نیاز داشته باشد، مقبولیت بیشتری خواهد داشت.
تفاوتهای فرآیند خلاصهسازی متون فارسی با سایر زبانها
خلاصهسازی متون فارسی، به دلیل ویژگیهای نگارشی و گرامری خاص این زبان، نیازمند انجام وظایف خاصی در فازهای یاد شده است.
برخلاف زبان انگلیسی که در آن هم حروف و هم لغات کاملاً متمایز از یکدیگر هستند، در زبان فارسی پیوستگی میان برخی علائم با لغات وجود دارد و علاوه بر آن، تنوع نگارش در کلمات نیز وجود دارد. ریشهیابی فعل(13)، که یکی از مراحل مهم پیشپردازش متن برای خلاصهسازی است، در زبان فارسی چالشهای خاص خود را دارد؛ به عنوان مثال، در یک لغت به هم پیوسته، بن فعل، شناسه، علامت زمان فعل و حتی شناسههای مفعولی میتوان داشت که کار پردازش لغات را پیچیدهتر میکند؛ به طوری که نمیتوان از دانش، تجربه و نرمافزارهای موجود در این زمینه استفاده نمود و تولید نرمافزاری که قادر به حل تمامی این پیچیدگیها باشد، فرآیندی زمانبر و مستلزم تلاش فراوان است.
تفاوتهای ذاتی زبانهای گسستهای مانند انگلیسی با زبانهایی مانند فارسی، عربی و ... که با یکدیگر تفاوتهای بنیادین در قواعد دستوری دارند، منجر به آن شده است که ادعای اعمال تغییرات در ساختار یک نرمافزار انگلیسی و به دست آوردن نتایج خوب برای زبان فارسی، لزوماً امکانپذیر نیست و مستلزم آزمایشهای فراوان برای اثبات صحت آن خواهد بود.(14)
فاز پیشپردازش
از جمله مهمترین وظایفی که در این فاز انجام میشود، میتوان به موارد ذیل اشاره نمود:
فاز تحلیل
در این فاز، جملات موجود در متن با توجه به اطلاعات به دست آمده از فاز پیشپردازش، تحلیل و امتیازدهی میشوند. این امتیازدهی ممکن است با استفاده از تکنیکهای آماری (در خلاصهسازی استخراجی یا گزینشی) و یا تکنیکهای پردازش زبان طبیعی و مبتنی بر درک متن (در خلاصهسازی معنایی یا چکیده) صورت بگیرد.
چنانچه از تکنیکهای آماری استفاده شود، خصوصیات کمّی متن، فرکانس کلمات و عبارات، مکان جمله در متن، مکان محلی پاراگراف، کلمات کلیدی موجود در جمله و سایر ویژگیهای متن، جهت تحلیل و امتیازدهی، مورد استفاده قرار میگیرد.
همچنین میتوان از روشهای معناگرا، همانند: روشهای موجودیتی ـ معنایی، هممکانی، مبتنی بر گراف، زنجیره لغوی، ساختار کلامی و یا روشهای ترکیبی استفاده نمود.
فاز انتخاب
در این فاز، با توجه به تحلیل صورت گرفته در فاز دوم، جملات و یا مفاهیم موجود در متن، بر اساس امتیاز و وزن مرتب میشوند. سپس جملات و مفاهیم با امتیاز و وزن بیشتر، با توجه به اندازه خلاصه مورد نظر که معمولاً به صورت درصد بیان میشود، جهت استفاده در خلاصه نهایی انتخاب میشوند.
در این فاز، در حین و یا پس از تولید خلاصه، راهکارهایی اتخاذ میشود تا خلاصه تولید شده، یکپارچه و خوانا بوده و حاوی مطالب تکراری نباشد.
برخی از سیستمهای خلاصهساز معروف
برای خلاصهسازی متون فارسی، تا کنون سیستمهای مختلفی پیشنهاد و تولید شده است که در ادامه برخی از آنها را بررسی میکنیم:
همان گونه که مشخص است، در هیچ یک از نمونههای یاد شده در این جدول، خلاصهسازی به صورت معنایی یا چکیده کار نشده است. علت آن هم پیچیدگی، پر هزینه بودن و آماده نبودن ابزارها و زیرساختهای لازم جهت خلاصهسازی به روش چکیده است.
نتیجهگیری
در این مقاله به بررسی خلاصهسازی متون فارسی پرداخته شد. خلاصهسازی به دو روش «گزینشی» و «چکیده» انجام میشود. برای خلاصهسازی سه فاز کلی: پیشپردازش، تحلیل و انتخاب وجود دارد. در مرحله پیشپردازش، عملیات اولیه روی متن ورودی انجام میشود و متن جهت انجام پردازشهای فاز تحلیل آماده میشود. در فاز تحلیل، جملهها بر اساس معیارهای مختلف معنایی و یا آماری امتیازدهی میشوند و نهایتاً در فاز انتخاب، تعدادی از جملات با امتیاز بیشتر انتخاب میشود و پس از پالایش، به عنوان خلاصه ارائه داده میشود.
در انتهای مقاله نیز چند نمونه از پروژههای انجام شده در زمینه خلاصهسازی متون فارسی معرفی شدند و مشاهده شد که به دلیل پیچیدگیهای موجود و عدم وجود زیرساختهای لازم (همچون شبکه واژگان زبان فارسی) در زمینه خلاصهسازی متون فارسی به روش معنایی، کار عملیاتی قابل اعتنایی تا کنون انجام نشده است. تمامی کارهای انجام شده در حوزه خلاصهسازی فارسی و غیر فارسی، از گونه خلاصهسازی استخراجی/گزینشی بوده است. تا کنون در حوزه چکیدهگیری کاری انجام نشده است. با توجه به حجم سنگین چکیدههای آماده موجود در مرکز نور در علوم مختلف، برآنیم که سیستم خلاصهسازی از نوع چکیدهگیری با تکیه بر الگوریتمهای یادگیری ماشین به محک آزمایش گذاشته شود.
پينوشتها:
1. Unstructured.2. Semi-Structured.
3. Text Summarization Systems.
4. Readability.
5. Cohision.
6. Extractive.
7. Abstractive.
8. Semantic.
9. Preprocessing.
10. Analysis.
11. Selection.
12. Task.
13. Stemming.14. شورای عالی اطلاعرسانی، پروژه کد: پیک متن فارسی-3-چ، ص 10-11 .