وضعیت موجود خلاصهسازی خودکار متون فارسی
چکیده
با گسترش روزافزون حجم اطلاعات، نیاز به سیستمهای کامپیوتری جهت پردازش و تحلیل اطلاعات بیشتر احساس میشود. از آنجا که درصد قابل توجهی از اطلاعات تولید شده به صورت متنی غیر ساختار یافته(1) و نیمهساختار یافته(2) است، سیستمی که بتواند این اطلاعات را تحلیل و پردازش کند، بهشدت مورد توجه قرار خواهد گرفت. یکی از انواع سیستمهایی که در تحلیل و پردازش متون وجود دارد، سیستمهای خلاصهساز متن(3) است که حجم زیادی از متن را دریافت نموده و بر اساس الگوریتمها و تکنیکهای مختلف، آن را خلاصه مینماید. این مقاله به معرفی فرآیند خلاصهسازی متون فارسی میپردازد.
برچسبگذاری ادات سخن متون فارسی به کمک مدل مخفی مارکوف
چکیده
در این مستند، به یکی از دغدغه های بزرگ در زمینه زبانشناسی محاسباتی(1) با نام برچسبگذاری ادات سخن (part of speech tagging) پرداخته شده است. برچسبگذاری ادات سخن که یکی از پایهایترین نیازهای پردازش هوشمند متن به شمار میآید، وابسته به زبان متن مورد پردازش است. از این رو، فراهم شدن برچسبگذاری قوی برای زبان فارسی، جزو اولویتهای کار ما قرار گرفت. تکنیک مورد کاربرد ما برای حل این مسأله، استفاده ازمدل مخفی مارکوف(2) بوده است. این تکنیک در بسیاری از شیوه های برچسبگذاری به کاربرده میشود؛ برای نمونه، در برچسبگذار TNT[2] که یکی از قویترین برچسبگذارها در زبانهای مختلف است[4, 5, 8]. طبق آزمایشهای انجام شده ما، با استفاده از این برچسبگذار میتوان با دقت 94.3% برچسب گونه صرفی کلمات فارسی را مشخص نمود.
ویراستیار؛ مطالعۀ تطبیقی یک فعالیت پردازشی متنباز در زبان فارسی
اشاره
نرمافزار «ویراستیار»، یک خطایاب املایی متنباز (open source) فارسی است که نسخۀ اول آن در زمستان سال گذشته عرضه شد و به کاربر خود این امکان را میدهد که متن نگاشته شدۀ فارسی در محیط مایکروسافت وُرد را اصلاح کند. اگر چه این نرمافزار هنوز هم در حال توسعه و تجدید ویراست است و از زمان رونمایی آن در زمستان 1389 تاکنون، به ویژگیها و قابلیتهای آن افزوده شده است، اما نهاد توسعه دهندۀ آن، یعنی دبیرخانۀ شورای عالی اطلاعرسانی ترجیح داده است تا آن را به صورت متن باز عرضه کند تا باب همافزایی در این حوزه را باز کند.
ردهبندی متون فارسی با استفاده از روشهای آماری
چکیده
در این گزارش، سعی شده است تا یکی از تکنیکهای موفق در زمینه ردهبندی متون را برای متون فارسی به کار بندیم. به عنوان تعریفی ساده از ردهبندی متون، میتوان روند شناسایی رده یا طبقه یک متن ناشناخته را بیان نمود. در این روش ما با استفاده از روش ردهبندی K نزدیکترین همسایه(1) و دو معیار فاصله متون، آزمایشهای خودمان را انجام دادهایم. یکی از این دو معیار، الگو گرفته از نوعی ردهبندی متون زبان عربی[4] بوده و دیگری، معیار ترکیبی تولید شده خودمان است. مجموعه آزمایشها بر روی پیکره همشهری[1] است. این دو نوع فاصلهسنجی، هر کدام با الگوریتم نزدیکترین همسایه ترکیب شده و ردهبند 1 تا 20 نزدیکترین همسایه را برای آزمایشهای ما آماده کردهاند. نتایج ما نشان میدهد که این روش میتواند با دقت(2) 89% عمل ردهبندی را انجام دهد.
جستجوی هوشمند عبارات قرآنی در متون دیجیتال
چکیده
برجسته کردن عبارات قرآنی در متون مکتوب - چه با تغییر در نوع نوشتار و چه با استفاده از علائم ویرایشی - موضوعی است که قرنها مورد توجه مؤلفان، نسخهبرداران و ناشران قرار گرفته است. همچنین، فهرستبرداری از این عبارات و درج آنها به صورت آماری در بخش پایانی کتب نیز در تألیفات دهههای اخیر متداول بوده است. مرکز تحقیقات کامپیوتری علوم اسلامی، طی بیش از دو دهه فعالیت خود تلاش نموده تا محوریت قرآن و حدیث را در نرمافزارهای تولیدی حفظ نماید که این تلاشها ابتدا تفاوت چندانی با مدل مکتوب نداشته است؛ اما به مرور زمان روشهای ابتکاری نوینی برای سرعت و دقت بیشتر به کار گرفته شده که آخرین آنها طرح «جستجوی هوشمند عبارات قرآنی در متون دیجیتال» میباشد.
امکان سنجی برچسب گذاری ادات سخن متون عربی در لایه نحو؛ قوانین سیستم تشخیص معطوف و معطوف علیه «واو»
مقدمه
موضوع گرامر زبان (نحو)، یکی از موضوعاتی است که در پردازش زبان طبیعی مورد توجه قرار میگیرد. گرامر زبان، یعنی بررسی چینش کلمات و نقش هر واژه در کنار سایر واژگان. از مهمترین موضوعاتی که میتوان در گرامر زبان مطرح کرد، بحث عطف است. عطف، به منزله مفصلی است که قسمتی از عبارت پس از خود را به قبل آن مربوط میسازد. یکی از دلایلی که بررسی عطف را در اولویت قرار میدهد، میزان استفاده و فراوانی آن در متون است. مشخص شدن رابطه کلمه پس از حرف عطف با پیش از آن، هم به پیدا کردن نقش کلمه پس از حرف عطف کمک کرده و هم در مرحلههای بعدی به یافتن رابطه معنایی جملات کمک خواهد کرد.
امکان سنجی برچسب گذاری ادات سخن متون عربی در لایه نحو؛ قوانین سیستم تشخیص اسم و خبر نواسخ (خانواده إنّ)
مقدمه
متنکاوی (Text Mining)، دانش استخراج خودکار الگوهای پنهان از متون حجیم است. یکی از علوم مرتبط با متنکاوی، پردازش زبان طبیعی (NLP) نام دارد. از مهمترین ابزارهای پردازش زبان طبیعی نیز میتوان به برچسبگذاری ادات سخن (Part of Speech Tagging) اشاره کرد. برچسبگذاری خودکار متن، در هر زبانی در دو حوزه مهم پیگیری میشود. اول حوزه ریختشناسی (Morphology) (صرف) و دوم گرامر(نحو). در صرف،(1) کلمات جدای از هم، مستقل از یکدیگر و تنها با توجه به ساختشان مورد بررسی قرار میگیرند؛ اما در نحو،(2) جایگاه هر کلمه در کنار سایر کلمات مد نظر قرار میگیرد. جایگاه صرف نسبت به مباحث نحوی، جایگاه تقدمی است. در واقع، تا زمانی که ساختار صرفی کلمات در یک متن مشخص نشده باشد، ورود به حوزه نحو کاری بیسرانجام مینماید.
امکان سنجی برچسب گذاری ادات سخن متون عربی در لایه نحو؛ قوانین سیستم تشخیص حدود جمله
مقدمه
انسانها برای انتقال مقصود خود به مخاطب، از راههای مختلفی استفاده میکنند. یکی از متداولترین روشها، استفاده از تکلّم (گفتاری و نوشتاری) است. در پردازش سخن، گوینده با به کارگیری کلمات، در قالبی به نام جمله، هدف خود را به مخاطب میفهماند. برای فهم هدف متکلّم لازم است مخاطب، جملات او را از جنبههای گوناگون مانند: محدوده، معنا،(1) اعراب و ... مورد بررسی قرار دهد و تنها بهرهگیری از تجزیه کلمات و تکیه بر نقش آنها برای تشخیص جمله کافی نیست. شناخت محدوده جمله که تعیین ابتدا و انتهای جملات است، نخستین مرحله پردازش جمله به شمار میآید. پس از آن، اعراب و لایه معناشناسی قرار دارد.
شناسایی واحدهای اسمی در زبان عربی
مقدمه
پردازش زبانها و مکالمات طبیعی، یکی از اموری است که با ورود فناوری رایانهای به زندگی بشر، مورد توجه بسیاری از دانشمندان قرار گرفته است. حتی اندیشهای که تورینگ از ماشین هوشمند خود و تعریفی که او از هوش مصنوعی داشت، در مرحله اول مربوط به پردازش زبانهای طبیعی میشد. تلاشهای زیادی برای پیگیری این امر صورت گرفت؛ به عنوان مثال، یکی از نتایج قابل توجه این تلاشها ماشین «الیزا» بود که با تایپ از راه دور با یک انسان، جملات او را پردازش نموده و جوابی درخور آن ارسال مینمود. پردازش زبان طبیعی، یکی از عرصه های مهم در علم هوش مصنوعی است.
سیستم هوشمند برچسب گذاری ادات سخن زبان عربی؛ لایه صرف
مقدمه
جهت فهم زبان عربی، سه دانش مهم، نقش اساسی را بر عهده دارند که عبارتاند از: علم لغت، صرف و نحو. علم لغت، یعنی فهم معنای حقیقی یک کلمه و همچنین آشنایی با برخی معانی مجازی و کنایی یک کلمه یا یک عبارت.
در کنار علم لغت، علم صرف و نحو نیز وجود دارد که مبتنی بر قواعدی است که فهم هوشمند از آنها را امکانپذیر میکند. بدون تردید، علم صرف را باید پیشنیاز علم نحو دانست. اینکه یک کلمه چه جایگاهی را در یک کلام دارد، ابتداء وابسته به این است که کلمه به خودی خود قابلیت کدام یک از نقوش نحوی را دارد؛ به طور مثال، فاعل یا مفعول شدن یک کلمه، در ابتداء وابسته به این است که آن کلمه اسم باشد و نه فعل یا حرف.