برچسبگذاری ادات سخن متون فارسی به کمک مدل مخفی مارکوف
چکیده
در این مستند، به یکی از دغدغه های بزرگ در زمینه زبانشناسی محاسباتی(1) با نام برچسبگذاری ادات سخن (part of speech tagging) پرداخته شده است. برچسبگذاری ادات سخن که یکی از پایهایترین نیازهای پردازش هوشمند متن به شمار میآید، وابسته به زبان متن مورد پردازش است. از این رو، فراهم شدن برچسبگذاری قوی برای زبان فارسی، جزو اولویتهای کار ما قرار گرفت. تکنیک مورد کاربرد ما برای حل این مسأله، استفاده ازمدل مخفی مارکوف(2) بوده است. این تکنیک در بسیاری از شیوه های برچسبگذاری به کاربرده میشود؛ برای نمونه، در برچسبگذار TNT[2] که یکی از قویترین برچسبگذارها در زبانهای مختلف است[4, 5, 8]. طبق آزمایشهای انجام شده ما، با استفاده از این برچسبگذار میتوان با دقت 94.3% برچسب گونه صرفی کلمات فارسی را مشخص نمود.
ویراستیار؛ مطالعۀ تطبیقی یک فعالیت پردازشی متنباز در زبان فارسی
اشاره
نرمافزار «ویراستیار»، یک خطایاب املایی متنباز (open source) فارسی است که نسخۀ اول آن در زمستان سال گذشته عرضه شد و به کاربر خود این امکان را میدهد که متن نگاشته شدۀ فارسی در محیط مایکروسافت وُرد را اصلاح کند. اگر چه این نرمافزار هنوز هم در حال توسعه و تجدید ویراست است و از زمان رونمایی آن در زمستان 1389 تاکنون، به ویژگیها و قابلیتهای آن افزوده شده است، اما نهاد توسعه دهندۀ آن، یعنی دبیرخانۀ شورای عالی اطلاعرسانی ترجیح داده است تا آن را به صورت متن باز عرضه کند تا باب همافزایی در این حوزه را باز کند.
نویسهگردانی متون اسلامی؛ مشکلات و راه حلها
چکیده
ترجمه دقیق، معادلیابی و معادلسازی جهت واژهها و اصطلاحات، از زبانی به زبان دیگر به شکلی که بتوان بار معنایی آن را از زبان مبدأ به زبان مقصد به قدر ممکن منتقل کرد، کار ارزشمندی است که باید با صرف وقت کافی و بررسی تمامی ملاحظات معنایی و فرهنگی دو زبان مبدأ و مقصد صورت پذیرد. این کار، نیازمند تلاش گروهی با اطلاعات و تخصصهای متنوع میباشد.
ردهبندی متون فارسی با استفاده از روشهای آماری
چکیده
در این گزارش، سعی شده است تا یکی از تکنیکهای موفق در زمینه ردهبندی متون را برای متون فارسی به کار بندیم. به عنوان تعریفی ساده از ردهبندی متون، میتوان روند شناسایی رده یا طبقه یک متن ناشناخته را بیان نمود. در این روش ما با استفاده از روش ردهبندی K نزدیکترین همسایه(1) و دو معیار فاصله متون، آزمایشهای خودمان را انجام دادهایم. یکی از این دو معیار، الگو گرفته از نوعی ردهبندی متون زبان عربی[4] بوده و دیگری، معیار ترکیبی تولید شده خودمان است. مجموعه آزمایشها بر روی پیکره همشهری[1] است. این دو نوع فاصلهسنجی، هر کدام با الگوریتم نزدیکترین همسایه ترکیب شده و ردهبند 1 تا 20 نزدیکترین همسایه را برای آزمایشهای ما آماده کردهاند. نتایج ما نشان میدهد که این روش میتواند با دقت(2) 89% عمل ردهبندی را انجام دهد.
جستجوی هوشمند عبارات قرآنی در متون دیجیتال
چکیده
برجسته کردن عبارات قرآنی در متون مکتوب - چه با تغییر در نوع نوشتار و چه با استفاده از علائم ویرایشی - موضوعی است که قرنها مورد توجه مؤلفان، نسخهبرداران و ناشران قرار گرفته است. همچنین، فهرستبرداری از این عبارات و درج آنها به صورت آماری در بخش پایانی کتب نیز در تألیفات دهههای اخیر متداول بوده است. مرکز تحقیقات کامپیوتری علوم اسلامی، طی بیش از دو دهه فعالیت خود تلاش نموده تا محوریت قرآن و حدیث را در نرمافزارهای تولیدی حفظ نماید که این تلاشها ابتدا تفاوت چندانی با مدل مکتوب نداشته است؛ اما به مرور زمان روشهای ابتکاری نوینی برای سرعت و دقت بیشتر به کار گرفته شده که آخرین آنها طرح «جستجوی هوشمند عبارات قرآنی در متون دیجیتال» میباشد.
مروری بر نرم افزار هوشمند صرف
مقدمه اول: با بررسی کوتاهی در طول زندگانی انسانها میفهمیم که همیشه نیازها، علت ساخت ابزارها بوده است. نقاط ضعف و مشکلات حل نشدنی، انسانها را واداشته که از نیروی خدادادی تفکر استفاده کنند و راه حلهایی برای رفع آن بیابند. همین روند، صاحب نظران را به این رساند که «نیاز، عامل ایجاد علوم بود».
امکان سنجی برچسب گذاری ادات سخن متون عربی در لایه نحو؛ قوانین سیستم تشخیص معطوف و معطوف علیه «واو»
مقدمه
موضوع گرامر زبان (نحو)، یکی از موضوعاتی است که در پردازش زبان طبیعی مورد توجه قرار میگیرد. گرامر زبان، یعنی بررسی چینش کلمات و نقش هر واژه در کنار سایر واژگان. از مهمترین موضوعاتی که میتوان در گرامر زبان مطرح کرد، بحث عطف است. عطف، به منزله مفصلی است که قسمتی از عبارت پس از خود را به قبل آن مربوط میسازد. یکی از دلایلی که بررسی عطف را در اولویت قرار میدهد، میزان استفاده و فراوانی آن در متون است. مشخص شدن رابطه کلمه پس از حرف عطف با پیش از آن، هم به پیدا کردن نقش کلمه پس از حرف عطف کمک کرده و هم در مرحلههای بعدی به یافتن رابطه معنایی جملات کمک خواهد کرد.
امکان سنجی برچسب گذاری ادات سخن متون عربی در لایه نحو؛ قوانین سیستم تشخیص اسم و خبر نواسخ (خانواده إنّ)
مقدمه
متنکاوی (Text Mining)، دانش استخراج خودکار الگوهای پنهان از متون حجیم است. یکی از علوم مرتبط با متنکاوی، پردازش زبان طبیعی (NLP) نام دارد. از مهمترین ابزارهای پردازش زبان طبیعی نیز میتوان به برچسبگذاری ادات سخن (Part of Speech Tagging) اشاره کرد. برچسبگذاری خودکار متن، در هر زبانی در دو حوزه مهم پیگیری میشود. اول حوزه ریختشناسی (Morphology) (صرف) و دوم گرامر(نحو). در صرف،(1) کلمات جدای از هم، مستقل از یکدیگر و تنها با توجه به ساختشان مورد بررسی قرار میگیرند؛ اما در نحو،(2) جایگاه هر کلمه در کنار سایر کلمات مد نظر قرار میگیرد. جایگاه صرف نسبت به مباحث نحوی، جایگاه تقدمی است. در واقع، تا زمانی که ساختار صرفی کلمات در یک متن مشخص نشده باشد، ورود به حوزه نحو کاری بیسرانجام مینماید.
امکان سنجی برچسب گذاری ادات سخن متون عربی در لایه نحو؛ قوانین سیستم تشخیص حدود جمله
مقدمه
انسانها برای انتقال مقصود خود به مخاطب، از راههای مختلفی استفاده میکنند. یکی از متداولترین روشها، استفاده از تکلّم (گفتاری و نوشتاری) است. در پردازش سخن، گوینده با به کارگیری کلمات، در قالبی به نام جمله، هدف خود را به مخاطب میفهماند. برای فهم هدف متکلّم لازم است مخاطب، جملات او را از جنبههای گوناگون مانند: محدوده، معنا،(1) اعراب و ... مورد بررسی قرار دهد و تنها بهرهگیری از تجزیه کلمات و تکیه بر نقش آنها برای تشخیص جمله کافی نیست. شناخت محدوده جمله که تعیین ابتدا و انتهای جملات است، نخستین مرحله پردازش جمله به شمار میآید. پس از آن، اعراب و لایه معناشناسی قرار دارد.
شناسایی واحدهای اسمی در زبان عربی
مقدمه
پردازش زبانها و مکالمات طبیعی، یکی از اموری است که با ورود فناوری رایانهای به زندگی بشر، مورد توجه بسیاری از دانشمندان قرار گرفته است. حتی اندیشهای که تورینگ از ماشین هوشمند خود و تعریفی که او از هوش مصنوعی داشت، در مرحله اول مربوط به پردازش زبانهای طبیعی میشد. تلاشهای زیادی برای پیگیری این امر صورت گرفت؛ به عنوان مثال، یکی از نتایج قابل توجه این تلاشها ماشین «الیزا» بود که با تایپ از راه دور با یک انسان، جملات او را پردازش نموده و جوابی درخور آن ارسال مینمود. پردازش زبان طبیعی، یکی از عرصه های مهم در علم هوش مصنوعی است.