پردازش میراث حدیثی شیعه
با وجود نیازهای نوشونده و مسئولیت آور در روزگار جدید، همچنان اولویت نخست، حفظ پیوند میان اصیل قدیم و نیاز نوین روز است. بی گمان گسست از سنت قویم قدیم، جدایی از آینده و ماندگاری در زمانه ای است که هر چیزی را از میدان روزگار بیرون می راند و نیست و نابود می سازد. کسی که در حال نتواند میان سنت ها و تجددها پیوند منطقی و استوار برقرار نماید، در آینده نیز نمی تواند در عرصه جهانی ماندگار باشد؛ چرا که در جهان متحول و متغیر، پدیده ای باقی می ماند که بتواند سنت ها را با نیازها و الزامات اجتماعی و تحولات عصر خو پیوند زند. برآیند این پیوند حضور و کارکردی مثبت است که ماندگاری مطلوب را برای آینده ضمانت می کند.
تحلیلگر هوشمند صرفی نور
چکیده
در این مقاله قصد داریم به بررسی «تحلیلگر صرفی نور» که برنامه هوشمند پردازش صرفی زبان عربی است، بپردازیم. این سامانه، کلمات عربی را حتی الامکان با استفاده از قواعد معتبر زبان عربی تجزیه و تحلیل می کند و در صورت نیاز با حداقل استفاده از بانک های اطلاعاتی تعبیه شده در داخل سامانه، نتایج حاصل را به عنوان حالات معتبر مختلف صرفی برای هر کلمه ارائه می نماید.
ورودی این برنامه، یک فایل متنی زبان عربی و خروجی آن نیز یک فایل از نوع ایکس. ام. ال می باشد. از جمله قابلیت های مهم این سامانه، توانایی تحلیل متون، اعم از با اِعراب یا بدون اعراب است. قابلیت مهم دیگر، تحلیل و تجزیه یک کلمه به حالات مختلف پیشوندی، میانوندی و پسوندی معتبر است که هر کدام از این حالت ها، شامل مقادیر ممکن به ازای فیلدهای صرفی مختلف مثل: وزن، ریشه و سرواژه می باشد. به دلیل مبتنی بودن بر قواعد صرفی، برنامه می تواند انواع مختلف متون عربی با موضوعات گوناگون قرآنی، فقهی، سیاسی یا اجتماعی را با دقت بالایی تحلیل کند. به طور دقیق تر، این سامانه زیربنای پردازش های مورد نیاز، اعم از: تحلیل نحوی، معنایی، خلاصه سازی و ترجمه ماشینی روی متون عربی را فراهم می نماید.
وضعیت موجود خلاصهسازی خودکار متون فارسی
چکیده
با گسترش روزافزون حجم اطلاعات، نیاز به سیستمهای کامپیوتری جهت پردازش و تحلیل اطلاعات بیشتر احساس میشود. از آنجا که درصد قابل توجهی از اطلاعات تولید شده به صورت متنی غیر ساختار یافته(1) و نیمهساختار یافته(2) است، سیستمی که بتواند این اطلاعات را تحلیل و پردازش کند، بهشدت مورد توجه قرار خواهد گرفت. یکی از انواع سیستمهایی که در تحلیل و پردازش متون وجود دارد، سیستمهای خلاصهساز متن(3) است که حجم زیادی از متن را دریافت نموده و بر اساس الگوریتمها و تکنیکهای مختلف، آن را خلاصه مینماید. این مقاله به معرفی فرآیند خلاصهسازی متون فارسی میپردازد.
برچسبگذاری ادات سخن متون فارسی به کمک مدل مخفی مارکوف
چکیده
در این مستند، به یکی از دغدغه های بزرگ در زمینه زبانشناسی محاسباتی(1) با نام برچسبگذاری ادات سخن (part of speech tagging) پرداخته شده است. برچسبگذاری ادات سخن که یکی از پایهایترین نیازهای پردازش هوشمند متن به شمار میآید، وابسته به زبان متن مورد پردازش است. از این رو، فراهم شدن برچسبگذاری قوی برای زبان فارسی، جزو اولویتهای کار ما قرار گرفت. تکنیک مورد کاربرد ما برای حل این مسأله، استفاده ازمدل مخفی مارکوف(2) بوده است. این تکنیک در بسیاری از شیوه های برچسبگذاری به کاربرده میشود؛ برای نمونه، در برچسبگذار TNT[2] که یکی از قویترین برچسبگذارها در زبانهای مختلف است[4, 5, 8]. طبق آزمایشهای انجام شده ما، با استفاده از این برچسبگذار میتوان با دقت 94.3% برچسب گونه صرفی کلمات فارسی را مشخص نمود.
ویراستیار؛ مطالعۀ تطبیقی یک فعالیت پردازشی متنباز در زبان فارسی
اشاره
نرمافزار «ویراستیار»، یک خطایاب املایی متنباز (open source) فارسی است که نسخۀ اول آن در زمستان سال گذشته عرضه شد و به کاربر خود این امکان را میدهد که متن نگاشته شدۀ فارسی در محیط مایکروسافت وُرد را اصلاح کند. اگر چه این نرمافزار هنوز هم در حال توسعه و تجدید ویراست است و از زمان رونمایی آن در زمستان 1389 تاکنون، به ویژگیها و قابلیتهای آن افزوده شده است، اما نهاد توسعه دهندۀ آن، یعنی دبیرخانۀ شورای عالی اطلاعرسانی ترجیح داده است تا آن را به صورت متن باز عرضه کند تا باب همافزایی در این حوزه را باز کند.
ردهبندی متون فارسی با استفاده از روشهای آماری
چکیده
در این گزارش، سعی شده است تا یکی از تکنیکهای موفق در زمینه ردهبندی متون را برای متون فارسی به کار بندیم. به عنوان تعریفی ساده از ردهبندی متون، میتوان روند شناسایی رده یا طبقه یک متن ناشناخته را بیان نمود. در این روش ما با استفاده از روش ردهبندی K نزدیکترین همسایه(1) و دو معیار فاصله متون، آزمایشهای خودمان را انجام دادهایم. یکی از این دو معیار، الگو گرفته از نوعی ردهبندی متون زبان عربی[4] بوده و دیگری، معیار ترکیبی تولید شده خودمان است. مجموعه آزمایشها بر روی پیکره همشهری[1] است. این دو نوع فاصلهسنجی، هر کدام با الگوریتم نزدیکترین همسایه ترکیب شده و ردهبند 1 تا 20 نزدیکترین همسایه را برای آزمایشهای ما آماده کردهاند. نتایج ما نشان میدهد که این روش میتواند با دقت(2) 89% عمل ردهبندی را انجام دهد.
کنکاشی در الگوریتم های خطایابی
چکیده
خطایابی،(1) شامل دو بخش اصلی است: بخش اول، بهرهگیری از یک واژه نامه(2) است و بخش دوم، مجموعه ای از الگوریتم ها و شگردها(Techniques) میباشد که این واژه نامه برای خطایابی استفاده میکند. این شگردها به سه دسته اصلی تقسیم میشود: 1. جستجو در واژه نامه؛ 2. یافتن لغت صحیح جایگزین در واژه نامه؛ 3. رتبهبندی اصلاحات.
جستجوی هوشمند عبارات قرآنی در متون دیجیتال
چکیده
برجسته کردن عبارات قرآنی در متون مکتوب - چه با تغییر در نوع نوشتار و چه با استفاده از علائم ویرایشی - موضوعی است که قرنها مورد توجه مؤلفان، نسخهبرداران و ناشران قرار گرفته است. همچنین، فهرستبرداری از این عبارات و درج آنها به صورت آماری در بخش پایانی کتب نیز در تألیفات دهههای اخیر متداول بوده است. مرکز تحقیقات کامپیوتری علوم اسلامی، طی بیش از دو دهه فعالیت خود تلاش نموده تا محوریت قرآن و حدیث را در نرمافزارهای تولیدی حفظ نماید که این تلاشها ابتدا تفاوت چندانی با مدل مکتوب نداشته است؛ اما به مرور زمان روشهای ابتکاری نوینی برای سرعت و دقت بیشتر به کار گرفته شده که آخرین آنها طرح «جستجوی هوشمند عبارات قرآنی در متون دیجیتال» میباشد.
مروری بر نرم افزار هوشمند صرف
مقدمه اول: با بررسی کوتاهی در طول زندگانی انسانها میفهمیم که همیشه نیازها، علت ساخت ابزارها بوده است. نقاط ضعف و مشکلات حل نشدنی، انسانها را واداشته که از نیروی خدادادی تفکر استفاده کنند و راه حلهایی برای رفع آن بیابند. همین روند، صاحب نظران را به این رساند که «نیاز، عامل ایجاد علوم بود».
امکان سنجی برچسب گذاری ادات سخن متون عربی در لایه نحو؛ قوانین سیستم تشخیص معطوف و معطوف علیه «واو»
مقدمه
موضوع گرامر زبان (نحو)، یکی از موضوعاتی است که در پردازش زبان طبیعی مورد توجه قرار میگیرد. گرامر زبان، یعنی بررسی چینش کلمات و نقش هر واژه در کنار سایر واژگان. از مهمترین موضوعاتی که میتوان در گرامر زبان مطرح کرد، بحث عطف است. عطف، به منزله مفصلی است که قسمتی از عبارت پس از خود را به قبل آن مربوط میسازد. یکی از دلایلی که بررسی عطف را در اولویت قرار میدهد، میزان استفاده و فراوانی آن در متون است. مشخص شدن رابطه کلمه پس از حرف عطف با پیش از آن، هم به پیدا کردن نقش کلمه پس از حرف عطف کمک کرده و هم در مرحلههای بعدی به یافتن رابطه معنایی جملات کمک خواهد کرد.