نمایش موارد بر اساس برچسب: پردازش هوشمند متن

یکشنبه, 31 خرداد 1383 ساعت 14:37

پردازش میراث حدیثی شیعه

با وجود نیازهای نوشونده و مسئولیت آور در روزگار جدید، همچنان اولویت نخست، حفظ پیوند میان اصیل قدیم و نیاز نوین روز است. بی گمان گسست از سنت قویم قدیم، جدایی از آینده و ماندگاری در زمانه ای است که هر چیزی را از میدان روزگار بیرون می راند و نیست و نابود می سازد. کسی که در حال نتواند میان سنت ها و تجددها پیوند منطقی و استوار برقرار نماید، در آینده نیز نمی تواند در عرصه جهانی ماندگار باشد؛ چرا که در جهان متحول و متغیر، پدیده ای باقی می ماند که بتواند سنت ها را با نیازها و الزامات اجتماعی و تحولات عصر خو پیوند زند. برآیند این پیوند حضور و کارکردی مثبت است که ماندگاری مطلوب را برای آینده ضمانت می کند.

منتشرشده در فصلنامه شماره 06 (بهار 1383)

ادامه مطلب

پنج شنبه, 28 اسفند 1393 ساعت 15:37

تحلیلگر هوشمند صرفی نور

چکیده

در این مقاله قصد داریم به بررسی «تحلیلگر صرفی نور» که برنامه هوشمند پردازش صرفی زبان عربی است، بپردازیم. این سامانه، کلمات عربی را حتی الامکان با استفاده از قواعد معتبر زبان عربی تجزیه و تحلیل می کند و در صورت نیاز با حداقل استفاده از بانک های اطلاعاتی تعبیه شده در داخل سامانه، نتایج حاصل را به عنوان حالات معتبر مختلف صرفی برای هر کلمه ارائه می نماید.

ورودی این برنامه، یک فایل متنی زبان عربی و خروجی آن نیز یک فایل از نوع ایکس. ام. ال می باشد. از جمله قابلیت های مهم این سامانه، توانایی تحلیل متون، اعم از با اِعراب یا بدون اعراب است. قابلیت مهم دیگر، تحلیل و تجزیه یک کلمه به حالات مختلف پیشوندی، میانوندی و پسوندی معتبر است که هر کدام از این حالت ها، شامل مقادیر ممکن به ازای فیلدهای صرفی مختلف مثل: وزن، ریشه و سرواژه می باشد. به دلیل مبتنی بودن بر قواعد صرفی، برنامه می تواند انواع مختلف متون عربی با موضوعات گوناگون قرآنی، فقهی، سیاسی یا اجتماعی را با دقت بالایی تحلیل کند. به طور دقیق تر، این سامانه زیربنای پردازش های مورد نیاز، اعم از: تحلیل نحوی، معنایی، خلاصه سازی و ترجمه ماشینی روی متون عربی را فراهم می نماید.

منتشرشده در فصلنامه شماره 49 (زمستان 1393)

ادامه مطلب

سه شنبه, 31 خرداد 1390 ساعت 14:58

وضعیت موجود خلاصه‌سازی خودکار متون فارسی

چکیده

با گسترش روزافزون حجم اطلاعات، نیاز به سیستم‌های کامپیوتری جهت پردازش و تحلیل اطلاعات بیشتر احساس می‌شود. از آنجا که درصد قابل توجهی از اطلاعات تولید شده به صورت متنی غیر ساختار یافته(1) و نیمه‌ساختار یافته(2) است، سیستمی که بتواند این اطلاعات را تحلیل و پردازش کند، به‌شدت مورد توجه قرار خواهد گرفت. یکی از انواع سیستم‌هایی که در تحلیل و پردازش متون وجود دارد، سیستم‌های خلاصه‌ساز متن(3) است که حجم زیادی از متن را دریافت نموده و بر اساس الگوریتم‌ها و تکنیک‌های مختلف، آن را خلاصه می‌نماید. این مقاله به معرفی فرآیند خلاصه‌سازی متون فارسی می‌پردازد.

منتشرشده در فصلنامه شماره 34 (بهار 1390)

ادامه مطلب

سه شنبه, 31 خرداد 1390 ساعت 14:58

‌‌برچسب‌گذاری ادات سخن متون فارسی به کمک مدل مخفی مارکوف

چکیده

در این مستند، به یکی از دغدغه‏ های بزرگ در زمینه زبان‏شناسی محاسباتی(1) با نام برچسب‏گذاری ادات سخن (part of speech tagging) پرداخته شده است. برچسب‏گذاری ادات سخن که یکی از پایه‏ای‏ترین نیازهای پردازش هوشمند متن به شمار می‏آید، وابسته به زبان متن مورد پردازش است. از این رو، فراهم شدن برچسب‏گذاری قوی برای زبان فارسی، جزو اولویت‌های کار ما قرار گرفت. تکنیک مورد کاربرد ما برای حل این مسأله، استفاده ازمدل مخفی مارکوف(2) بوده است. این تکنیک در بسیاری از شیوه‏ های برچسب‏گذاری به کاربرده می‏شود؛ برای نمونه، در برچسب‏گذار TNT[2] که یکی از قوی‌ترین برچسب‏گذارها در زبان‏های مختلف است[4, 5, 8]. طبق آزمایش‌های انجام شده ما، با استفاده از این برچسب‏گذار می‏توان با دقت 94.3% برچسب گونه صرفی کلمات فارسی را مشخص نمود.

منتشرشده در فصلنامه شماره 34 (بهار 1390)

ادامه مطلب

سه شنبه, 31 خرداد 1390 ساعت 14:57

ویراستیار؛ مطالعۀ تطبیقی یک فعالیت پردازشی متن‌باز در زبان فارسی

اشاره

نرم‌افزار «ویراستیار»، یک خطایاب املایی متن‌باز (open source) فارسی است که نسخۀ اول آن در زمستان سال گذشته عرضه شد و به کاربر خود این امکان را می‌دهد که متن نگاشته شدۀ فارسی در محیط مایکروسافت وُرد را اصلاح کند. اگر چه این نرم‌افزار هنوز هم در حال توسعه و تجدید ویراست است و از زمان رونمایی آن در زمستان 1389 تاکنون، به ویژگی‌ها و قابلیت‌های آن افزوده شده است، اما نهاد توسعه دهندۀ آن، یعنی دبیرخانۀ شورای عالی اطلاع‌رسانی ترجیح داده است تا آن را به صورت متن باز عرضه کند تا باب هم‌افزایی در این حوزه را باز کند.

منتشرشده در فصلنامه شماره 34 (بهار 1390)

ادامه مطلب

سه شنبه, 31 خرداد 1390 ساعت 14:57

رده‌بندی متون فارسی با استفاده از روش‌های آماری

چکیده

در این گزارش، سعی شده است تا یکی از تکنیک‌های موفق در زمینه رده‌بندی متون را برای متون فارسی به کار بندیم. به عنوان تعریفی ساده از رده‌بندی متون، می‌توان روند شناسایی رده یا طبقه یک متن ناشناخته را بیان نمود. در این روش ما با استفاده از روش رده‌بندی K نزدیک‌ترین همسایه(1) و دو معیار فاصله متون، آزمایش‌های خودمان را انجام داده‌ایم. یکی از این دو معیار، الگو گرفته از نوعی رده‌بندی متون زبان عربی[4]‌ بوده و دیگری، معیار ترکیبی تولید شده خودمان است. مجموعه آزمایش‌ها بر روی پیکره همشهری[1] است. این دو نوع فاصله‌سنجی، هر کدام با الگوریتم نزدیک‌ترین همسایه ترکیب شده و رده‌بند 1 تا 20 نزدیک‌ترین همسایه را برای آزمایش‌های ما آماده کرده‌اند. نتایج ما نشان می‌دهد که این روش می‌تواند با دقت(2) 89% عمل رده‌بندی را انجام دهد.

منتشرشده در فصلنامه شماره 34 (بهار 1390)

ادامه مطلب

سه شنبه, 31 خرداد 1390 ساعت 14:57

کنکاشی در الگوریتم های خطایابی

چکیده

خطایابی،(1) شامل دو بخش اصلی است: بخش اول، بهره‌گیری از یک واژه نامه(2) است و بخش دوم، مجموعه‏ ای از الگوریتم‏ ها و شگردها(Techniques) می‏باشد که این واژه ‏نامه برای خطایابی استفاده می‏کند. این شگردها‏ به سه دسته‏ اصلی تقسیم می‏شود: 1. جستجو در واژه‏ نامه؛ 2. یافتن لغت صحیح جایگزین در واژه ‏نامه؛ 3. رتبه‌بندی اصلاحات.

منتشرشده در فصلنامه شماره 34 (بهار 1390)

ادامه مطلب

سه شنبه, 31 خرداد 1390 ساعت 14:57

جستجوی هوشمند عبارات قرآنی در متون دیجیتال

چکیده

برجسته کردن عبارات قرآنی در متون مکتوب - چه با تغییر در نوع نوشتار و چه با استفاده از علائم ویرایشی - موضوعی است که قرن‌ها مورد توجه مؤلفان، نسخه‌برداران و ناشران قرار گرفته است. همچنین، فهرست‌برداری از این عبارات و درج آنها به صورت آماری در بخش پایانی کتب نیز در تألیفات دهه‌های اخیر متداول بوده است. مرکز تحقیقات کامپیوتری علوم اسلامی، طی بیش از دو دهه فعالیت خود تلاش نموده تا محوریت قرآن و حدیث را در نرم‌افزارهای تولیدی حفظ نماید که این تلاش‌ها ابتدا تفاوت چندانی با مدل مکتوب نداشته است؛ اما به مرور زمان روش‌های ابتکاری نوینی برای سرعت و دقت بیشتر به کار گرفته شده که آخرین آنها طرح «جستجوی هوشمند عبارات قرآنی در متون دیجیتال» می‌باشد.

منتشرشده در فصلنامه شماره 34 (بهار 1390)

ادامه مطلب

سه شنبه, 31 خرداد 1390 ساعت 14:56

مروری بر نرم افزار هوشمند صرف

مقدمه اول‌: با بررسی کوتاهی در طول زندگانی انسان‌ها می‌فهمیم که همیشه نیاز‌ها‌، علت ساخت ابزار‌ها بوده است‌. نقاط ضعف و مشکلات حل نشدنی‌، انسان‌ها را واداشته که از نیروی خدادادی تفکر استفاده کنند و راه حل‌هایی برای رفع آن بیابند‌. همین روند، صاحب نظران را به این رساند که «نیاز، عامل ایجاد علوم بود»‌.

منتشرشده در فصلنامه شماره 34 (بهار 1390)

ادامه مطلب

سه شنبه, 31 خرداد 1390 ساعت 14:56

امکان سنجی برچسب گذاری ادات سخن متون عربی در لایه نحو؛ قوانین سیستم تشخیص معطوف و معطوف علیه «واو»

مقدمه

موضوع گرامر زبان (نحو)، یکی از موضوعاتی است که در پردازش زبان طبیعی مورد توجه قرار می‌گیرد. گرامر زبان، یعنی بررسی چینش کلمات و نقش هر واژه در کنار سایر واژگان. از مهم‌ترین موضوعاتی که می‌توان در گرامر زبان مطرح کرد، بحث عطف است. عطف، به منزله مفصلی است که قسمتی از عبارت پس از خود را به قبل آن مربوط می‌سازد. یکی از دلایلی که بررسی عطف را در اولویت قرار می‌دهد، میزان استفاده و فراوانی آن در متون است. مشخص شدن رابطه کلمه پس از حرف عطف با پیش از آن، هم به پیدا کردن نقش کلمه پس از حرف عطف کمک کرده و هم در مرحله‌های بعدی به یافتن رابطه معنایی جملات کمک خواهد کرد.

منتشرشده در فصلنامه شماره 34 (بهار 1390)

ادامه مطلب

ره آورد نور

پردازش میراث حدیثی شیعه

تحلیلگر هوشمند صرفی نور

وضعیت موجود خلاصه‌سازی خودکار متون فارسی

‌‌برچسب‌گذاری ادات سخن متون فارسی به کمک مدل مخفی مارکوف

ویراستیار؛ مطالعۀ تطبیقی یک فعالیت پردازشی متن‌باز در زبان فارسی

رده‌بندی متون فارسی با استفاده از روش‌های آماری

کنکاشی در الگوریتم های خطایابی

جستجوی هوشمند عبارات قرآنی در متون دیجیتال

مروری بر نرم افزار هوشمند صرف

امکان سنجی برچسب گذاری ادات سخن متون عربی در لایه نحو؛ قوانین سیستم تشخیص معطوف و معطوف علیه «واو»

منوی اصلی

آخرين اخبار

سایر مقالات