جمعه, 30 شهریور 1397 ساعت 16:24

شبکه ها و پردازش زبان طبیعی

اشاره

در طول چند سال گذشته، برخی از حوزه های پردازش زبان طبیعی کار خود را با به کارگیری فنون تصویرمبنا آغاز کرده اند. این حوزه ها در کنار سایر موارد، شامل: خلاصه سازی متن، تجزیه نحوی، عدم ابهام معنای کلمه، ایجاد هستی شناسی، تجزیه و تحلیل احساسات، تجزیه و تحلیل ذهنیت و خوشه بندی متن می باشد. در این مقاله، برخی از موفّق ترین بازنمون ها و الگوریتم های تصویرمبنا را که در پردازش زبان مورد استفاده قرار می گیرد، ارائه می دهیم و سعی می کنیم ساز و کار عمل آنها را شرح دهیم.

منتشرشده در فصلنامه شماره 63

چکیده

غنی سازی محتواهای علوم انسانی و اسلامی، از اهمیت ویژه ای برخوردار است. استفاده از شبکه واژگانی، از مهم ترین راهبردهای تحقیقاتی در رشته های مرتبط با علوم انسانی است. شبکه واژگانی، مجموعه ای از کلمات است که به واسطه ارتباطات معنایی به یکدیگر متصل شده و در سطحی جامع تر از یک لغت نامه در یادگیری یا استخراج اطلاعات مورد نیاز محققان کاربرد دارد. روند فعالیت در دستیابی خودکار به یک شبکه واژگانی منسجم، در گرو پردازش لفظی و پردازش معنایی بر اساس متن کاوی داده های عربی در منابع زبانی دقیق و مناسب است. استفاده از فرآیند ماشینی در هر یک از این مراحل پردازش و یافتن منابع عربی دقیق علوم اسلامی، با چالش های مختلفی رو به رو بوده که در این مقاله، به بررسی برخی جزئیات این طرح، به ویژه بر اساس دادگان موجود در مرکز تحقیقات کامپیوتری علوم اسلامی و روش مقابله با چالش ها پرداخته شده است.

منتشرشده در فصلنامه شماره 57
پنج شنبه, 27 اسفند 1394 ساعت 15:03

ابهام زدایی هوشمند صرفی نور

چکیده

یکی از چالش های پیش روی پردازش زبان طبیعی زبان عربی، رفع ابهام میان تحلیل های صرفی ممکن یک کلمه به تناسب جایگاه آن کلمه در جمله است. یک تحلیلگر صرفی، به ازای هر کلمه ورودی، ممکن است بیشتر از یک جواب صرفی داشته باشد. تشخیص اینکه کدام یک از تحلیل های ممکن، تحلیل صحیح کلمه مورد نظر است، توسط ابزارهای رفع ابهام صورت می گیرد. این مقاله، به یکی از قوی ترین ابزارهای رفع ابهام اشاره می کند که به صورت خاص، برای تحلیلگر صرفی نور (Noor Morphological Analyzer) طراحی شده است. این ابزار که ابهام زدای صرفی نور (Noor Morphological Disambiguation) نامیده شده، ترکیبی از الگوریتم های یادگیری و قاعده محور است. آزمایش های این تحقیق نشان می دهد که رفع ابهام صرفی نور می تواند با دقت 88 درصد خروجی های تحلیلگر صرفی نور را رفع ابهام نماید.

منتشرشده در فصلنامه شماره 53

چکیده

به دست آوردن سیر اشتقاق تصریف از ریشه تا کلمه، پیداکردن کلمات مرتبط و در نهایت، تشکیل خانواده کلمات مربوط به هم، شرایط مساعدی را برای محققان پردازش زبان طبیعی فراهم می کند تا بتوانند از مرحله لفظ به دامنه وسیع لغات هم معنا، آنتولوژی، شبکه معنایی، تحلیل محتوا و در نهایت، درک معنا قدم بگذارند. در این بین، ساخت درخت سلسله مراتبی کلمات مرتبط با هم از ریشه(صرفی) تا برگ(کلمات متن)، اهمیت بسزایی دارد. در این مقاله، به چندین فایده از فواید «تحلیلگر صرفی نور» اشاره شده است. بعضی از این موارد، عملیاتی شده و هم اکنون در حال استفاده هستند و بعضی دیگر نیز نزدیک به اجرا می باشند. از جمله این موارد، بهره برداری در شناسایی خودکار سیر اشتقاق تصریف و تشکیل درخت سلسله مراتبی می باشد. عناصر داخل این درخت، همگی توسط تحلیلگر صرفی نور تولید می گردند. بعد از آن، عملیات دسته بندی و در نهایت ایجاد درخت مذکور صورت می پذیرد. تمام مسیرهای موجود از برگ ها تا ریشه، موضوعیت دارند که در این نوشتار به چند فایده از آن اشاره شده است.

منتشرشده در فصلنامه شماره 53

اعراب گذاری متون عربی کار با سابقه ای است و پیشینه آن به صدر اسلام باز می گردد. مشهور این است که اصول نقطه گذاری واعراب قرآن را ابوالاسود دوئلی به دستور امام علی ابن ابیطالب پایه گذاری کرده است. با وجود اینکه عربی، زبان مادری عربها بوده است، ولی آنان بر درست نویسی و درست خوانی متن قرآن کریم اهتمام ویژه ای داشته اند و ائمه دین هم بر این مسئله تأکید می نموده اند؛ چنان که وقتی کسی قرآن را نزد امیر مؤمنان(ع) به غلط خواند، حضرت به ابوالاسود دوئلی دستور داد تا اصول نحو عرب را تدوین نماید، که با راهنمایی آن حضرت(ع) و به کوشش ابوالاسود پایه بنیادین و اصول نحو عرب شکل گرفت.

گفته می شود نخستین نظام اعراب گذاری که در نظر گرفته شد، عبارت از این بود که فتحه (زبر) با گذاردن یک نقطه بالای حرف، و کسره (زیر) باگذاردن یک نقطه زیر حرف، و ضمه (پیش) با گذاردن یک نقطه در داخل شکل حروف نشان داده و روی حرف ساکن نیز دو نقطه می گذاشتند. این اقدام اوّلین گام در پیدایش علم نحو و ادبیات عرب محسوب میشود.

منتشرشده در فصلنامه شماره 06
یکشنبه, 31 خرداد 1383 ساعت 14:37

پردازش میراث حدیثی شیعه

با وجود نیازهای نوشونده و مسئولیت آور در روزگار جدید، همچنان اولویت نخست، حفظ پیوند میان اصیل قدیم و نیاز نوین روز است. بی گمان گسست از سنت قویم قدیم، جدایی از آینده و ماندگاری در زمانه ای است که هر چیزی را از میدان روزگار بیرون می راند و نیست و نابود می سازد. کسی که در حال نتواند میان سنت ها و تجددها پیوند منطقی و استوار برقرار نماید، در آینده نیز نمی تواند در عرصه جهانی ماندگار باشد؛ چرا که در جهان متحول و متغیر، پدیده ای باقی می ماند که بتواند سنت ها را با نیازها و الزامات اجتماعی و تحولات عصر خو پیوند زند. برآیند این پیوند حضور و کارکردی مثبت است که ماندگاری مطلوب را برای آینده ضمانت می کند.

منتشرشده در فصلنامه شماره 06
پنج شنبه, 28 اسفند 1393 ساعت 15:37

تحلیلگر هوشمند صرفی نور

چکیده

در این مقاله قصد داریم به بررسی «تحلیلگر صرفی نور» که برنامه هوشمند پردازش صرفی زبان عربی است، بپردازیم. این سامانه، کلمات عربی را حتی الامکان با استفاده از قواعد معتبر زبان عربی تجزیه و تحلیل می کند و در صورت نیاز با حداقل استفاده از بانک های اطلاعاتی تعبیه شده در داخل سامانه، نتایج حاصل را به عنوان حالات معتبر مختلف صرفی برای هر کلمه ارائه می نماید.

ورودی این برنامه، یک فایل متنی زبان عربی و خروجی آن نیز یک فایل از نوع ایکس. ام. ال می باشد. از جمله قابلیت های مهم این سامانه، توانایی تحلیل متون، اعم از با اِعراب یا بدون اعراب است. قابلیت مهم دیگر، تحلیل و تجزیه یک کلمه به حالات مختلف پیشوندی، میانوندی و پسوندی معتبر است که هر کدام از این حالت ها، شامل مقادیر ممکن به ازای فیلدهای صرفی مختلف مثل: وزن، ریشه و سرواژه می باشد. به دلیل مبتنی بودن بر قواعد صرفی، برنامه می تواند انواع مختلف متون عربی با موضوعات گوناگون قرآنی، فقهی، سیاسی یا اجتماعی را با دقت بالایی تحلیل کند. به طور دقیق تر، این سامانه زیربنای پردازش های مورد نیاز، اعم از: تحلیل نحوی، معنایی، خلاصه سازی و ترجمه ماشینی روی متون عربی را فراهم می نماید.

منتشرشده در فصلنامه شماره 49

چکیده

با گسترش روزافزون حجم اطلاعات، نیاز به سیستم‌های کامپیوتری جهت پردازش و تحلیل اطلاعات بیشتر احساس می‌شود. از آنجا که درصد قابل توجهی از اطلاعات تولید شده به صورت متنی غیر ساختار یافته(1) و نیمه‌ساختار یافته(2) است، سیستمی که بتواند این اطلاعات را تحلیل و پردازش کند، به‌شدت مورد توجه قرار خواهد گرفت. یکی از انواع سیستم‌هایی که در تحلیل و پردازش متون وجود دارد، سیستم‌های خلاصه‌ساز متن(3) است که حجم زیادی از متن را دریافت نموده و بر اساس الگوریتم‌ها و تکنیک‌های مختلف، آن را خلاصه می‌نماید. این مقاله به معرفی فرآیند خلاصه‌سازی متون فارسی می‌پردازد.

منتشرشده در فصلنامه شماره 34

چکیده

در این مستند، به یکی از دغدغه‏ های بزرگ در زمینه زبان‏شناسی محاسباتی(1) با نام برچسب‏گذاری ادات سخن (part of speech tagging) پرداخته شده است. برچسب‏گذاری ادات سخن که یکی از پایه‏ای‏ترین نیازهای پردازش هوشمند متن به شمار می‏آید، وابسته به زبان متن مورد پردازش است. از این رو، فراهم شدن برچسب‏گذاری قوی برای زبان فارسی، جزو اولویت‌های کار ما قرار گرفت. تکنیک مورد کاربرد ما برای حل این مسأله، استفاده ازمدل مخفی مارکوف(2) بوده است. این تکنیک در بسیاری از شیوه‏ های برچسب‏گذاری به کاربرده می‏شود؛ برای نمونه، در برچسب‏گذار TNT[2] که یکی از قوی‌ترین برچسب‏گذارها در زبان‏های مختلف است[4, 5, 8]. طبق آزمایش‌های انجام شده ما، با استفاده از این برچسب‏گذار می‏توان با دقت 94.3% برچسب گونه صرفی کلمات فارسی را مشخص نمود.

منتشرشده در فصلنامه شماره 34

اشاره

نرم‌افزار «ویراستیار»، یک خطایاب املایی متن‌باز (open source) فارسی است که نسخۀ اول آن در زمستان سال گذشته عرضه شد و به کاربر خود این امکان را می‌دهد که متن نگاشته شدۀ فارسی در محیط مایکروسافت وُرد را اصلاح کند. اگر چه این نرم‌افزار هنوز هم در حال توسعه و تجدید ویراست است و از زمان رونمایی آن در زمستان 1389 تاکنون، به ویژگی‌ها و قابلیت‌های آن افزوده شده است، اما نهاد توسعه دهندۀ آن، یعنی دبیرخانۀ شورای عالی اطلاع‌رسانی ترجیح داده است تا آن را به صورت متن باز عرضه کند تا باب هم‌افزایی در این حوزه را باز کند.

منتشرشده در فصلنامه شماره 34
صفحه1 از3
شما اينجا هستيد:خانه نمایش موارد بر اساس برچسب: پردازش هوشمند متن