کلمات کلیدی: صرف زبان عربی، یادگیری ماشین، اِعراب گذاری خودکار، برچسب ادات سخن.
مقدمه
پردازش زبان طبیعی، یکی از معروف ترین زمینه های علمی حال حاضر جهان به شمار می آید. این زمینه علمی، یکی از زیرشاخه های بااهمیت در حوزه گسترده علوم رایانه، هوش مصنوعی، و نیز دانش زبان شناسی محاسباتی است که به تعامل بین رایانه و زبان های (طبیعی) انسانی می پردازد. یکی از ویژگی های این علم، وابستگی آن به زبان مورد نظر است. ازاین رو، لازم است برای هر زبان، تحقیقات خاصی صورت گیرد. زبان عربی، یکی از زبان های اجتماعی پُرکاربرد با زبان شناسی متفاوت از زبان های هندی اروپایی محسوب می گردد.[1] این زبان داری قواعد صرفی غنی است که نه تنها صرف فعل، بلکه واژک هایی همچون: ضمیر، ترکیب عطفی و حروف جر را نیز داراست.[2] پردازش زبان طبیعی این زبان، مشکلات فراوانی را به همراه دارد؛ زیرا دارای تحلیل صرفی پیچیده است.[3] تحلیل صرفی یک کلمه، به معنای تعیین تعداد بسیاری از ویژگی هاست که از جمله آن، برچسب ادات سخن (برای نمونه: فعل، اسم و حرف)، معلوم و مجهول، جنسیت، تعداد و اطلاعات در خصوص هریک از قطاع های کلمه است. فهرست ویژگی هایی را که تحلیلگر صرفی نور به عنوان خروجی می دهد، می توان کامل ترین نمونه از این ویژگی ها دانست. فهرست ذیل، ویژگی های مختلف خروجی این تحلیلگر را نشان می دهد:
پژوهش حاضر، یکی از قوی ترین شیوه های رفع ابهام تحلیلگر صرفی زبان عربی را ارائه کرده که اسم آن NoorMD (Noor Morphological Disambiguation) است. این شیوه، از تحلیلگر صرفی نور (NoorMA) به عنوان تحلیلگر خود بهره برده، مراحل متعددی را برای رفع ابهام خروجی این تحلیلگر به کار می برد. ابهام موجود در خروجی تحلیلگرها، یک امر طبیعی برای آنهاست. ابهام در خروجی یک تحلیلگر، به این معناست که کلمه مورد پرسش، دارای کاربردها و معانی مختلف و به تبع تحلیل های مختلف است؛ برای نمونه، کلمه «فحکم» را در نظر بگیرید. این کلمه، در کاربردهای مختلف، هم به صورت اسم و هم به صورت فعل دیده شده است. جدول ذیل، چند نمونه از 201 پاسخ مختلف NoorMA برای این کلمه را نشان می دهد.
شیوه ابداعی این تحقیقات، تاکنون بهترین نتایج را در زمینه رفع ابهام صرف زبان عربی به ثبت رسانیده است. علاوه بر این، باتوجه به پوشش بسیار قوی NoorMA، ویژگی های متعددی از صرف کلمات عربی به عنوان خروجی ارائه می گردد که این سطح از جزئیات، در نوع خود بی نظیر است. در ادامه، توضیح بیشتری نسبت ساختار شیوه پیشنهادی این تحقیقات ارائه شده است. ازاین رو، طی چهار محور، به بحث و بررسی در این باره می پردازیم:
کارهای مرتبط، الگوریتم پیشنهادی، ارزیابی الگوریتم پیشنهادی و نتیجه گیری.
کارهای مرتبط
تحقیقات بسیاری در گذشته برای برچسب گذاری ادات سخن و تحلیل صرفی زبان عربی صورت گرفته است. این تحقیقات را می توان از چند جنبه تقسیم بندی نمود؛ یکی از تقسیم بندی های ممکن برای آن، از لحاظ انواع زبان عربی است. عربی استاندارد مدرن و عربی مصری، دو نوع زبان عربی است که بیشتر در تحقیقات گذشته به آن پرداخته شده است. برخی از تحقیقات گذشته، تمرکز خود را روی برچسب گذاری ادات سخن عربی استاندارد مدرن گذاشته اند ([4][5][3]) و همچنین برخی روی عربی مصری متمرکز شده اند ([4][6]). متناسب با هریک از این نوع ها، پیکره هایی نیز انتشار یافته که سعی شده پوشش خوبی روی آن نوع باشد؛ برای نمونه، پیکره Penn Arabic Tree Bank را می توان یکی از معروف ترین پیکره ها در رده عربی استاندارد مدرن دانست. [7] این پیکره، از چهار بخش تشکیل شده که در دو سطح بر روی کلمات این پیکره غنی سازی صورت گرفته است؛ سطح اوّل، به برچسب ادات سخن کلمات مربوط است. در برچسب ادات سخن این پیکره، متن به واحدهای لغوی شکسته شده و به ازای هر واحد، ویژگی های همچون: زمان، معلوم و مجهول و جنسیت مشخص شده است. سطح دوم، به بانک درخت عربی مربوط است. پیکره ای شبیه به Penn Arabic Treebank برای زبان مصری با نامEgyptian Arabic Treebank توسعه یافته که عمده تحقیقات مرتبط به این موضوع در این نوع از زبان عربی روی آن صورت گرفته است. [8]
یکی دیگر از جنبه های رده بندی کارهای گذشته در زمینه برچسب گذاری ادات سخن عربی، به نوع متون از لحاظ زمانی مرتبط است. برخی کارهای گذشته، تمرکز خود را روی متون قدیمی گذارده اند و در این راستا، اقدام به توسعه برچسب گذار و تحلیلگر صرفی نموده اند. این تحقیقات از لحاظ نوع متون مورد بحث، بیشترین شباهت را با پژوهش های ما دارد. Elhadj و همکارانش، از ترکیب Hidden Markov Model و تحلیلگر صرفی برای برچسب گذاری ادات سخن متونی از صده سوم هجری بهره برده اند. آزمایش های این تحقیقات روی پیکره ای از کتاب ALJAHEZ صورت گرفته که این پیکره در مجموع 56312 کلمه دارد. نتایج ارزیابی آنها در شرایطی که ۱۳ برچسب ادات سخن را به عنوان خروجی می دهند، ۹۶٪ دقت دارد. نکته قابل توجه این است که Elhadj و همکارانش با هدف تحلیل و تفسیر قرآن، اقدام به این تحقیقات نموده اند. در ادامه، این پژوهش ها برای ارزیابی روشی پیشنهادی شان روی قرآن، آن را روی هفت شعر از کتاب AL-Fatiha آزمایش نموده اند که نتایج اولیه آنها، دقت ۹۴٪ را نشان می دهد.
رده بندی دیگری را که می توان برای تحقیقات گذشته در زمینه برچسب گذاری ادات سخن عربی دانست، نوع برچسب گذار استفاده شده برای این کار است. در پژوهش های گذشته، از روش های HMM، CRF، Memory base tagger، Genetic Algorithm و SVM استفاده شده که همین روش ها را می توان رده های مختلف برچسب گذارها از لحاظ معماری برچسب گذارها دانست. تعداد بسیاری از تحقیقات گذشته، از HMM به عنوان یکی از معروف ترین الگوریتم های Sequence labeling بهره برده اند. از جمله این تحقیقات، روش پیشنهادی [9] است. Ali و همکارانش از الگوریتم GA بهره برده اند. [10]
الگوریتم پیشنهادی
در این بخش، جزئیات الگوریتم پیشنهادی این تحقیقات ارائه گردیده و به طور مفصل، در خصوص هریک از اجزای آن صحبت می شود. در حقیقت، الگوریتم پیشنهادی این تحقیقات، از معماری منحصربه فردی استفاده می کند که هریک از اجزای الگوریتم پیشنهادی در آن نمودی دارند. در این معماری که شکل زیر آن را به تصویر کشیده، ورودی رشته ای از کلمات است (w1 w2 w3 w4 w5) که کلمه مورد پرسش در میانه آن قرار دارد. استفاده از پنجره پنج کلمه ای که کلمه مورد نظر در میان آن قرار گرفته، در بسیاری از تحقیقات پردازش زبان طبیعی مشاهده می گردد؛ [11][12] علت آن نیز تعادل خوب میان کیفیت و سرعت فعالیت های پردازش زبان طبیعی روی این اندازه از پنجره است. در انتهای این معماری، تحلیل های صرفی کلمه مورد نظر برحسب کیفیت مرتب شده و به عنوان خروجی ارائه می گردد. در ادامه، هر یک از مراحل این معماری توضیح داده شده است.- داده آموزشی دارد؟
اولین مرحله از الگوریتم پیشنهادی، تشخیص حضور کلمه مورد نظر در داده گان آموزشی است. این مرحله، ظاهری ساده دارد؛ اما در درون خود روال نسبتاً پیچیده ای را طی می کند. در این مرحله، با توجه به اینکه دادگان آموزشی این تحقیقات دارای اعراب است، ابتدا کلمه ورودی توسط موتور اعراب نور، اعراب گذاری می گردد. این موتور که از پیکره اعراب نور استفاده کرده، کیفیت بسیار بالایی در تشخیص اعراب صحیح کلمات دارد.[13] استفاده از این موتور، یکی از مهم ترین مراحل الگوریتم پیشنهادی به شمار می آید. علت این استفاده، وابستگی شدید ابهام صرفی به اعراب دار بودن یا نبودن کلمات است. در حقیقت، بسیاری از ابهام کلمات در زبان عربی با به دست آوردن اعرابِ صحیح کلمه از بین می رود. آزمایش های این تحقیقات نشان می دهد که در صورت بدون اعراب بودن کلمات، صرف آنها به طور میانگین دارای 51 جواب مختلف است؛ در صورتی که پس از اعراب گذاری، این تعداد به سه جواب کاهش می یابد. این آزمایش روی 5000 کلمه از پیکره نور صورت گرفته است که عمده آنها، از کتاب الکافی نمونه بردای گردیده است.
- نمونه های آموزشی
در این مرحله، پاسخ های متناظر با کلمه ای که نمونه آموزشی برای آن وجود دارد، از داده های آموزشی بیرون کشیده می شود. در شرایطی که یک کلمه دارای داده آموزشی باشد، می توان گفت که تحلیل های آمده در داده آموزشی، همان تحلیل های ممکن آن کلمه است. در حقیقت، بسیاری از تحلیل هایی که یک تحلیلگر صرفی به عنوان خروجی می دهد، کاربردی نیستند. ازاین رو، در نظر نگرفتن آنها، به کاهش ابهام کمک بسیاری می کند. بنابراین، در این تحقیقات در شرایطی که کلمه دارای نمونه آموزشی باشد، دیگر به موتور تحلیلگر مراجعه نمی گردد.
- موتور صرف
بخشی از کلمات ورودی را نمی توان در داده های آموزشی پیدا نمود. این نوع از کلمات، به عنوان کلمات خارج از لغت نامه OOV (Out Of Vocabulary) یا کلمات ناشناخته (Unknown Word) شناخته می شوند. تحلیل این کلمات نسبت به کلماتی که در دادگان آموزشی هستند، مشکل تر است. علت آن هم، نبود یک توزیع احتمال میان تحلیل های مختلف ممکن برای این کلمات است. ازاین رو، چنین کلماتی در الگوریتم پیشنهادی به تحلیلگر صرفی ارجاع داده شده و تمامی جواب های این تحلیلگر، به عنوان یک تحلیل قابل قبول در نظر گرفته می شود. همان طور که گفته شد، در شرایطی که اعراب برای کلمه وجود نداشته باشد، به طور میانگین، هر کلمه ۵۱ آنالایز مختلف خواهد داشت؛ حتی در حالت وجود اعراب، باز هم به طور میانگین، هر کلمه سه تحلیل مختلف خواهد داشت. این سطح از ابهام کار، تشخیص پاسخ صحیح را برای کلمات OOV سخت کرده است. برای مقایسه با حالتی که کلمه درون دادگان آموزشی قرار گرفته، میزان ابهام را بیشتر توضیح می دهیم.
در شرایطی که کلمه درون پیکره آموزشی قرار گرفته باشد، احتمال اینکه تحلیل های مختلفی برای آن یافت گردد، کم است. آمارهای این تحقیقات نشان می دهد، برای هر کلمه به طور میانگین ۱.۵ پاسخ متفاوت در پیکره آموزشی حضور دارد. این در حالی است که کلمه ای که به تحلیلگر فرستاده می شود، به طور میانگین 51 پاسخ خواهد داشت. گفتنی است که در این آزمایش، کلمات بدون اعراب در نظر گرفته شده اند.
- خروجی مبهم
این مرحله با بررسی پاسخ های آمده از مراحل دوم و سوم، در صورت عدم ابهام و تک جوابی بودن، پاسخ رسیده را به خروجی می فرستد. در شرایطی وجود ابهام نیاز به رفع ابهام خروجی هاست. ازاین رو، مراحلی طراحی شده که سطح به سطح، سعی در رفع ابهام میان پاسخ ها و رسیدن به بهترین ترتیب خروجی ها دارد. در ابتدای این مراحل، به هر پاسخ، یک مقدار کیفیت متصل شده و در طی مراحل، این کیفیت دست خوش تغییرات می گردد. در ابتدا کیفیت تمام پاسخ ها برابر با یک است و به مرور، پاسخ های ضعیف تر دچار افت کیفیت می شود.
- تقطیع مبهم
ابهام تقطیع، به معنای ابهام در شیوه جداسازی پیشوندها، میانوند و پسوندهاست. مثالی از این ابهام را می توان در جدول مرتبط با کلمه «فحکم» مشاهده نمود (فحکم: ف حکم/ فح کم). در حقیقت، در صورت ابهام در پاسخ های ممکن برای یک کلمه، ابهام موجود در تقطیع های مختلف آن کلمه، اساسی ترین ابهام آن به حساب می آید. پس، در این مرحله کلماتی که علاوه بر ابهام در پاسخ ها، دارای ابهام تقطیع هم هستند، جدا شده و به مرحله ششم که رفع ابهام تقطیع است، ارجاع داده می شود. کلماتی نیز که ابهام آنها در سطح تقطیع نیست، به بخش رفع ابهام ویژگی ها ارسال می گردد. ویژگی هایی که مرتبط با رفع ابهام تقطیع هستند، عبارت اند از: Entry، Slice و Seq. این ویژگی ها، در بخش رفع ابهام ویژگی ها وجود ندارند. در حقیقت، ویژگی هایی که مرتبط با قطعه بندی کلمه هستند، در بخش رفع ابهام تقطیع می شوند و سایر ویژگی ها در بخش رفع ابهام ویژگی ها، مورد بررسی قرار می گیرند.
- رفع ابهام تقطیع
در این بخش، تقطیع های ممکن کلمه ورودی به ترتیب کیفیت مرتب می شوند. این کار، تأثیر بسیاری در رفع ابهام خروجی تحلیلگرهای صرفی دارد. بسیاری از ابهام ها در ویژگی های مختلف، به علت ابهام در تقطیع است. در حقیقت، با شناسایی تقطیع صحیح کلمه، بسیاری از ویژگی های مبهم رفع ابهام می گردند. در این بخش، ابتدا شبیه ترین کلمات موجود در پیکره رفع ابهام نور برای کلمه مورد پرسش فهرست شده، سپس با استفاده از رده بند نزدیک ترین همسایه، بهترین تقطیع انتخاب می گردد.
- رفع ابهام ویژگی ها
بزرگ ترین قسمت الگوریتم پیشنهادی پس از رفع ابهام تقطیع، رفع ابهام ویژگی است. تمامی کلماتی که ابهام دارند، به این مرحله ارسال شده، سپس به خروجی می روند. نقش این مرحله، از دو جهت پر رنگ می شود؛ ابتدا اینکه با وجود رفع ابهام تقطیع، همچنان ابهام بسیاری در پاسخ های منطبق با بهترین تقطیع وجود دارد. از طرفی، اشتباه مرحله رفع ابهام تقطیع، در تشخیص تقطیع برتر می تواند در این مرحله و به کمک رفع ابهام ویژگی ها خنثا گردد.
همان طور که پیش از این اشاره شد، موتور صرف به طور میانگین برای هر کلمه، 51 پاسخ متفاوت دارد. آمارهای گرفته شده در این تحقیقات نشان می دهد که ابهام موجود در پاسخ های منطبق بر هر تقطیع نیز بالاست. طبق این آمارها، به ازای هر تقطیع به صورت میانگین، 35 پاسخ متفاوت توسط موتور صرف نور تولید می گردد. ازاین رو، حتی با وجود تشخیص تقطیع صحیح کلمه، همچنان ابهام بالایی در پاسخ ها وجود داشته، نیاز به رفع ابهام دقیق تر به خوبی احساس می گردد.
ارزیابی روش پیشنهادی
ارزیابی روش پیشنهادی، روی بخشی از پیکره نور انجام گرفته است. در این روش، 10 درصد این پیکره به صورت تصادفی انتخاب گردیده و به عنوان اطلاعات، ارزیابی و سایر داده ها به عنوان داده آموزشی مورد استفاده قرار گرفته است. نتایج ارزیابی ها نشان می دهد که رفع ابهام هوشمند قادر است با دقت 99.۲٪ اسم، فعل یا حرف بودن کلمه را تشخیص دهد. دقت این سیستم در تشخیص ریشه کلمه، 98.6٪ بوده و پیراسته کلمه (حذف پیشوندها و پسوندها) را با دقت 98٪ به درستی تشخیص می دهد. در انتها، دقت کلی این سیستم، به ازای ترکیب تمام ویژگی ها کنار هم، یعنی تشخیص تحلیل کامل کلمات، برابر با 88٪ است.
نتیجه گیری
روش ارائه شده در این تحقیقات، یکی از برترین روش های رفع ابهام هوشمند زبان عربی محسوب می شود که با استفاده از داده های آموزشی بسیار غنی و فنون یادگیری ماشین، به دقتی بی نظیر در رفع ابهام هوشمند زبان عربی دست یافته است. این رفع ابهام، لازمه استفاده از موتور صرف زبان عربی به شمار می رود. کاربردهایی همچون: ریشه یابی و جست وجوهای مبتنی بر ریشه یابی، موتورهای جست وجو و مشابه یابی متون، برخی از کاربردهای ویژه رفع ابهام هوشمند هستند. چنین کاربردهای، هم اکنون در برخی پروژه های مرکز تحقیقات کامپیوتری علوم اسلامی نور مشاهده می شوند؛ برای نمونه، نرم افزار جامع الأحادیث علاوه بر جست وجوی سابق خود، در نسخه جدید از جست وجوی پیراسته کلمات نیز بهره می برد. جست وجوی پیراسته کلمات، به کاربر اجازه می دهد با جست وجوی یک کلمه، کلماتی را که با حذف و یا اضافه شدن پیشوند یا پسوندی به آن کلمه تولید شده اند نیز بیاید.
پی نوشت:منابع:
1. M. Diab, K. Hacioglu, and D. Jurafsky, "Automatic Tagging of Arabic Text: From Raw Text to Base Phrase Chunks," HLT-NAACL 2004 Short Pap., pp. 149–152, 2004.2. E. Mohamed and K. Sandra, "Arabic Part of Speech Tagging," Evaluation, pp. 2537–2543.
3. N. Habash and O. Rambow, "Arabic Tokenization, Part-of-Speech Tagging and Morphological Disambiguation in One Fell Swoop," ACL '05 Proc. 43rd Annu. Meet. Assoc. Comput. Linguist., pp. 573–580, 2005.
4. A. Pasha, M. Al-badrashiny, M. Diab, A. El Kholy, R. Eskander, N. Habash, M. Pooleery, O. Rambow, and R. M. Roth, "MADAMIRA : A Fast , Comprehensive Tool for Morphological Analysis and Disambiguation of Arabic," Proc. 9th Lang. Resour. Eval. Conf., pp. 1094–1101, 2014.
5. E. Mohamed, B. Mohit, and K. Oflazer, "Annotating and Learning Morphological Segmentation of Egyptian Colloquial Arabic," Proc. Eighth Int. Conf. Lang. Resour. Eval., pp. 873–877, 2012.
6. N. Habash, R. Roth, O. Rambow, R. Eskander, and N. Tomeh, "Morphological analysis and disambiguation for dialectal Arabic," Hlt-Naacl, no. June, pp. 426–432, 2013.
7. M. Maamouri and A. Bies, "Developing an Arabic treebank: methods, guidelines, procedures, and tools," Proc. Work. Comput. Approaches to Arab. Script-based Lang., pp. 2–9, 2004.
8. M. Maamouri, A. Biesa, T. Buckwalter, M. Diab, N. Habash, O. Rambow, and D. Tabessi, "Developing and Using a Pilot Dialectal Arabic Treebank," Proc. Fifth Int. Conf. Lang. Resour. Eval., pp. 443–448, 2006.
9. Y. O. Mohamed Elhadj and Y. O. M. Elhadj, "Statistical Part-of-Speech Tagger for Traditional Arabic Texts," J. Comput. Sci., vol. 5, no. 11, pp. 794–800, 2009.
10. B. Benali and F. Jarray, "Genetic Approach for Arabic Part of Speech Tagging," Int. J. Nat. Lang. Comput., vol. 2, no. 3, pp. 1–12, 2013.
11. K. Toutanova, D. Klein, and C. D. Manning, "Feature-rich part-of-speech tagging with a cyclic dependency network," Proc. 2003 Conf. North Am. Chapter Assoc. Comput. Linguist. Hum. Lang. Technol. - Vol. 1 (NAACL '03), pp. 252–259, 2003.
12. C. D. Manning, "Part-of-speech tagging from 97% to 100%: Is it time for some linguistics?," Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), vol. 6608 LNCS, no. PART 1, pp. 171–189, 2011.
13. A. Dastani, B. Minaei-bidgoli, M. R. Vafaei, and H. Juzi, "An Introduction to Noor Diacritized Corpus Diacritization," Lr. Work., no. table 3, pp. 13–17, 2012.