شناسایی خودکار سیر اشتقاق کلمات در زبان عربی

پنج شنبه, 27 اسفند 1394 ساعت 15:02
    نویسنده: سید محمد دانش* این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید
این مورد را ارزیابی کنید
(1 رای)

چکیده

به دست آوردن سیر اشتقاق تصریف از ریشه تا کلمه، پیداکردن کلمات مرتبط و در نهایت، تشکیل خانواده کلمات مربوط به هم، شرایط مساعدی را برای محققان پردازش زبان طبیعی فراهم می کند تا بتوانند از مرحله لفظ به دامنه وسیع لغات هم معنا، آنتولوژی، شبکه معنایی، تحلیل محتوا و در نهایت، درک معنا قدم بگذارند. در این بین، ساخت درخت سلسله مراتبی کلمات مرتبط با هم از ریشه(صرفی) تا برگ(کلمات متن)، اهمیت بسزایی دارد. در این مقاله، به چندین فایده از فواید «تحلیلگر صرفی نور» اشاره شده است. بعضی از این موارد، عملیاتی شده و هم اکنون در حال استفاده هستند و بعضی دیگر نیز نزدیک به اجرا می باشند. از جمله این موارد، بهره برداری در شناسایی خودکار سیر اشتقاق تصریف و تشکیل درخت سلسله مراتبی می باشد. عناصر داخل این درخت، همگی توسط تحلیلگر صرفی نور تولید می گردند. بعد از آن، عملیات دسته بندی و در نهایت ایجاد درخت مذکور صورت می پذیرد. تمام مسیرهای موجود از برگ ها تا ریشه، موضوعیت دارند که در این نوشتار به چند فایده از آن اشاره شده است.

کلیدواژگان: تحلیلگر صرفی، اشتقاق تصریف، درخت ارتباط معنایی، پیراسته سازی.

مقدمه

تحلیل صرفی و نحوی، از جمله تحلیل های مهم و پایه ای هستند که در بسیاری از پردازش های متنی زبان عربی مورد استفاده قرار می گیرند. تحلیل صرفی نیز خود در تحلیل نحوی به طور گستره مورد استفاده قرار می گیرد و به همین دلیل، در زبان عربی تحلیل صرفی، از اهمیت بالایی برخوردار می باشد.

در حال حاضر، مرکز تحقیقات کامپیوتری علوم اسلامی از تحلیلگر صرفی نور برای نیازهای خود استفاده می کند. در ابتدای امر دستیابی به تمام حالات صرفی صحیح یک عبارت(کلمه) به عنوان هدف اولیه مطرح گردید؛ ولی به دلیل استفاده گسترده و فواید جانبی دیگری که بر این سامانه متصور است، بر آن شدیم تا در این مقاله به چند نمونه از این فواید اشاره نماییم که می توانند در پروژه های مرکز تحقیقات کامپیوتری علوم اسلامی و سرعت بخشی به بعضی از آنها مورد بهره برداری قرار گیرند. ارائه مجموعه کاملی از خصوصیات صرفی توسط برنامه، قابلیت بهره برداری های بیشتر را برای کاربردهای متفاوت فراهم می نماید. جداسازی پیشوندها و پسوندها، کمک به شناسایی اغلاط احتمالی متن، استفاده در تحلیل نحوی، شناسایی و پیشنهاد ریشه های احتمالی و نیز بهره برداری در سیر اشتقاق تصریف، از جمله این فواید می باشد که در ادامه به آنها اشاره می کنیم.

1. جداسازی (1) پیشوندها و پسوندها

پیراسته سازی(2)، یکی از عملیات های رایج و پرفایده در زمینه پردازش هوشمند متون می باشد که از اهمیت بالایی برخوردار است. یکی از خروجی های جنبی تحلیلگر صرفی نور، این است که قبل از اینکه وارد مرحله تحلیل صرفی عمیق کلمه شود، تمام حالات جداسازی پیشوندی و پسوندی را برای کلمه ورودی انجام داده، فهرست تمام حالات احتمالی را ارائه نماید. از آنجا که بعضی از پیشوندها و پسوندها میان اسم، فعل و حرف مشترک بوده و یا میان دو دسته از آنها مشترک هستند و از طرف دیگر، بعضی از آنها مخصوص یک دسته می باشد، در مرحله اولیه و بدون مشخص نمودن کاربر حالات ارائه شده توسط برنامه متنوع بوده و ممکن است کاربر به راحتی نتواند به حالت مورد نظر خود دست پیدا کند؛ اما اگر کاربر نوع کلمه را وارد نماید، این حالات به مراتب کاهش پیدا خواهد نمود.

بنا به وارد نمودن نوع تفکیک اسمی یا فعلی و همچنین عمق جداسازی، می توان به تفکیک دلخواه دست پیدا نمود. از این قابلیت علاوه بر جداسازی پیشوندها و پسوندها و دستیابی به میانوند مورد نظر، می توان در مواردی که کاربر قسمتی از کلمه ای را وارد می کند، بقیه حالات را به عنوان پیشنهاد و قبل از وارد نمودن به او ارائه نمود که در صورت موجود بودن میانوند مورد نظر، آن را انتخاب نموده، بدین صورت، عملیات وارد کردن کلمه سرعت بهتری پیدا کند و در صورت نادرست بودن قسمت وارد شده فعلی، آن را برایش اصلاح کرده، درست آن را جایگزین نمود. در شکل ذیل، تفکیک کلمه «فسیکفیکهم» نشان داده شده است که به کاربر در انتخاب کلمه مورد نظر کمک می کند.

با کمک قاعده مشهور «سألتمونیها» می توان پا را فراتر نهاده و حتی حروف «أتین» را از افعال و اسما جدا نمود تا دسته بندی های جامع تری داشته باشیم؛ برای مثال، کلمات «فیتقابل»، «یتقابله»، «بمقابل» و «مقابلک» را در نظر بگیرید که دوتای اول فعل و دو تای بعدی اسم می باشند. در مرحله اول، با جداسازی پیشوندها و پسوندها دو دسته با محوریت «یتقابل» و «مقابل» تشکیل می گردد که هر کدام هم دو کلمه از این چهار کلمه را پوشش می دهند؛ ولی اگر روند تفکیک را در سطح قاعده «سألتمونیها» ادامه دهیم، یک دسته با محوریت «قابل» تشکیل می گردد که هر چهار کلمه را درون خود جای داده است و به عبارت دیگر، با تجرید بیشتر می توانیم به یک میانوندی برسیم که جامعیت بیشتری داشته باشد. گفتنی است، از این قابلیت در موتور میانوند به شکل گسترده در ابزار ریشه مشتق استفاده شده است که با یک میانوند، حداکثر کلمات پوشش داده می شود و کاربر با انتخاب یک ریشه، ریشه مورد نظر را برای همه آنها انتخاب می نماید که در افزایش سرعت زدن ریشه تأثیر بسزایی دارد.

2. شناسایی اغلاط احتمالی (3) متن

از آنجا که روند تحلیل موتور صرف با فرض صحیح بودن کلمات موجود در متن ورودی صورت می پذیرد، به همین دلیل، اگر تحلیلگر صرفی نتواند برای کلمه ای جوابی ارائه نماید، فارغ از اینکه عدم وجود جواب ممکن است به جهت ضعف و نقص تحلیلگر صرفی باشد، خود می تواند با یک احتمال نسبتاً بالایی وجود اشتباه برای آن کلمه را بیان نماید. این اشتباه ممکن است از چند دسته مختلف: اشتباهات املایی(تایپی)، اشتباهات ساختاری(صرفی)، به هم چسبیدگی کلمات و از هم گسستگی اجزای یک کلمه باشد. کلمات با اشتباهات ساختاری مثل «انبطال» یا «توصیف»، از نظر زبان شناسی نیز دارای اهمیت بالایی است. از این قابلیت می توان به مقدار قابل توجه در تصحیح اغلاط متون استفاده نمود و روند تصحیح را سرعت بخشید.

3. استفاده در تحلیل نحوی

از آنجا که شناخت جایگاه کلمه از نظر نحوی، بر مشخص بودن شرایط صرفی کلمه مبتنی است، به همین دلیل، لازم است قبل از شروع نتیجه گیری های نحوی، از لحاظ صرفی عملیات شناسایی انجام شده باشد و به عبارت بهتر، تحلیل نحوی سرعت بهتری پیدا می کند؛ برای مثال، فاعل یا مفعول جمله حتماً باید اسم باشند و یا ترکیب اضافی جار و مجرور همیشه از یک حرف و اسم بعد از آن تشکیل می گردد. یکی دیگر از موارد پر تکرار در متن، ترکیبات مضاف و مضافٌ الیه می باشد که باید از دو اسم تشکیل گردد و یا شناسایی جملات فعلیه متوقف بر این است که جمله با فعل شروع گردد که همه اینها، از تحلیل صرفی استنتاج می گردد. در حال حاضر، از خروجی تحلیل صرفی در تحلیل نحوی قرآن کریم استفاده شده است که در نوع خود بی نظیر می باشد و در پایگاه متن نور قابل دسترسی می باشد.

ترکیب و تحلیل نحوی بسم الله الرحمن الرحیم

ترکیب و تحلیل نحوی بسم الله الرحمن الرحیم

4. شناسایی و پیشنهاد ریشه های احتمالی

یکی دیگر از قابلیت های تحلیلگر صرفی نور، استفاده در عملیات تعیین ریشه برای کلمات متن می باشد. روند کار این گونه است که می توان از ویژگی ریشه خروجی برنامه صرف به طور بسزایی در شناسایی ریشه کلمات بهره برد. این نیاز در خصوص کلمات معتل، مقلوب و یا مهموز، بیشتر خودنمایی می کند؛ چراکه در این نوع کلمات به دلیل اِعمال قواعد اعلال، مهموز، تخفیف، ادغام و ابدال، ساختار کلمه دستخوش تغییر و دگرگونی می شود. این امر باعث می گردد که تشخیص ریشه برای محقق مشکل گردد؛ برای مثال، کلمه «عاد» می تواند هر سه ریشه «عدد»، «عدو» و «عود» را داشته باشد و یا هر کدام از ریشه های «بور»، «برو»، «بری»، «بءر» و «برر» می تواند ریشه کلمه «بار» باشند که تشخیص بعضی از آنها برای کاربر یا مشکل بوده و بعضی دیگر هم حقیقتاً غیر قابل تشخیص هستند که در اینجا با کمک برنامه می توان تمام ریشه های احتمالی را پیدا کرده، به کاربر ارائه نمود. با داشتن تعداد تکرار ریشه های موجود، می توان ریشه های مستعمل و غیرمستعمل را برای هر کلمه در صورت تعدد ریشه مشخص کرد و از طرف دیگر، در صورت نقص ریشه های استعمالی، آن را ترمیم نمود.

5. کمک به موتور اِعراب (4)

از آنجا که موتور صرف قابلیت کار با متون با اعراب و بدون اعراب دارد، می توان از خروجی آن جهت اتقان و در عین حال، برطرف نمودن اشکالات احتمالی جواب پیشنهادی موتور اعراب گذار استفاده کرد.

6. استفاده از بانک های جانبی برنامه

این بانک ها با زحمت زیاد و تلاش همکاران گروه ادبیات و متن کاوی، از میان کتب مختلف استخراج و جمع آوری شده است. بانک های اطلاعاتی مذکور عبارت اند از: بانک ادات اسمی و حرفی، بانک اسامی جامد، جمع های مکسر، افعال غیرمتصرف، ادات متصل، صفات مشبهه، اعلام تک کلمه ای و بانک ریشه های مستعمل زبان عربی، مصادر ثلاثی و رباعی مجرد. این منابع اطلاعاتی، در نوع خود بسیار ارزشمند است که به تدریج جمع آوری شده و غنی گردیده اند.

7. آماده سازی پیکره(5)های نشان گذاری شده

یکی دیگر از استفاده هایی که از تحلیلگر صرفی می شود، کمک به زبان شناسان خبره ادبیات عرب برای تهیه پیکره های رفع ابهام شده و آماده سازی دیتای آموزش برای برنامه رفع ابهام صرف می باشد. برنامه رفع ابهام صرف، جواب های با استعمال بیشتر را به ترتیب اولویت بندی می کند. در حال حاضر، این برنامه با زحمت همکاران گروه متن کاوی و مساعدت زبان شناسان خبره گروه پژوهش انجام شده است. سرعت بخشی در تهیه و توسعه این پیکره های رفع ابهام شده و افزایش دقت آن، از جمله بهره برداری هایی بود که تحلیلگر صرفی ارائه کرد.

نفس تهیه این پیکره های رفع ابهام شده با توجه به روند پرچالش و حجیمی که دارد، ارزشمند بوده و بعضی از مؤسسات مشابه، از آن به عنوان دستاوردهای انحصاری خود استفاده می نمایند. هم اینک، دیتای رفع ابهام صرف، دارای 523992 رکورد می باشد که 487716 رکورد آن، یعنی معادل 93% رفع ابهام شده اند. تعداد کل میانوندها، پیشوندها و پسوندهای رفع ابهام شده، 489630 عدد و تعداد کل ویژگی های رفع ابهام شده، حدود 4651485 مورد می باشد که در نوع خود بی نظیر است.

8. مدیریت رسم الخط های مختلف

برای بعضی حروف در زبان عربی، رسم الخط های مختلفی وجود دارد که همه آنها صحیح بوده و ممکن است در یک متن یک کلمه با چند رسم الخط متفاوت آمده باشد. در این صورت، لازم است برنامه بتواند تمام حالات صحیح را شناسایی نموده، از اشتباهات آن تفکیک نماید. یکی از این حروف، همزه می باشد که با پایه کرسی های مختلف در متن ظاهر می گردد؛ به طور مثال، کلمات «ءادم، آدم، أولئک، أولائک، شیئا، شیءا، لَئِن، لَإِن، علماءهم، علمائهم، علماؤهم»، از جمله مواردی هستند که برنامه می تواند تمام آنها را شناسایی نماید.

9. استفاده در آموزش علم صرف زبان عربی

یکی دیگر از قابلیت های جنبی برنامه صرف، این است که می تواند در آموزش علم صرف به زبان شناسان، محققان، دانشجویان و طلاب علوم دینی کمک شایانی کند. اگر برنامه ای مناسب با طراحی واسط کاربر خوب طراحی گردد، کاربران می توانند خروجی های درخواستی خود را مشاهده نمایند که در خصوص قواعد اعلال، ادغام و یا ابدال مفید خواهد بود.

10. سیر اشتقاق تصریف

یکی از مهم ترین کاربردهای برنامه تحلیل صرف، استفاده در به دست آوردن سیر اشتقاق تصریف و روند ساخته شدن کلمه از ریشه تا کلمه مورد نظر می باشد. ارائه سلسله کلمات مرتبط با کلمه ورودی، در اصطلاح، ریشه یابی تصریفی (6) نامیده می شود. روند کار بدین صورت است که زنجیره این کلمات مرتبط با توجه به تعریف ارائه شده، از نزدیک ترین سطح شروع گردیده، تا دورترین سطح که همان ریشه کلمه است، ادامه پیدا می کند.

در سامانه تحلیلگر صرفی، تمام شقوق و حالات ریشه های معتبر زبان عربی به طور بالقوه وجود دارند و برای هر دسته از کلمات، اعم از فعل و اسم، توانایی تولید و ایجاد وجود دارد. در حال حاضر، فقط حالاتی که متناسب با کلمه ورودی هستند، توسط برنامه تولید می گردد و حالات مورد نیاز، به صورت هوشمند تولید می شوند. از آنجا که مقدمات تولید زنجیره سیر اشتقاق تصریف، همگی در تحلیلگر صرفی موجود بود و فقط نیاز به تولید یکایک عناصر این زنجیره داشت، به همین دلیل، در کنار سیر تحلیل صرفی برای کلمه، این زنجیره نیز تولید می گردد.

اگر ریشه صحیح و سالم نباشد، لازم است که برای تک تک عناصر، عملیات اعلال، ادغام، تخفیف و مضاعف نیز انجام شود که به طور متوسط، به ازای هر کلمه ورودی، 10 کلمه مورد تحلیل صرفی قرار می گیرد. برنامه در این باره به گونه ای نوشته شده است که ابتدا همه عناصر به طور مجزا ساخته می شوند و در نهایت، با هر ترتیب دلخواهی که لازم باشد، در کنار هم قرار گرفته و به کاربر ارائه می شوند. این قابلیت وجود دارد که تعداد و یا ترتیب آنها عوض شده، کاربر می تواند متناسب با نیاز خود، زنجیره مورد نظر را دریافت نموده، مورد بررسی قرار دهد.

برای مثال، روند اشتقاق تصریفی فعل «سَتُنْتَصَرْنَ» به صورت «سَتُنْتَصَرْنَ، تُنْتَصَرْنَ، تُنْتَصَرِینَ، تُنْتَصَرُ، ینْتَصَرُ، ینْتَصِرُ، اِنْتَصَرَ، اِنْتِصَار، نَصْر، نُصُور، نُصْرَة، ن ص ر» و برای اسم «بِمَعْنَوِیاتِهِ» به صورت «مَعْنَوِیات، مَعْنِیات، مَعْنِیة، مَعْنِی، أَعْنَی، إِعْنَاء، عَنَا، عُنُوّ، عَنَاء، عَنْوَة، عَنْو، ع ن و» می باشد.

نمونه ای از خروجی برنامه تحلیلگر صرفی برای فعل «سَتُنْتَصَرْنَ» در تصویر ذیل نشان داده شده است. همان طور که ملاحظه می کنید، برنامه تحلیلگر صرفی برای کلمات به صورت خطی، (7) سیر اشتقاق تصریف را ارائه می کند که از استم میانوند کلمه شروع شده و به ریشه منتهی می گردد. برای کل کلمات ورودی، بر اساس تعریفی که بسته به نوع کلمه ارائه شده است، این سیر اشتقاقی ارائه می گردد که می توان از هر کدام از کلمات داخل این زنجیره در مراحل مختلف و برنامه های متعدد استفاده نمود.

در این بین، ارائه مصادر مزید و مجرد که محمل مناسبی برای ارتباط میان هم خانواده های یک ریشه هستند، قابلیت ها و ارزش این ویژگی را دو چندان می نماید. سیر ارائه خروجی برای فعل و اسم، به ترتیب در شکل های «1» و «2» نمایش داده شده است.

شیوه محاسبه اشتقاق تصریفی برای افعال «ستنتصرن»شکل 1: شیوه محاسبه اشتقاق تصریفی برای افعال «سَتُنْتَصَرْنَ»

شیوه محاسبه اشتقاق تصریفی برای اسماء «بمعنویاته»شکل 2: شیوه محاسبه اشتقاق تصریفی برای اسما «بِمَعْنَوِیاتِهِ»

با کنار هم قراردادن این زنجیره های خطی، زمینه کاملاً مناسبی برای ایجاد ساختارهای سلسله مراتبی و درختی فراهم می شود و فایده اصلی کار ما در این ساختار به خوبی مورد بهره برداری قرار می گیرد. ریشه درخت سلسله مراتبی در این ساختار ریشه صرفی کلمه می باشد. در این مرحله، با کمک فنون دسته بندی و مرتب سازی داده گروه ها و به عبارت دیگر، درخت های مختلفی با محوریت ریشه تشکیل می گردد که با توجه به اینکه فرزندان ریشه که بزرگ این دسته نامیده می شود، چه باشند، به صورت مرتبه به مرتبه و سطح به سطح جلو رفته و درخت فرزندان و نوه ها و به همین ترتیب، سایر نسل های دیگر آن مورد جست وجو قرار گرفته و هر کلمه در درخت بسته به اینکه پدر و فرزندانش چه می باشند، تعبیه می گردد و به این صورت، از ریشه تا برگ های درخت که در حقیقت همان کلمات داخل متن می باشند، جلو می رویم و شجره نامه مربوطه را تهیه می نماییم. در ذیل چند کلمه اعم از اسم و فعل که از ریشه «ن ص ر» هستند و زنجیره خطی برای آنها وجود دارد، نشان داده شده است.

پس از دسته بندی تمام کلمات موجود در متن که دارای ریشه «ن ص ر» هستند و اجرای فنون لازم برای ساخت درخت سلسله مراتبی، درخت زیر ساخته می گردد.

این ریشه، در مرحله اوّل دارای سه فرزند می باشد که هر کدام از آنها خود دارای فرزندان مخصوص به خود می باشند. در شکل ذیل، حالت بازشده تر این درخت نمایش داده شده است.

در شکل زیر هم سلسله مراتب پایین تر از این درخت را نیز مشاهده می کنید:

فواید درخت سلسله مراتبی

همان طور که مشاهده می کنید، کلماتی مثل «نَاصَرَ» یا «نَاصِرً» که برگ های این درخت سلسله مراتبی می باشند کلماتی هستند که در متن ورودی ما وجود داشته اند و به همین دلیل، در مرحله نهایی تعبیه شده اند. این درخت سلسله مراتبی، فواید بسیاری دارد که در ادامه به بعضی از این موارد اشاره می نماییم:

1. جست وجوی گسترده (تجرید میانوند از پیشوند و پسوند): این جست وجو روی لفظ کلمه مورد نظر کاربر متمرکز نبوده و با یک مرحله تجرید کلمه، می توان به گروهی از کلمات که کلمه مورد نظر هم در میان آنهاست، دست یافت؛ برای مثال، اگر جست وجو به خود لفظ متمرکز باشد، کاربر وقتی کلمه «بمساجد» را مورد جست وجو قرار می دهد، تمام رخدادهای این کلمه درون متن استخراج می گردد؛ ولی با استفاده از این روش، کلمات: «مساجد»، «بمساجده»، «بمساجدکم»، «مساجدهم» و... نیز به کاربر پیشنهاد می گردد که در بعضی موارد، ممکن است کاربر متوجه شود که نیاز اصلی او، کلمه مورد جست وجو نبوده و در میان جواب های پیشنهادی دیگر، به نیاز اصلی خود معطوف گردد و یا اینکه وسعت دید کاربر به دلیل ارائه جواب های متعدد دیگر بیشتر شده و دقت و تصمیم گیری او بعد از در کنار هم قرار دادن موارد پیداشده، به طور چشمگیری بهبود پیدا نماید. نمونه ای از این استفاده، در نرم افزار «جامع الأحادیث» در شکل ذیل نشان داده شده است.

2. جست وجوی پیشرفته (رجوع به مصدر): حلقه وصل مورد استفاده در جست وجوی گسترده، میانوندی بود که با یک لایه تجرید، کلمه از پیشوندها و پسوندها به دست می آمد و می توانست رابط میان کلمات دیگر با همین میانوند، ولی با پیشوندها و پسوندهای متنوع دیگر قرار گیرد. در این جست وجو، علاوه بر این مرحله، میانوند کلمه را به مصدر آن بر می گردانیم که این باعث می گردد کاربر به دامنه وسیع تری از کلمات دسترسی پیدا کند و در نتیجه، بررسی و تصمیم گیری هایش با احاطه بیشتری صورت خواهد گرفت؛ برای مثال، با جست وجوی کلمه «بمساجد»، علاوه بر «مساجد»، «بمساجده»، «بمساجدکم» و «مساجدهم»، کلمات «مسجد»، «سجدة»، «سجود» و «سجّاد» و سایر ترکیبات پیشوندی و پسوندی آنها نیز در دامنه بررسی قرار می گیرند.

3. جست وجوی مدیریت شده: اگر تمام کلمات داخل متن مورد استفاده قبل از انجام جست وجو توسط تحلیلگر صرفی تگ خورده و رفع ابهام هم شده باشند، در مواردی که کلمه مورد جست وجو بین اسم، فعل و حرف و یا حداقل دوتای از آنها مشترک باشند، کاربر را قادر می سازند که کلمه را در دامنه های مختلف اسمی، فعلی و یا حرفی مورد جست وجو قرار دهد؛ به عنوان مثال، کلمه «علی» بین هر سه دسته مشترک می باشد؛ (عَلِی(فعل)، عَلِی(اسم) و عَلَی(حرف)). در حال حاضر، کاربر با جست وجوی این کلمه به سوی هر سه دسته از این کلمات در متن سوق داده می شود که با فرض فعال بودن جست وجوی پیشرفته، تعداد کلمات پیشنهادی به مراتب زیاد بوده و کاربر را دچار سردرگمی می نماید؛ اما با این قابلیت کاربر می تواند فقط «علی»های فعلی را مورد بررسی قرار دهد؛ برای مثال، کلمه «فی» میان فعل و حرف مشترک است که تعداد رخدادهای حرفی آن در متن به مراتب بیشتر از رخدادهای فعلی است و اگر کاربر بخواهد به حالات فعلی دسترسی پیدا کند، فرآیند جست وجو زمان بر، کم فایده و پرهزینه خواهد بود؛ ولی به کمک این قابلیت می تواند به موارد فعلی به طور مستقیم دسترسی داشته باشد. به دلیل ارائه شدن ویژگی های متعدد صرفی برای هر کلمه، می توان عملیات جست وجو را بر اساس هر کدام از این ویژگی ها متمرکز نمود که در مثال فوق، جست وجو بر اساس نوع کلمه که در ویژگی Pos خروجی تحلیل صرف بود، صورت می گرفت؛ به عنوان مثال دیگر، می توان جست وجو را بر ریشه کلمات، یعنی Root خروجی تحلیل صرفی متمرکز نمود؛ برای مثال، کلمه «عاد» در حالت فعلی از ریشه «عود»، و در حالت اسمی از ریشه «عدد» قابل تصور است. حال اگر کاربر در هنگام جست وجو ریشه مورد نظر خود را هم وارد نماید، می تواند به طور مستقیم به کلمه «عاد» مورد نظر خود دسترسی پیدا نماید. در موارد لازم می توان حتی با تلفیق این ویژگی ها، فرآیند جست وجو را با دقت بسیار بالایی مدیریت و ناوبری کرد. در مثال جست وجوی «علی»، کاربر می تواند با ترکیب نوع کلمه و ریشه به طور مستقیم، به «علی»هایی که فعل بوده و از ریشه «علو» هستند، دست پیدا کند و یا اینکه به «علی»هایی که از ریشه «علی» هستند، رجوع نماید.

4. کمک به محققان جهت تدوین لغت نامه، از جمله کاربردهای دیگر سیر اشتقاق تصریف می باشد. روش کار این است که محقق به ترتیب از خود کلمه تا ریشه جلو رفته و در این پیشروی، هر کلمه ای که موضوعیت قرار گرفتن به عنوان یک مدخل در لغت نامه را داشته باشد، انتخاب گردیده، در جایگاه خود قرار داده می شوند و باعث می شود تا این تدوین، با نظم و دقت بهتر و سرعت بالاتری صورت پذیرد.

5. از جمله کاربردهای مفید این ویژگی، استفاده در انتقال کاربر به نزدیک ترین کلمه موجود در لغت نامه (قاموس) می باشد. در این حالت، کاربر در بررسی کلمه مورد نظر خود به یکباره به سطوح دورتر و کمتر مرتبط با کلمه ورودی منتقل نشده و موجبات سردرگمی او ایجاد نمی گردد و تنها در صورت نیاز و درخواست خود کاربر است که مرحله به مرحله به سطوح کمتر مرتبط که آخرین آنها ریشه کلمه است، منتقل می شود و دامنه بررسی کاربر به اختیار خود او گسترش پیدا می نماید.

کاربردهای سیستم ریشه یابی تصریفی، به این موارد خلاصه نمی شود. به طور کلی، با استفاده از این سیستم می توان به «غنی سازی انواع داده های متنی» پرداخت و با بهره گیری از «درخت های ارتباط معنایی»، از این متون غنی شده در کاربردهای سطح بالایی، از قبیل سیستم های: «تحلیل محتوا»، «مشابه یاب متون» و «معاجم لفظی و موضوعی» بهره برد. بررسی و توضیح موارد اشاره شده، به تفصیل و توضیح بیشتر نیاز دارد که در این مقام نمی گنجد و در کارهای تحقیقاتی پیش رو، با جزئیات بیشتر به آنها پرداخته خواهد شد.

پی نوشت ها:

اطلاعات تکميلي

  • تاریخ انتشار نسخه چاپی: شنبه, 22 اسفند 1394
  • صفحه در فصلنامه: صفحه 6
  • شماره فصلنامه: فصلنامه شماره 53
بازدید 16793 بار
شما اينجا هستيد:خانه پدیدآورندگان فصلنامه شماره 53 (زمستان 1394) شناسایی خودکار سیر اشتقاق کلمات در زبان عربی