ره آورد نور

Skip to content

قاموس نور؛ واژه‌نامه هوشمند عربی

دوشنبه, 22 آذر 1400 ساعت 17:15

نویسنده:

مسیح توحیدی وحدت* این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید ؛ حبیب سریانی** این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

اندازه قلم کاهش اندازه قلم افزایش اندازه قلم
چاپ
پست الکترونیکی

این مورد را ارزیابی کنید

1
2
3
4
5

(3 رای‌ها)

چکیده

مراجعه به منابع لغوی برای درک صحیح معانی کلمات، یکی از نیاز‏های اولیه در فرآیندهای پژوهشی حوزه علوم اسلامی است. هر پژوهشگر، جهت فهم معانی کلمات یا عبارات مد نظر خود، هنگام مراجعه به منابع لغوی در نسخه‌های چاپی سنّتی، فرآیندی را در چندین مرحله طی می‌نماید تا به مقصود نهایی خویش، یعنی یافتن توصیفات مندرج ذیل مداخل لغوی، دست یابد. این فرآیندها، در خصوص زبان عربی که کلمات دست‌خوش تغییرات متعددی در ساختار صرفی خود شده‌اند، پیچیده‌تر است. هدف از طراحی و تولید «قاموس نور»، به عنوان یک لغت‌نامه هوشمند الکترونیکی، گذر از شیوه‌های سنّتیِ مراجعه به منابع لغوی متعدد و پیاده‌سازی حداکثری الگوهای ماشینیِ هوشمند جهت ارائه سریع پاسخ‌های صحیح به پژوهشگران است.

ساماندهی لغت‌نامه‌های متقدم عربی و نظام‌بندی این منابع ارزشمند بر اساس یک ساختار واحد و همچنین تحلیل صرفی کلمات ورودی کاربران توسط دو موتور قدرتمند تحلیلگر صرفی نور و استمر هوشمند نور جهت اتصال ماشینی به نزدیک‌ترین مداخل لغوی، از دستاوردهای منحصربه‌فرد این واژه‌نامه هوشمند الکترونیکی است که در قالب پایگاه اینترنتی، نرم‌افزار رومیزی و تلفن‌های همراه قابل استفاده است. همچنین، با ایجاد شبکه واژگانی بین مداخل، تطبیق بر آیات قرآن و روایاتِ سرشار از معارف غنی اهل‌بیت(ع)، اطلاعات متنوع و ارزشمند دیگری نیز در اختیار پژوهشگر قرار می‌گیرد که این واژه‌نامه هوشمند را از دیگر رقبای خود متمایز می‌سازد.

کلیدواژگان: زبان عربی، مدخل لغوی، لغت‌نامه هوشمند، پیکره‌نگاری، شبکه واژگان عربی، تحلیل صرفی.

مراحل طراحی و تولید لغت‌نامه هوشمند عربی

مراحل طراحی و تولید لغت‌نامه هوشمند «قاموس نور»، مشتمل بر سه امر است:

1. ساماندهی ماشینی و دستی لغت‌نامه‌های معتبر زبان عربی کلاسیک و عربی معاصر در ساختاری واحد؛ به گونه‌ای که معنای لغات مد نظر پژوهشگران، به‌راحتی در اختیار آنان قرار گیرد و دیگر نیازی به تورق در منابع متعدد نباشد.
2. ارائه یک سیستم هوشمند قوی جهت شناسایی و تحلیل صرفی کلمات و اتصال آن کلمه به نزدیک‌ترین مشتق مدخل لغوی.
3. ارائه اطلاعات منحصربه‌فردی از کلمات عربی در دایره شبکه واژگانی، آیات، احادیث و اصطلاحات، به صورت خودکار.

تهیه ساختاری نظام‌مند از مداخل لغوی

دستیابی به یک پیکره زبانی منسجم از داده‌های موجود در فرهنگ‌نامه‌ها، همواره از دغدغه‌های جدی صاحب‌نظران این عرصه بوده است (مطهری و شمس‌فرد، 1393، 1178-1182). ازاین‌رو، نخستین مرحله در طراحی و ساخت یک لغت‌نامه هوشمند، ایجاد ساختاری دقیق و منسجم از مداخل لغوی مشترک میان واژه‌نامه‌های مختلف و تهیه داده‌ای مستقل از تمامی این مداخل به همراه توضیحات ضبط‌شده برای آنهاست. تاکنون استفاده از لغت‌نامه در نرم‌افزارهای مرکز نور، بر محور «ریشه» بوده است؛ یعنی کاربران برای پیدا کردن معنای یک کلمه، با واسطه‌ ریشه ـ آن هم در تعداد کمی از لغات ـ به لغت‌نامه‌ها منتقل شده و می‌بایست به صورت دستی، به نزدیک‌ترین مشتق مورد نظر خود می‌رسیدند. حال با استفاده از لغت‌نامه هوشمند، تمام سعی طراحان بر این است با استفاده از فرآیندهای هوشمندسازی، شیوه استفاده از لغت‌نامه از ریشه به «مدخل محور» ارتقا یابد؛ یعنی کاربران به صورت هوشمند به نزدیک‌ترین مدخل لغوی دست یابند. ازاین‌رو، هدف نهایی از ایجاد یک پیکره زبانی یکپارچه و منسجم، در اختیار داشتن تمامی مداخل لغوی موجود در زبان عربی به همراه تمامی معانی و مفاهیم مندرج در لغت‌نامه‌های معتبر به شکلی منظم و رتبه‌بندی‌شده همراهِ نشانی دقیق به منابع اصیل خود است تا بتوان در سیستم‌های بازیابی اطلاعات نیز به بهترین نتایج دست یافت. از این داده، در طول این نگاشته، تعبیر به «بانک مداخل» می‌شود. جهت دستیابی به این مهم، مراحل ذیل در قالب فعالیت‌های ماشینی و بازبینی نیروی خبره‌ انسانی صورت گرفته است:

1. استفاده از علائم ویرایشی در منابعی که دارای نظم قابل توجهی در چاپ و نشر بوده‌اند

به منظور تسریع و دقت در استخراج مداخل و توصیفات و اجتناب حداکثری از انجام کار دستی، منابع لغوی که علاوه بر دارا بودن اتقان محتوایی، دارای ساختار منسجم و تقریباً یکپارچه نیز هستند، شناسایی شده و با بررسی دقیق متن این کتب، قواعدی برای شناسایی ماشینی مداخل و توصیفات استخراج می‌گردد. این قواعد، متناسب با هر کتاب و شیوه نگارش و میزان علائم ویرایشی موجود همچون: رنگ، نقطه، ویرگول، دو نقطه و غیره، در پردازش ماشینی متن آن کتاب، کلید راهنمای استخراج مداخل و توصیفات قرار گرفته است. بدیهی است که با بهره‌گیری از این شیوه و استفاده از ماشین برای استخراج اطلاعات، در بسیاری موارد از شیوه برچسب‌گذاری دستی متون توسط محققان بی‌نیاز گشته و علاوه بر کاهش هزینه مالی و زمانی، از بسیاری از اشکال‌های ناشی از خطای نیروی انسانی نیز اجتناب می‌شود؛ هرچند ممکن است قواعد در نظر گرفته‌شده در استخراج مداخل و توصیفات در مواردی جامع و مانع نبوده و یا علائم ویرایشی موجود در متون که مبنای کارآمدی یک قاعده بوده است، در مواردی درست اعمال نشده باشد. بنابراین، مقرر گردید تا اطلاعات استخراج‌شده، توسط پژوهشگران مورد بازبینی و احیاناً اصلاح یا ویرایش قرار گیرد. برای تحقق تمام مراحل ساماندهیِ اطلاعات موجود در لغت‌نامه‌ها و تولید مداخل و توصیفات، نیاز به ابزاری است تا امکانات لازم را در اختیار محققان بخش ادبیات و متن‌کاوی مرکز تحقیقات کامپیوتری نور جهت اصلاح یا ویرایش اطلاعات استخراج‌شده قرار دهد. این برنامه با نام «ابزار مداخل»، پس از طراحی و تولید اولیه، متناسب با نیازهای هوشمندسازی و پروژه‌های بازبینی، ارتقا می‌یابد. (تصویر شماره 1)

تصویر شماره 1: نمونه‌ای از نسخه‌های اوّلیه ابزار مداخل

2. تعیین مدخل نماینده توسط ماشین با استفاده از نشان‌ها (فرمت‌ها) و ریشه

ازآنجاکه «لغت‌نامه هوشمند» به دنبال ارائه اطلاعات یکپارچه و منسجم از منابع مختلف لغوی است، لازم است بین مداخل لغوی در لغت‌نامه‌های مختلف، هماهنگی ایجاد شود. در اکثر منابع لغوی متقدم، مؤلفان جهت تفهیم معنای یک مدخل، کلماتی را همراه با مدخل اصلی عنوان کرده و توصیف را برای مجموع عبارت قرار داده‌اند. بنابراین، مداخل اصلی در مجموع منابع لغوی، هرچند چیزی در حدود یک صد هزار واژه است، ولی با توجه به تنوع در نگارش و انتقال مطلب به مخاطب، با تعدادی بالغ بر نهصد هزار کلمه و عبارت مختلف مواجه هستیم؛ به عنوان نمونه، برای بیان مفهوم مدخل اصلی «سَمَنَ»، در کتب مختلف لغوی از تعابیر: «سمن الطعام»، «سمن الخبز»، «سمنت له»، «سمنت الطعام»، «سمن القوم» و «سمن له» به عنوان مدخل استفاده شده و متناسب با هریک از این مداخل، توصیفاتی نیز ذکر گردیده است.

در مواردی که مداخل لغوی چندکلمه‌ای بوده و ترکیب این کلمات به عنوان یک «مدخل مرکب» مورد نظر مؤلف نبوده و تنها از جهت مثال، آن را به شکل چندکلمه‌ای بیان داشته، اقدام به تعیین «مدخل نماینده» برای هریک از این مداخل چندکلمه‌ای می‌گردد. «مدخل نماینده»، کلمه‌ای در بین چند کلمه به‌کاررفته در «مدخل» است که بار اصلی مفهوم، متکی بر آن بوده و سایر کلمات، برای تکمیل آن به کمک گرفته شده‌اند؛ به عنوان مثال، در عبارت «نَهِلَ‏ الرجلُ‏: عطش أشد العطش‏» (العین، ج4: 152)، کلمه «الرجل» موضوعیتی نداشته و مدخل مرکب «نَهِل الرجل» ذیل مدخل نماینده «نَهِلَ» قرار خواهد گرفت؛ برخلاف مثال «المسجد الحرام» که از همنشینی این دو کلمه، یک کلمه جدید با مفهومی جدید ایجاد شده است. در مداخل لغوی غیرمرکب، پیراسته مداخل به عنوان «مدخل نماینده» در نظر گرفته شده است.

جهت تعیین ماشینی مدخل نماینده از کلمات و عبارات لغوی، از اطلاعات نشان‌گذاری (فرمت‌گذاری)‌شده در لغت‌نامه‌ها استفاده گردیده است. برخی از لغت‌نامه‌های تایپ‌شده در مرکز نور، طی سالیان متمادی توسط محققان نشان‌گذاری شده و برخی از اطلاعات همچون: کلمه‌ مدخل، ریشه و مشتقات ذیل آن، آیات قرآن، روایات و غیره در این لغت‌نامه‌ها مشخص شده‌اند. در حال حاضر، نمونه‌ای از این زحمات در نرم‌افزار رومیزی «قاموس نور 2» بخش «پژوهش در لغت»، قابل دسترسی است. برای بسیاری از مداخل مرکب، با استفاده از برچسب ریشه و مشتق، مدخل نماینده به صورت ماشینی استخراج شده و در بانک مداخل، به ازای هر مدخل نماینده، چندین مدخل لغوی به همراه توصیف آنها از منابع لغت، قرار گرفته است. از جمله اقدامات مهم صورت‌گرفته جهت استفاده از برچسب ریشه و یافتن کلمات هم‌ریشه، انجام فرآیند نرمال‌سازی بین ریشه‌های اعلام‌شده در منابع لغوی است. تفاوت در شیوه نگارش همزه و همچنین انجام اعلال در حروف عله‌ ریشه در برخی از منابع لغوی، از جمله مواردی است که با نرمال‌سازی در ریشه نیز اصلاح می‌گردد.
با انجام تمام فعالیت‌های فوق، تعداد قابل توجهی از مداخل تجمیع شدند؛ به عنوان نمونه، در فاز اوّل که کار استخراج مداخل و توصیفات و بازبینی پنج منبع لغوی با استفاده از علائم ویرایشی، به استخراج نزدیک به هفت‌صد هزار مدخل منجر گشت، با پردازش ماشینی همچون استفاده از نشان‌ها، شناسایی ریشه و نرمال‌سازی آنها و در نهایت، تعیین مدخل نماینده، پس از بازبینی نهایی محققان، تعداد مداخل لغوی به حدود سیصد هزار مدخل تقلیل یافته است.

3. نرمال‌سازی اِعراب مداخل نماینده

اگرچه تعیین «مدخل نماینده» در مرحله قبل، موجب تجمیع حجم قابل توجهی از مداخل می‌گردد، اما با توجه به تنوع اعراب در مداخل مفرد و مرکب در کتب مختلف، همچنان امکان تقلیل تعداد «مداخل نماینده» با نرمال‌سازی اِعراب آنها وجود دارد؛ مثلاً مدخل نماینده «اَلسَّمْنُ»، در منابع مختلف لغوی موجود به هفت شکل نگارش شده است که تمامی آنها، اشاره به یک کلمه دارد: «اَلسَّمْنُ»، «السَّمْنُ»، «السَّمْن»، «السَّمن»، «السَّمْنُ»، «السمن» و «السَّمْن». با استفاده از قواعدی هوشمند در مورد اِعراب که مشخص‌کننده مداخلی است که امکان تجمیع با سایر مداخل را دارند، اقدام به پردازش ماشینی و تجمیع بیشتر «مداخل نماینده» و انتخاب کامل‌ترین مورد از حیث اعراب به عنوان نماینده شده است. بر اساس این قواعد، دیگر کلمات «حَسَنَ» و «حُسْن» نرمال نشده و در یک دسته قرار نخواهد گرفت. با انجام این پردازش و پس از بازبینی دستی، تعداد «مداخل نماینده» غیرتکراری، از حدود سیصد هزار عدد به 127 هزار مورد تقلیل یافته است؛ برای مثال، یکی از وظایف محققان در بازنگری نتایج، علاوه بر تکمیل اِعراب، جداسازی افعال از اسماست؛ مثلاً دو کلمه «بِکر» و «بکر» توسط نرمال‌سازی ماشینی در یک دسته قرار می‌گیرند که با دقت در توصیف آنها، یکی فعل و دیگری اسم بوده و باید توسط محققان از یکدیگر تفکیک شوند.

4. پیراسته‌سازی مداخل توسط موتور هوشمند تشخیص میان‌وند

پس از پردازش ماشینی «مداخل نماینده» و تقلیل تعداد آنها، با استفاده از موتور هوشمند تشخیص میان‌وند که از آن به «استمر نور» تعبیر می‌شود، اقدام به پیراسته‌سازی مداخل نماینده می‌گردد. استم (Stem)، یک الگوریتم محاسباتی است که کلمات هم‌ریشه را با تهی نمودن آنها از پیشوندها و پسوندها، به یک شکل مشترک بازمی‌گرداند (Lovins; 1968: 22) که می‌توان به جای آن، از معادل فارسی: «پیراسته»، «میان‌وند» یا «هسته» نیز استفاده نمود. از ساخت استم در زبان عربی، با کلمه «التجذیع» تعبیر می‌شود؛ مثلاً کلمات: «یعلمون»، «سیعلمان»، «یعلمن»، «فیعلمونه» و «أیعلم؟» که همگی از ریشه «علم» هستند، دارای میان‌وند مشترک «یعلم» می‌باشند. با استفاده از استمر نور، مواردی همچون: ضمایر منصوبی و مجروری، نون تأکید، الف پایه کرسی تنوین (مانند تبدیل ءًا به ءٌ یا مذومًا به مذمومٌ)، علائم مثنی و جمع سالم، پیشوندهایی مانند: حروف جاره، «ال»، «س» استقبال، انواع لام، انواع فاء و غیره حذف می‌گردد.

با استفاده از فرآیند ساخت پیراسته، تمامی مداخل لغوی: «أسمنته»، «أسمنتها»، «أسمنه»، «أسمنها» و «أسمنوا»، ذیل مدخل نماینده «أسمن» قرار خواهند گرفت. این مدخل پیراسته، نماینده 5 مدخل دیگر است. شایان ذکر است در این مرحله، کلماتی که از حیث معنا کاملاً یکسان هستند، ولی دارای بیش از یک وجه استعمال‌اند، مانند باذِنجان، باذَنجان و بادِنجان، به موردی که بیشترین استعمال و بیشترین تکرار را در بین لغت‌نامه‌ها داراست، ملحق می‌گردند؛ البته با تدوین یک آیین‌نامه اجرایی، پس از پردازش ماشینی توسط استمر نور و تجمیع مداخل نماینده، اقدام به بازبینی دستی نیز ضروری است؛ مثلاً ممکن است در این مداخل، کلماتی که «ال» در آنها موضوعیت داشته، با غیر آن خلط شود؛ برای مثال، کلمه «الجزائر» که عَلَم مکان است، در کنار «جزائر» که جمع مکسر جزیره است، قرار گرفته باشد. این موارد، به یکدیگر ملحق نشده و به عنوان دو مدخل مستقل لحاظ می‌شوند. با پایان مرحله پیراسته‌سازی، تعداد مداخل نماینده از 127 هزار به کمتر از 100 هزار تقلیل یافته است.

5. استفاده از تحلیلگر صرفی نور در ایجاد یک نظام اشتقاقی

آنچه سبک نگارش واژه‌نامه‌های جدید عربی را از لغت‌نامه‌های متقدم متمایز نموده، چینش نظام‌مند مداخل لغوی است. معمول لغت‌نامه‌های متأخر، بر اساس یک نظام اشتقاقی ابتدا فعل ماضی، مضارع و سپس مصادر ثلاثی مجرد و در ادامه، ثلاثی مزید و رباعی و اسم‌های مشتق قیاسی و سماعی را به همراه توصیفات آنها ذکر می‌کنند؛ ولی در لغت‌نامه‌های قدیمی، چنین چینشی رعایت نشده و گاهی فرهنگ‌نگاران توصیف را برای فعل ماضی، گاهی فعل مضارع یا امر و گاهی نیز برای مصدر و اسم فاعل ذکر کرده‌اند. رتبه‌بندی این مداخل با استفاده از یک تحلیلگر صرفی هوشمند، یعنی «موتور صرف نور» صورت می‌پذیرد. موتور صرف ابتدا کلمه را از لحاظ صرفی، تجزیه و تحلیل می‌نماید و سپس، این کلمات را بر مبنای یک نظام اشتقاقی مدون، در بانک مداخل مرتب می‌کند؛ مثلاً ابتدا افعال ماضی ثلاثی مجرد، بعد مضارع و مصادر و دیگر مشتقات قیاسی و غیره ذیل یکدیگر قرار می‌گیرند.

یکی از نتایج خروجی تحلیلگر صرفی نور، لِمّای (Lemma) کلمات است که از آن، به «بن» یا «ستاک» کلمه نیز تعبیر می‌شود. مقصود از «لمّا» در کلمات، یک فرم متعارف حداقلی از کلمه است که دارای معنا بوده و به عنوان مدخل ورودی در فرهنگ لغت نیز یافت می‌شود (Boudchiche and Mazroui; 2018: 2)؛ مثلاً لمّا از فعل ثلاثی مجرد «یَضرِبُون»، فعل ماضی «ضَرَبَ» و از فعل ثلاثی مزید «یُعلِمون»، فعل «أَعلَمَ» است. اوّلین موتور هوشمند تولید لمّا از کلمات عربی، در سال 2008 معرفی گردید (Al-Shammari, Lin; 2008). ثمره تشخیص «لمّا» در کلمات، این است که می‌توان به واسطه آن، ارتباط کاملی میان مداخل لغوی ایجاد کرده و آنها را در دسته‌های مختلفی قرار داد. بدین ترتیب، هرگاه پژوهشگری در جست‌وجوی یک کلمه ماضی باشد، ولی مؤلف یک لغت‌نامه، آن را ذیل یک مضارع یا فعل امری توصیف کرده باشد، می‌توان تمامی آنها را بر اساس یک چینش نظام‌مند در اختیار پژوهشگر قرار داد؛ زیرا این کلمات، دارای لِمّا و بن مشترک بوده و طبق نتایج موتور صرف نیز رتبه‌بندی شده‌اند. با توجه به امکان اشتباه در تجزیه صرفی برخی کلمات توسط موتور صرف، به‌ویژه لغات معتل و معرّب، نتایج خروجی نیازمند بازبینی محققان است؛ مثلاً با توجه به اختلاف لغت‌نامه‌ها در مورد ریشه کلمات، باید در الحاق کلمات معتل به صیغه اوّل ماضی، به حروف علّه کاملاً دقت شود. اگر در یک لغت‌نامه، یک ماضی با ریشه «دعو» آمده و همان کلمه با همان معنا به صورت مضارع در لغت‌نامه‌ای دیگر با ریشه «دعی» آمده، در نظام اشتقاقی به یکدیگر مرتبط می‌شوند؛ برخلاف جایی که آن دو کلمه، دارای یک مفهوم مشترک نبوده و از هر ریشه، یک معنای متفاوت اراده شده باشد.

6. دسته‌بندی توصیفات ذیل هر مدخل از حیث مفهوم

با توجه به تشابه بسیاری از واژه‌نامه‌ها در ارائه توضیحات یکسان برای کلمات، در صورت تجمیع مداخل لغوی ذیل یک «مدخل نماینده»، طبیعی است که ذیل آن مدخل، تعداد بسیاری عبارات مشابه در کنار هم قرار گیرد؛ مثلاً اگر برای واژه «ضَرَبَ»، از منابع لغویِ متعدد، توصیفاتی برای پژوهشگر نمایش داده شود، با تعداد فراوانی توضیح مشابه و تنها تفاوت در نشانی مواجه خواهد شد. در اینجا، لازم است نسبت به دسته‌بندی توصیفات متعدد به گونه‌ای اقدام شود که با انتخاب یک «توصیف نماینده»، از نمایش باقی توصیفات مشابه خودداری شده، تنها نشانی‌ها برای پژوهشگر در دسترس قرار گیرد. ذیل هر «توصیف نماینده»، توصیفاتی قرار می‌گیرند که در عین تفاوت در تعبیر، ناظر به مفهوم واحدی باشند. این دسته‌بندی ماشینی، در دو مرحله صورت می‌پذیرد:

مشابهت‌یابی لفظی بین توصیفات هر مدخل نماینده؛
مشابهت‌یابی معنایی بین توصیفات هر مدخل نماینده با استفاده از برخی الگلوریتم‌های همنشینی و سیستم عصبی.

در نهایت، با بازبینی دسته‌بندی‌های ماشینی توسط محققان خبره، توصیف برگزیده برای هر دسته از مفاهیم یک مدخل مشخص می‌گردد. پس از دسته‌بندی توصیفات، می‌توان در هر دسته به یک توصیف برگزیده رسید که آن نیز می‌تواند از میان توصیفات موجود در آن دسته انتخاب شود و یا توسط پژوهشگران مرکز توصیفی که بیانگر مفاهیم موجود در دسته است، تدوین و عرضه گردد. این کار، به مخاطب در دسترسی سریع‌تر به مقصد خود کمک می‌نماید؛ هرچند امکان دسترسی به توصیفات متنوعِ ذکرشده در منابع مختلف نیز برای وی فراهم است.

7. تفکیک زبانی

ازآنجاکه میان برخی از لغت‌نامه‌های ساماندهی‌شده در بانک مداخل، واژه‌نامه‌های دوزبانه عربی فارسی همچون فرهنگ ابجدی نیز وجود دارد، امکان تفکیک توصیفات بر اساس نوع زبان نیز مهیا گردیده است. در واقع، استفاده از سه عنصر: مدخل لغوی، توصیف عربی و ترجمه فارسی و کنار هم قرار گرفتن آنها، الگویی را ایجاد خواهد کرد که می‌تواند کمک شایانی به سیستم‌های هوشمند متن‌کاوی همچون موتورهای ترجمه و ماشین‌های مشابهت‌یاب معنوی داشته باشد. دانش واژگان، مهم-ترین مؤلفه‌ هر زبان برای فراگیران و مترجمان است و بیشترین خطای پیش‌آمده برای پژوهشگران انسانی و ماشین‌های ترجمه نیز در همین ناحیه است (Al-sohbani Yehia Ahmed and Muthanna Abdulghani; 2013: 445). یک لغت-نامه هوشمند چندزبانه و منسجم از منابع غنی زبان‌های مختلف، می‌تواند بهترین راهکار در ارتقای دانش واژگان کاربران و فعالیت‌های هوشمند متن‌کاوانه باشد. هم‌اکنون استفاده از فرهنگ غنی دهخدا نیز جهت ارائه پاسخ برای کلمات فارسی و همچنین کلمات عربی واردشده در این زبان آغاز گردیده است که با توسعه موتورهای تحلیلگر صرفی کلمات در زبان فارسی، دستیابی به نتایج مطلوب با رشد بیشتری همراه خواهد شد.

تحلیل صرفیِ کلمات ورودی توسط ماشین‌های هوشمند

گستره وندها (پیشوند و پسوند) در برخی زبان‌ها همچون انگلیسی و فرانسوی، محدود بوده و تغییرات چندانی در کلمات ایجاد نمی‌کند؛ مانند بازگشت کلمات «engineered» و «engineering» به مدخل «engineer» یا بازگشت کلمه «Skiing» به مدخل «Sky» که با حذف پسوند «ing»، نهایت با یک تغییر در حروف اصلی همراه خواهد بود. در بسیاری از لغت‌نامه‌های انگلیسی، معمول این کلمات در فهرست مداخل قرار گرفته و به چرخه تحلیل هوشمند صرفی کلمات وارد نمی‌شوند؛ اما در مورد زبان عربی که گستره‌ استعمالی وندها دایره وسیع‌تری نسبت به دیگر زبان‌ها دارد و همچنین به سبب قواعد اعلال، ادغام و تخفیف، کلمات عربی دست‌خوش تغییرات بیشتری می‌شوند و عملاً احصای تمام کلمات عربی و اتصال آنها به یک مدخل لغوی توسط نیروهای انسانی، محال می‌نماید. ازاین‌رو، تنها راه حلّ پیش رو، استفاده از ماشین‌های هوشمند تحلیلگر صرفی کلمات عربی است.

وجه تمایز لغت‌نامه الکترونیکی و هوشمند قاموس نور نسبت به دیگر نرم‌افزارها و پایگاه‌های برخط زبان عربی، در بهره از همین تحلیلگرهای صرفی است. دو تحلیلگر صرفی کلمات (موتور صرف نور و استمر نور)، بر اساس آخرین رویکردهای بهینه‌سازی اطلاعات متنی در مرکز تحقیقات کامپیوتری علوم اسلامی نور طراحی و تولید شده است که با به‌کارگیری آنها در لغت‌نامه هوشمند نور، مسیر دشوار دسترسی کاربران به معانی لغات زبان عربی، بسیار آسان و سریع گردیده است. ویژگی منحصربه‌فرد قاموس نور، این است که می‌تواند ریشه، استم (میان‌وند) و لمّای (بن) هر کلمه عربی را با استفاده از موتور قدرتمند استمر نور یا موتور صرف نور تشخیص دهد و پژوهشگر را به نزدیک‌ترین مدخل نماینده متصل نماید. مراحل تحلیل صرفیِ کلمات ورودی، بدین شرح است:

1. تشخیص ریشه با استفاده از داده‌ برچسب‌گذاری‌شده در مرکز نور

بنا بر آمار به‌دست‌آمده از مجموع متون عربی موجود در مرکز تحقیقات کامپیوتری علوم اسلامی (بیش از شش هزار عنوان کتاب)، نزدیک به دو میلیون و هفت‌صد هزار کلمه غیرتکراری در این متون استخراج شده است. تعداد تقریبی کل این دیتا ـ تا به امروز ـ یک میلیارد و پانصد میلیون کلمه بوده و بیش از 99 درصد کلمات غیرتکراری و بدون اِعراب این داده‌ ارزشمند، توسط محققان مرکز نور تعیین ریشه و برچسب‌گذاری شده است. اگر کلمه دارای ریشه‌ای معتبر در لغت‌نامه‌های متقدم و متأخر باشد، آن ریشه متناسب با استعمال آن لغت انتخاب شده است؛ مانند کلمه «فتاه» که این کلمه در داده‌ مرکز نور با در نظر گرفتن همه حالات اِعرابی و نوشتاری، 1285 بار تکرار شده است. این کلمه در برخی متن‌ها، از ریشه «فتو» به معنای «جوان خدمتگزارش» و در برخی دیگر، از موارد استعمال به معنای «تکبر کرد/گمراه شد»، از ریشه «تیه» است. این دو ریشه، توسط محققان برای کلمه «فتاه» در نظر گرفته شده است. در صورت نداشتن ریشه، برچسب‌های دیگری مانند: برچسب، علم، دخیل و معرب، غیرعربی، دخیل در فارسی و... برای کلمات انتخاب شده است؛ مثلاً کلمه «النیسابوری» با 34819 بار تکرار، دارای برچسب معرّب است که در زبان عربی ریشه‌ای ندارد. گفتنی است که انتخاب ریشه توسط محققان مرکز تحقیقات نور، با نگرش استعمالی صورت گرفته؛ نه نگرش منطقی. برای مثال، در همان نمونه «فتاه» که در تصویر شماره2 آمده است، می‌توان با منطق صرفی، ریشه «فتت» را نیز در نظر گرفت؛ یعنی «آن دو نفر آن چیز را ریز ریز کردند»؛ اما در میان 1285 مورد از تکرار این کلمه، مواردی که از ریشه «فتت» باشد، یافت نشده و در نتیجه، پژوهشگر نیز به ریشه «فتت» در لغت‌نامه‌ها منتقل نخواهد شد. مثال دیگر، کلمه «لبناتک» که در تمام 125 مورد تکرار آن، موردی که بر اساس ریشه «لبن» باشد نیز یافت نشده است.

تصویر شماره 2: نمونه‌ای از ابزار واژگان استفاده‌شده در مرکز نور

بدیهی است با داشتن این داده‌ ارزشمند، دیگر طراحی یک موتور هوشمند تشخیص ریشه همچون Khoja (Khoja and Garside;1999) که در بسیاری از سیستم‌های بازیابی اطلاعات مورد استفاده واقع شده، امری بیهوده خواهد بود. در واقع، به واسطه تلاش پژوهشگران مرکز تحقیقات نور و با بهره از فعالیت‌های ماشینی، برای غالب کلمات، ریشه صحیح بر اساس استعمال صحیح انتخاب شده و می‌توان برای کلمات ورودی کاربران، به ریشه دست یافت؛ البته با استفاده از موتورهای استمر و تحلیلگر صرف، همواره توانایی تشخیص ریشه برای کلمات جدید، به‌ویژه کلمات متون عربی معاصر که در آن داده‌ یک‌ونیم میلیاردی وجود ندارند، مهیاست.

2. تشخیص میان‌وند کلمات توسط استمر هوشمند نور

نتایج تحقیقات نشان داده که تجزیه صرفی کلمات با استفاده از الگوی «استم»، بیش از الگوهای دیگر همچون تشخیص ریشه و لِمّا (بن)، در فرآیندهای هوشمندسازی اثربخش بوده است (Sembok and Abuata; 2013: 1577). شکستن کلمات یک متن عربی به کلمات ساده و قابل تحلیل صرفی، از مهم‌ترین فواید ساخت استم در زبان پیچیده عربی است. تمامی سیستم‌های مورد استفاده در متن‌کاوی همچون سیستم: جست‌وجو، طبقه‌بندی موضوعی متون، خلاصه‌ساز، خوشه‌بندی متون، مشابه‌یاب لفظی و معنایی و سیستم‌های دیگری که وابسته به تجزیه صرفی کلمات‌اند، می‌توانند از استم به عنوان یک الگوی کاربردی در پیش‌پردازش‌ها و ارتباط کلمات استفاده نمایند. از موتور استمر نور، جهت تشخیص میان‌وند کلمات و تطبیق آن بر نزدیک‌ترین مدخل لغوی مشابه استفاده می‌شود.

طراحی یک استمر عربی، با چالش‌های فراوانی روبه‌روست که جهت رفع هریک از آنها، از قواعد دقیق و کاربردی و داده‌های آماده‌شده توسط محققان، استفاده گردیده است؛ مثلاً تجزیه کلمه «والده» (پدر او) با استفاده از موتور استمر Light Stemmer (Larkey et al; 2007) که یک استمر جهانی و سبک برای حذف وندهاست، با در نظر گرفتن «و + ال» به عنوان پیشوند و «ه» به عنوان پسوند، استم نادرست «د» را به عنوان خروجی اعلام می‌کند؛ درحالی‌که «وال» جزئی از استم صحیح والد است. همچنین است در مورد کلمه «ألم»، «فتح» و دیگر موارد مشابه که با استفاده از قواعد دقیق در مراحل کدنویسی استمر نور، از حذف نادرست پیشوند و پسوندها جلوگیری شده است.

چالش دیگر موتورهای استمر، این است که یا تنها یک پاسخ به عنوان خروجی اعلام می‌دارند و یا اینکه چندین جواب غیرمستعمل نیز برای کلمات اعلام می‌کنند؛ مثلاً برای کلمه قرآنی «لمسنا» (الجن/8)، در حالت بدون اِعراب می‌توان سه استم منطقی: «لمس»، «مس» (از ریشه مسس) و «مسن» (از ریشه سنن) را در نظر گرفت؛ درحالی‌که بسیاری از موتورهای استمر عربی موجود، تنها یک راه حل را در خروجی استم خود ارائه می‌دهند و یا مانند برخی استمرهای پیشرفته‌تر (Jaafar et al; 2017)، هر سه استم را به عنوان پاسخ صحیح اعلام می‌کنند؛ حال آنکه کلمه «لمسنا»، بر پایه استم «مسن» به هیچ‌وجه استعمال ندارد. با استفاده از برچسب‌های ریشه که با نگرش استعمالی (نه نگرش منطق صرفی) انجام شده و استفاده از الگوریتم‌های بررسی استعمال و کاربرد کلمات، تا حدّ بسیار مطلوبی این چالش در موتور استمر نور مرتفع گردیده است. ازاین-رو، پژوهشگر با مراجعه به قاموس هوشمند نور، ابتدا با پاسخ‌های مربوط به «لَمَسَ» و سپس پاسخ‌های مربوط به «مَسَّ» در منابع لغوی مواجه شده و دیگر به ریشه «مسن» و مشتقات آن منتقل نخواهد شد. مسئله تغییر کلمات به واسطه قواعد اعلال و ادغام و تشخیص مفرد برای جمع‌های مکسر، از دیگر مسائلی است که در استمر نور بررسی و برای آن راهکاری ارائه شده است تا پژوهشگر در صورت مطالعه بر یک جمع مکسر و معنای لغوی آن، به‌راحتی به واژه مفرد آن نیز در منابع لغوی دست یابد.

3. تشخیص نوع کلمه توسط موتور تحلیلگر صرفی نور

در کنار استمرها، دسته‌ای از ماشین‌های هوشمند تحلیل‌گر صرفی نیز طراحی شده‌اند که علاوه بر تشخیص ریشه و استم، تمرکز اصلی خود را بر برچسب‌گذاری صرفی کلمات عربی همچون تعیین وضعیت نوع کلمه از لحاظ اسم، فعل و حرف و نوع هریک از آنها نهاده‌اند؛ برای مثال، ماشین هوشمند تحلیل صرفی BAMA Buckwalter (2007)، از پیشگامان این عرصه شناخته می‌شود. از شاخص‌ترین ماشین‌های تحلیل‌گر هوشمند متون عربی، می‌توان به الخلیل2 (Boudchiche; 2016) اشاره کرد. این موتور، در راستای ارتقای الخلیل1 (Boudlal et al; 2010) که یک تحلیلگر صرفی منبع ‌باز بوده و توسط تیم NLP دانشگاه حضرت محمد(ص) مراکش طراحی گشت، ساخته شد. این موتور، تمام حالات صرفی متصور برای یک کلمه عربی را به همراه ریشه، استم، لِمّا و برخی برچسب‌های صرفی مانند نوع کلمه، اعلام می‌داشت. موتور تحلیلگر صرفی MADAMIRA که توسط محققان بخش NLP دانشگاه کلمبیا در سال‌های اخیر طراحی و معرفی گردید (Pasha; 2014)، به همراه موتور هوشمند دیگری که در حال حاضر به صورت برخط و آفلاین در اختیار محققان قرار گرفته، یعنی تحلیلگر هوشمند SAFAR از فعالان این عرصه به شمار می‌روند.

در مرکز علوم تحقیقات کامپیوتری علوم اسلامی نیز طراحی و ساخت یک موتور هوشمند برچسب‌گذار کلمات عربی در لایه صرف، در سال‌های پیشین در دستور کار قرار گرفت (سریانی، مینایی، 1390) و با ارتقای آن در سال‌های بعدی (دانش، 1393)، قدم‌های مهمی را در تجزیه صرفی کلمات عربی طی نمود. بررسی نتایج تحلیلگر صرفی «نور» و مقایسه آن با برخی دیگر از تحلیلگرهای صرفی، حاکی از روند رو به رشد پاسخ‌های مطلوب در این موتور هوشمند داشت (الهی‌منش، 1394: 17). شیوه عملکرد موتور صرف، جهت تعیین نوع یک کلمه مبتنی بر تشخیص هوشمند تمامی حروف اصلی و زاید بوده و تنها به تشخیص پیشوند و پسوند کلمه اکتفا نمی‌شود. مجموعه حروف زاید، عبارت‌ از‌ 10‌ حرفی است که در کلمه «سألتمونیها» جمع آمده‌ و به واسطه برخی قواعد ماشینی در کلمات عربی قابل شناسایی هستند. تشخیص حروف اصلی در کلماتی که در معرض قواعد اعلال همچون حذف و قلب واقع شده‌اند، از نقاط قوت موتور صرف نور است. در کنار کدنویسی پیشرفته‌ای که در راستای شناسایی و تحلیل صرفی کلمات معتل، مضاعف و مهموز صورت گرفته، از تعداد داده‌ آماده که توسط محققان بخش متن‌کاوی مرکز نور فراهم آمده نیز استفاده شده است. موتور صرف نور، برای تحلیل کلماتی که سماعی هستند، از تعدادی بانک جانبی استفاده می‌کند که از آن جمله، می‌توان به بانک‌های اطلاعاتی مجموعه افعال غیرمتصرف (حدود‌ 70‌ رکورد)، حروف (حدود 130 رکورد)، جوامد (حدود 15000 رکورد)، جمع‌های‌ مکسر‌ (بیش از 18000 رکورد)، صفات مشبهه (بیش از 7500 رکورد) و مصادر ثلاثی مجرد (بیش از 10000 رکورد) اشاره نمود.

با استفاده از موتور صرف نور، علاوه بر ریشه، استم و لمّا (بُن کلمه)، نوع صرفی آن نیز از لحاظ اسم، فعل یا حرف مشخص شده و به همراه دیگر جزئیات صرفی، در فرآیند هوشمند اتصال به کلمات بانک مداخل مورد استفاده قرار می‌گیرد.

فرآیند اتصال کلمات ورودی به مداخل لغت‌نامه‌های عربی

از یک سو، با ایجاد «بانک مداخل» که داده‌ای منسجم از مداخل لغوی و توصیفات مندرج در واژه‌نامه‌های معتبر بوده و با چینشی نظام‌مند بر اساس «مدخل نماینده» و «توصیف نماینده» مرتب شده و از سوی دیگر، با تحلیل هوشمند صرفی کلمات ورودی پژوهشگران که به تشخیص ریشه، استم (میان‌وند) و لمّای (بن) کلمات منجر شده، تنها فرآیند باقی‌مانده، اتصال ماشینی کلمه مورد نظر پژوهشگران به نزدیک‌ترین مدخل نماینده از حیث لفظ و معنا است. با دقت نظر در اقدامات ذهنی و عملی یک پژوهشگر در هنگام مراجعه به منابع لغوی، می‌توان مراحل دستیابی به پاسخ مطلوب را در فرآیندهای ماشینی چنین رتبه‌بندی نمود:

1. نمایش مداخلی که با کلمه یا عبارت ورودی کاربر تطابق داشته یا اختلاف آنها یک «ال» باشد

مداخل لغوی که بر اساس فرآیندهای پیراسته‌سازی و تحلیل صرفی ذیل یک مدخل نماینده و یک لِمّای مشترک قرار گرفته‌اند، گاهی با همان حالت صرفی خود با کلمه ورودی کاربر تطابق می‌یابند؛ مثلاً کلمه «مُوَلّاها» ـ که اشاره به آیه 148 سوره بقره داشته و قرائت دیگری از «مولیها» است ـ در تاج العروس (همان؛ ج20: 313) به صورت مدخل وارد شده و در توصیف آن آمده است: «أَی اللّه تعالَى‏ یوَلِّی‏ أَهْلَ کلِّ مِلَّةٍ القِبْلَة التی تُرید.» با توجه به فرآیند پیراسته‌سازی در بانک مداخل، این کلمه ذیل مدخل نماینده «مولَّی» قرار می‌گیرد و با توجه به تجزیه صرفی و تشخیص لِمّای آن، در دسته «ولّی / یولّی / تولیة» قرار خواهد گرفت. اگر پژوهشگر کلمه «مولّاها» را جست‌وجو نماید، دقیقاً عبارت تاج العروس به عنوان اوّلین پاسخ برای او نمایش داده خواهد شد. پس از آن، دیگر مداخل لغوی که ذیل مدخل نماینده «مولّی» هستند و پس از آن، تمامی مداخلی که در دسته «ولّی / یولّی / تولیة» قرار گرفته و دارای لِمّای مشترک با کلمه «مولّاها» هستند و در مرحله آخر، مداخل دارای ریشه «ولی» در یک نظام اشتقاقی مرتب‌شده در اختیار کاربر قرار خواهد گرفت.

گفتنی است، اگر عبارت ورودی کاربر بیش از یک کلمه باشد، همین فرآیند جاری خواهد بود؛ یعنی اگر عبارت جست‌وجوشده با مدخل مرکبی از میان مداخل لغوی موجود در واژه‌نامه‌ها، تطابق داشته باشد، همان مدخل مرکب به عنوان پاسخ نخست در اختیار کاربر قرار خواهد گرفت؛ برای مثال، در تاج العروس (همان)، برای عبارت «ولّی عنه» آمده است: «ولَّى‏ عنه‏: أَی‏ أَعْرَضَ أَو نَأَى.‏» اگر عبارت جست‌وجوشده توسط کاربر نیز «ولّی عنه» باشد، دقیقاً همین توصیف از تاج العروس پاسخ نخست خواهد بود؛ در غیر این ‌صورت، هریک از کلمات آن عبارت، به صورت مجزا در فرآیندهای تحلیل صرفی هوشمند قرار گرفته و برای تمامی آنها ریشه، استم و لمّا تولید می‌شود. در مرحله آخر نیز از همنشینی و ترکیب چند استم یا چند لمّا نیز می‌توان به نزدیک‌ترین پاسخ دست یافت؛ مثلاً اگر عبارت مورد پژوهش کاربر، عبارت «وَلَّیتُ‏ عَنْهَا» از نهج البلاغه باشد (رضی، 1414: 418) باشد، پیراسته کلمات آن به صورت «ولّی عن» بوده و به همان مدخل تاج العروس، یعنی «ولَّی عنه» مرتبط خواهد شد.

2. نماش مداخلی که «مدخل نماینده» آنها با پیراسته (استم) کلمه ورودی کاربر تطابق دارد

اگر مطابق کلمه یا عبارت ورودی کاربر، مدخلی در میان بانک مداخل یافت نشود، به سراغ تطابق میان استم‌ها خواهیم رفت. استم مطلوب، آن میان‌وندی خواهد بود که در خروجی موتور استمر و موتور صرف، هر دو یکسان باشد. در صورت تطابق پیراسته کلمه ورودی کاربر با یکی از مداخل نماینده، تمام مداخل ذیل آن (یعنی مداخل پسر)، در اختیار پژوهشگر قرار خواهد گرفت؛ برای مثال، اگر پژوهشگری در جست‌وجوی مفهوم «ولیتموه» در عبارت «لِمَنْ وَلَّیتُمُوهُ‏ أَمْرَکم‏» از نهج البلاغه (رضی، همان: 136) باشد، ازآنجاکه این کلمه به همین شکل در بانک مداخل وجود ندارد، این کلمه پیراسته شده و به صورت «ولّی» میان مداخل نماینده جست‌وجو می‌گردد. مدخل نماینده «ولّی» در بانک مداخل، دارای مداخلی چون: «ولّیت»، «ولّیتک»، «ولّیتم» و «ولّیتنّ» بوده و تمامی این موارد، همراه با توصیفات به عنوان پاسخ نخست برای کاربر ارائه می‌گردد.

نکته قابل توجه اینکه در صورت بهره بیشتر از نتایج خروجی ابزارهای هوشمند تحلیل صرفی، می‌توان مداخل را متناسب با کلمه ورودی کاربر به شکلی هوشمند مرتب نمود؛ مثلاً اگر کلمه کاربر دارای پسوند مذکر (مانند همان کلمه «ولیتموه») است، ابتدا مداخل مذکر (یعنی «ولّیت»، «ولّیتک» و «ولّیتم») و سپس مداخل مؤنث (یعنی «ولّیتنّ»)، برای او نمایش داده شود.

3. نماش مداخلی که «مدخل نماینده» آنها با بُن (لمّا) کلمه ورودی کاربر تطابق دارد

اگر کلمه ورودی و استم آن با هیچ‌یک از مداخل پسر یا مداخل نماینده تطابق نداشته باشد، از لمّای کلمه که توسط موتور تحلیلگر صرفی نور شناسایی گردیده، استفاده شده و نزدیک‌ترین مدخل نماینده مرتبط به آن کلمه، در بانک مداخل جست‌وجو می‌شود. سپس، مداخل دیگری که ذیل یک لمّای مشترک قرار دارند، با حفظ نظام رتبه‌بندی خود برای کاربر نمایش داده می‌شوند؛ برای نمونه، اگر کاربری جهت فهم معنای عبارت مستدرک الوسائل در «هَلْ یتَحَابُّونَ وَ هَلْ یتَنَاصَحُونَ‏» (نوری، 1408: ج8، 310) بر کلمه «یتناصحون» کلیک نماید، ازآنجاکه عین این کلمه و پیراسته آن (یتناصح)، در میان مداخل لغوی و مداخل نماینده وجود ندارد، با استفاده از بُن کلمه، مدخل نماینده «تناصح» شناسایی شده و مداخل ذیل آن، مانند «تَنَاصحوا: با یکدیگر نصیحت کردند»، از لغت‌نامه مقدمة الأدب (زمخشری، 1386: 264) به عنوان پاسخ‌های نخست برای کاربر عرضه شده و پس از آن، دیگر مداخل مشترک در یک دسته از لمّا عرضه خواهد شد.

4. نمایش مداخل هم‌ریشه

در صورت عدم تطابق مداخل نماینده با پیراسته یا بُن کلمات ورودی یا فقدان تشخیص پیراسته یا بُن کلمات، تمامی مداخلی که دارای ریشه‌ مشترک با کلمه ورودی کاربر هستند، با همان چینش نظام اشتقاقی مدون در بانک مداخل برای کاربر عرضه خواهد شد. بیان این نکته خالی از لطف نخواهد که کلماتی که تنها به واسطه ریشه به مداخل متصل شده‌اند، به عنوان بازخوردی از عملکرد ابزارهای هوشمند تحلیلگر صرفی لحاظ شده و جهت رفع نقایص، به بخش متن‌کاوی گزارش می‌گردد.

غنی‌سازی محتوای مداخل لغوی

با فراهم شدن زیرساخت مناسب در لغت‌نامه هوشمند قاموس نور و محوریت یافتن «مداخل نماینده»، این امکان فراهم شده است تا شبکه‌ای از ارتباطات بین این مداخل بر اساس رویکردهای متفاوت شکل بگیرد. بی‌تردید، یک گام مهم در استفاده از پایگاه داده‌ها و استنتاج متون جهت استخراج ارتباطات و اطلاعات، بهره‌گیری از شبکه واژگانی (وردنت) است (Rajman and Besancon; 1998: 3). استفاده از شبکه واژگان، نه تنها در متن‌کاوی و تحلیل داده‌ها، بلکه در یادگیری و آموزش نیز کاربرد فراوان دارد. به‌طورکلی، استفاده از دانش واژگان، در یادگیری و خواندن متون زبان‌های خارجه ضروری است (Chen and Hsu; 2008: 153-180) معلمان زبان، از دو مهارت جهت درک معنای کلمات ناآشنا برای آموزش شاگردان خود استفاده می‌کنند: 1. مهارت حدس زدن (به عنوان مثال، توانایی استفاده از قرائن متنی و ساختاری برای تحصیل معنای صحیح کلمه همچون هم‌خانواده‌ها)؛ 2. توانایی استفاده مناسب از فرهنگ لغات (به عنوان مثال، ارجاع سریع به صفحه‌ای که شامل کلمه مورد نظر بوده و خواندن توضیحات مربوط) (See Sun et al.; 2011). با پیشرفت و گسترش فرهنگ لغات الکترونیکی و نرم‌افزارهای مبتنی بر داده، زبان آموزان نیز با کاهش زمان جست‌وجو، دسترسی کاملی به دانش واژگان پیدا کرده‌اند. فراتر از فرهنگ لغت، با استفاده از فرآیند ماشینی، امکان اطلاعات زبانی بیشتری مانند ترجمه ماشینی که در گذشته مهم‌ترین انگیزه طراحی این شبکه واژگانی بوده است، ابهام‌زدایی واژگان (WSD)، طبقه‌بندی اسناد، طراحی هستان‌شناسی در وب و همچنین، غنی‌سازی محتوای لغت‌نامه‌ها مانند: تعداد تکرار کلمات، تنوع استعمال و چگونگی ساختارهای گرامری و بسیاری دیگر از فواید مرتبط با متن‌کاوی در علوم اسلامی، امکان‌پذیر خواهد شد (سریانی، 1395: 48-49).

استفاده از برچسب‌های مختلف در شناسایی معنای یک کلمه، می‌تواند آن را در حلقه‌های ارتباطی مختلف از کلمات قرار دهد. در مباحث وردنت (شبکه واژگان)، اوّلین و اصلی‌ترین ارتباط معنایی کلمات، بین مترادفات است. از کلمه‌ای که محور قرار گرفته و باقی مترادفات و کلمات، با آن حلقه ارتباطی تشکیل می‌دهند، به ‌عنوان Lemma یاد شده و حلقه‌های ارتباطی حول یک کلمه را Synset می‌نامند. قاموس نور نیز به عنوان یک لغت‌نامه هوشمند، با استفاده از داده‌هایی که در اختیار داشته، اقدام به تولید حلقه‌های ارتباطی و ارائه برخی اطلاعات در حوزه شبکه واژگانی در قالب مترادفات، متضادات و مرتبطات نموده و از سوی دیگر، با غنی‌سازی محتوی به واسطه ارائه توصیفات مربوط به ریشه، غریب الحدیث و برخی فرهنگ اصطلاحات، اطلاعات مفیدی را در اختیار پژوهشگران قرار می‌دهد.

1. مترادفات

ترادف، رابطه بین دو مفهوم معادل یا نزدیک است که یکی قابلیت جانشینی دیگری را داشته باشد. ازاین‌رو، رابطه ترادف، یک رابطه دوسویه و متقارن است؛ مانند سه واژه: فهم، درک و علم. در برخی از منابع همچون المکنز (صینی، 1414) و المعجم المفصل فی المترادفات (طراد، 2009)، مؤلف به بیان مداخل مترادف پرداخته است. با پردازش محتوای این کتب و برقراری ارتباط ترادف بین مداخل ذکرشده، هنگام ارائه پاسخ به کاربر، مداخل مترادف با درخواست کاربر ارائه گشته و امکان انتقال بین این مداخل نیز فراهم می‌گردد. باید توجه داشت، در فرآیندهای ماشینی، برخلاف مراجعه به کتاب فیزیکی، امکان ایجاد رابطه دوسویه کاملاً محقق است.

2. متضادات

تضاد، رابطه بین دو مفهوم مخالف است. تعدادی از منابع به جمع‌آوری و ارائه مداخلی پرداخته‌اند که رابطه تضاد با یکدیگر دارند. از جمله این کتاب‌ها، می‌توان به کتاب المعجم المفصل فی المتضادات (طراد، 2010) اشاره نمود که به سبب نگارش متأخر آن، دارای نگارش منظم و بهتری است. اطلاعات این کتب نیز پس از پردازش ماشینی، در بانک متضادات لغت‌نامه قرار گرفته و متناسب با برخی از پاسخ‌های لغت‌نامه، موارد متضاد با پاسخ نیز در اختیار کاربر قرار می‌گیرد. با نظر به گستره‌ وسیع مفهوم متضاد که شامل هر سه نوع ارتباط تلازم (مانند مفهوم بدهکار و طلبکار) تتمیم و تکمیل (تناقض) و تضاد منطقی است، به تضاد در معنای عام آن اکتفا شده و باید در صورت ارتقا و بررسی محققان خبره، امکان ایجاد شبکه‌ای برای تفکیک تمامی انواع متضاد و مناسب با زبان عربی مهیا شود.

3. اضداد

رابطه اضداد، یعنی اینکه یک کلمه دارای دو معنای متضاد یا مخالف به معنای اعم باشد. این تقابل دو معنا، گاهی از اختلاف برخی لغویون نیز ناشی می‌گردد؛ مثلاً ابن‌انباری (1960: 22) برای فعل «عَسی»، دو معنای متضاد ذکر کرده است؛ یکی به معنای شک و طمع، و دیگری به معنای یقین. کتاب المعجم المفصل فی الأضداد (بطرس، 2003)، از جمله کتاب‌های نگارش متأخر است که زحمات گذشتگان را به شکلی مطلوب ساماندهی نموده و در فرآیندهای شبکه واژگانی مرکز نور مورد استفاده قرار گرفته است.

4. مرتبطات

«مرتبطات»، عنوان عامی است که حتی شامل «مترادفات» و «متضادات» هم می‌شود؛ ولی آنچه در اینجا مقصود است، مداخلی هستند که حول محور یک موضوع با هم ارتباط دارند. استفاده از فرهنگ‌های طیفی، امروزه نقش مهمی را در فعالیت‌های هوش مصنوعی ایفا نموده و جای خالی آن در متون علوم اسلامی نیز کاملاً مشهود است. در معاجم موضوعی همچون «فقه اللغه» ثعالبی (429ق)، به دسته‌بندی مداخل حول موضوعات ـ و نه حول ریشه ـ پرداخته شده است. اگر مدخلی که به عنوان پاسخ لغت‌نامه ارائه می‌شود، دارای این نوع ارتباط موضوعی با سایر مداخل باشد، کاربر می‌تواند علاوه بر مشاهده توصیف مدخل درخواستی خود، مداخل مرتبط با آن را ذیل موضوع مشخص شده ببیند. در زمینه ارتباطات شمول (رابطه کلی و جزئی) یا جزءواژگی (رابطه جزء و کل) و حتی سببیت، کتاب‌هایی همچون المخصص (قرن پنجم) نوشته ابن‌سیده، در لغت‌نامه هوشمند مرکز نور مورد استفاده قرار گرفته است. المخصص، لغت‌نامه‏اى 17جلدى از گسترده‏ترین معاجمى است که بر اساس معناى کلمات و به صورت موضوعى تدوین یافته است. مؤلف، اوّلین موضوعى که در کتاب خود بعد از مقدمه‏اش ذکر مى‏کند، انسان است و سعى نموده یک سیر منطقی و عرفی را در ترتیب موضوعات و به تبع آن، در ترتیب باب‌ها رعایت نماید؛ مثلاً ذیل موضوع «خلق انسان»، بابى به نام «الحمل والولادة» قرار گرفته است که کلمات آن، بر اساس اوّلین روزهاى انعقاد نطفه تا ایام بزرگسالى مرتب و شرح داده شده است. تلخیص 2جلدی از کتاب المخصص نیز با نام الإفصاح فی الفقه اللغة منتشر گردیده که می‌تواند جهت پرهیز از تطویل کتاب اصلی و چینش منسجم آن، در استخراج اطلاعات مفید باشد.

استخراج جمع‌های مکسر جمع‌آوری‌شده در کتاب ارزشمند المعجم المفصل فی الجموع نوشته دکتر بدیع یعقوب و تکمیل آن با داده برچسب‌گذاری‌شده در مرکز نور که منجر به تجمیع بیش از 20هزار جمع مکسر شده، به عنوان مرتبطات در جهت اتصال مفرد به جمع مکسر و برعکس و ارائه اطلاعات جانبی به پژوهشگران نیز مورد استفاده قرار گرفته است.

5. شاهد مثال؛ به‌خصوص از آیات و روایات

در کنار بیان مفهوم مداخل، آوردن مثال‌های متعدد نیز بسیار ضروری است. آوردن مثال و شیوه کاربرد لغات در جایگاه‌های مختلف زبانی، یکی از نقاط عطف لغت‌نامه‌های بزرگ است؛ حتی در مواردی که مثال مناسبی بیان نشده باشد، به‌راحتی می‌توان مثال‌های ساختگی، ولی صحیح را استخراج نمود. نمونه‌هایی در قالب مثال‌های کلی همچون «ذهب بشیء» (معادل something, someone,.. در زبان انگلیسی) و مثال‌هایی با مصداق مشخص و جزئی. با استفاده از فرآیندهای ماشینی، می‌توان آیات و روایاتی را که مشتمل بر کلمه یا عبارت مد نظر پژوهشگر است نیز برای او نمایش داد و بر اساس تعداد کلمات یا کاراکترهای از پیش تعیین‌شده، علائم ویرایشی و برچسب‌ها، محدوده مشخصی از آیات و روایات معتبر را به صورت گزینشی برای کاربران ارائه نمود.

6. غریب الحدیث

تعدادی از معاجم لغوی، فقط مداخلی را جمع‌آوری و توصیف کرده‌اند که در ضمن حدیثی آمده و فهم معنایی آن، نیاز به توضیح داشته باشد. احادیث مشتمل بر این مداخل به همراه توصیف آنها، در سرویس لغت‌نامه در کنار ارائه توصیفات لغوی در اختیار کاربر قرار خواهد گرفت. از جمله این کتاب‌ها می‌توان به الفائق نوشته زمخشری (538ق) و کتاب النهایة نوشته ابن‌اثیر (606ق) اشاره نمود.

7. اصطلاحات

هر زبانی، اصطلاحات و عبارات ویژه‌ای دارد که به صورت تحت‌اللفظی قابل درک و ترجمه نیستند؛ حتی اگر زبان‌آموز تمام کلمات یک عبارات را بداند و به‌خوبی به دستور زبان مسلّط باشد، باز هم در فهم معنای عبارت موفق نخواهد بود. بسیاری از ضرب‌المثل‌ها، عبارات غیررسمی و گفتارهای محاوره، ممکن است چنین مشکلی را برای زبان‌آموز ایجاد کنند. این اصطلاحات، در واژه‌نامه‌های ویژه‌ای با نام «Idioms dictionary» مورد بررسی قرار می‌گیرند. فرهنگ اصطلاحات در حوزه‌های متنوع علمی نیز ازآنجاکه مشتمل بر ساختار مدخل‌محور هستند، می‌توانند به عنوان اطلاعات جانبی، در کنار توصیف معنایی مداخل عرضه گردد. با انتخاب فرهنگ‌های اصطلاحات در حوزه علوم متنوع و پردازش اطلاعات آنها در لغت‌نامه، امکان آشنایی کاربر با مفهوم اصطلاحی مداخل نیز فراهم شده است. در فاز نخستِ پروژه‌ لغت‌نامه هوشمند، استفاده از اصطلاح‌نامه‌های موجود در نرم‌افزارهای رومیزی مرکز تحقیقات کامپیوتری علوم اسلامی، در اولویت قرار گرفت.

8. ریشه‌شناسی

یکی از مهم‌ترین مباحث زبان‌شناسی، بحث ریشه‌شناسی است که نقش اصلی را نیز در سیر تحولات تاریخی یک زبان ایفا می‌کند. فهم درست متون، به‌خصوص متون تاریخی، منوط به فهم صحیح معنای واژگان آن است و در این بین، ریشه‌شناسی با مشخص نمودن تطورات واژه، رابطه‌ لفظ و معنا را در هر دوره مشخص می‌نماید (شجاعی و ثقفیان، 1396: 8-9). در کتاب ارزشمند «معجم مقاییس اللغه» نوشته ابن‌فارس (395ق)، در ابتدای هر بخش و قبل از پرداختن به مداخل، مؤلف ذیل هر ریشه، اقدام به توصیف معنایی خودِ آن ریشه نموده است. این اطلاعات نیز پس از استخراج ماشینی و بازبینی دستی، به عنوان یک سرویس مستقل در بیان معنای ریشه و ذیل هر مدخل، در اختیار کاربر قرار می‌گیرد. از کتاب‌های متأخرین نیز می-توان به کتاب «التحقیق فی کلمات القرآن الکریم» نوشته حسن مصطفوی نیز اشاره نمود که با تمرکز بر واژگان قرآنی، اثری ارزشمند را در ریشه‌شناسی کلمات عربی ارائه نموده است.

بحث ریشه‌شناسی می‌تواند تأثیری عمیق نیز در مباحث شبکه واژگانی عربی داشته باشد. در مباحث دستور زبان عربی، مبحثی به عنوان اشتقاق مطرح است که برخی از اندیشمندانِ این عرصه، آن را به سه نوع: صغیر، کبیر و اکبر تقسیم نموده‌اند (کبیر، 1389: ج1، 174). نوع اوّل، مانند اشتقاق ضارب و مضروب از مصدر «الضرب» که در آن، ترتیب حروف اصلی و ریشه کاملاً رعایت شده است. نوع دوم، مانند کلماتی که دارای همان حروف هستند؛ ولی ترتیب رعایت نشده است؛ مانند «کلم» (به معنای جرح) و «لکم» (به معنای ضربت با دست) که دارای معنایی نزدیک به یکدیگرند و همچنین است کلماتی مانند «کمل» و «ملک». نوع سوم، اشتقاقی است که برخی حروف اصلی تغییر نموده و با حروف هجایی مشابه جایگزین شده است. مانند دو کلمه «فصم» و «قصم» که جامع معنای آن دو، شکستن و قطع کردن است و همچنین است کلمات «ثلب و ثلم» و «فطر و فطم». با بهره از ابزارهای هوشمند متن‌کاوی، می‌توان کلمات عربی را بر اساس نوع و چینش حروف تحلیل ماشینی نمود. اگر شبکه واژگانی به‌گونه‌ای ترسیم شود که اغلب کلماتی که دارای اشتقاق کبیر و اکبر هستند، رابطه شبکه‌ای و معنایی با دیگر کلمات داشته باشند، چه‌بسا بتوان چنین نتیجه گرفت که در زبان عربی، نه‌تنها کلمات، بلکه حروف نیز دارای ماهیتی استقلالی بوده و هر حرف در بارِ معنایی کلمات و هم‌معناها دخیل است؛ مطلبی که در هیچ‌یک از دیگر زبان‌ها به آن اشاره‌ای نشده و هنوز مورد پردازش هوشمند تحلیلگران زبان عربی واقع نشده است.

9. استفاده از اطلاعات مربوط به حوزه مدیا

استفاده از تصاویر و صوت‌هایی جهت تلفظ صحیح مداخل عربی در کنار نوشتار فونتیک و بین‌المللی کلمات عربی، امری ضروری است.

نتیجه و پیشنهاد

پس از بررسی اجمالی انواع زبان عربی و سیر تحولات تاریخی آنها، به ساختار و ویژگی لغت‌نامه‌های مربوط به هرکدام از زبان‌ها پرداخته شد و بر ضرورت طراحی و تولید یک لغت‌نامه هوشمند رقومی، از دو جهت تأکید گشت:

1. دسترسی سهل و آسان پژوهشگران به منابع لغوی با گذر از شیوه‌های سنّتیِ مراجعه به منابع لغوی متعدد و پیاده‌سازی حداکثری الگوهای ماشینیِ هوشمند جهت ارائه پاسخ‌های صحیح و جامع به پژوهشگران.

در این بخش، چالش‌های مطرح در لغت‌نامه‌های هوشمند مورد تحلیل و بررسی قرار گرفت و «قاموس نور» به عنوان یک لغت‌نامه هوشمند که در رفع آن چالش‌ها دارای عملکرد مطلوبی بوده است، معرفی گشت. در این لغت‌نامه، با ایجاد «بانک مداخل» که داده‌ای منسجم از مداخل لغوی و توصیفات مندرج در واژه‌نامه‌های معتبر بوده و با چینشی نظام‌مند بر اساس «مدخل نماینده» و «توصیف نماینده» مرتب شده، لغت‌نامه‌های متقدم عربی بر اساس یک ساختار واحد ساماندهی شدند و از سوی دیگر، با تحلیل هوشمند صرفی کلمات ورودی پژوهشگران توسط دو موتور قدرتمند تحلیلگر صرفی نور و استمر هوشمند نور که به تشخیص ریشه، استم (میان‌وند) و لمّای (بن) کلمات منجر شده، زمینه اتصال ماشینی به نزدیک‌ترین مداخل لغوی برای پژوهشگران مهیا گشت. تحلیل صرفی کلمات، از دستاوردهای منحصربه‌فرد این واژه‌نامه هوشمند است که در قالب پایگاه اینترنتی، نرم‌افزار رومیزی و تلفن‌های همراه قابل استفاده است. همچنین، با ایجاد شبکه واژگانی بین مداخل مشتمل بر مترادفات، متضادات، اضداد، الحاق اصطلاحات، بحث‌های ریشه‌شناسی و تطبیق بر آیات قرآن و روایات اهل‌بیت(ع)، اطلاعات متنوع و ارزشمند دیگری نیز در اختیار پژوهشگر قرار خواهد گرفت که این واژه‌نامه هوشمند را از دیگر رقبای خود متمایز می‌سازد.

2. احیای لغت‌نامه‌های عربی مبتنی بر رویکرد قرآنی و روایی.

طراحی لغت‌نامه هوشمند «قاموس نور» می‌تواند حرکتی پویا در نشر معارف اهل‌بیت(ع) بوده و به عنوان خدمتی به علوم اسلامی، پژوهشگران را به بحث‌های زبان‌شناسی و لغت‌شناسی مربوط به قرآن و روایات نیز ترغیب نماید.

آنچه تاکنون در فاز عملی «قاموس نور» صورت پذیرفته، تنها محدود به برخی واژه‌نامه‌های معتبر عربی بوده و در برخی فعالیت‌های هوشمندسازی، هنوز بازبینی نهایی توسط محققان به سرانجام نرسیده است. ازاین‌رو، توسعه منابع لغوی، تقویت ابزارهای تحلیل صرفی، بازبینی دقیق مداخل و توصیفات آنها جهت تجمیع و ساماندهی بهتر، گسترش شبکه واژگانی، اصطلاح‌نامه‌ها، توضیحات مربوط به أعلام از کتاب‌های تخصصی و ارتباط بهتر با آیات و روایات، از اهداف پیش رو در فازهای بعدی این لغت‌نامه هوشمند است. هدف نهایی و مطلوب از انجام تمامی این مراحل، ارائه یک لغت‌نامه متقن بر اساس مداخلی است که برای هریک از آنها، توصیفات مندرج در تمامی لغت‌نامه‌های معتبر بر اساس مفاهیم، درصد استعمال و حقیقت و مجاز ترتیبی منسجم یافته‌ و تمامی کلمات عربی نیز با تحلیل صرفی هوشمند به آنها متصل گردیده است. توسعه زبانی از عربی به دیگر زبان‌ها و برعکس، هدفی است که با پالایش مداخل نضج‌یافته در واژه‌نامه‌های متأخر، به‌راحتی قابل دستیابی بوده و با به‌کارگیری انواع موتورهای تحلیلگر کلمات فارسی و انگلیسی و دیگر زبان‌ها که طراحی و تولید آنها به‌مراتب از زبان عربی راحت‌تر است، می‌توان به لغت‌نامه معتبر چندزبانه مبدل گشت. با تحقق این اهداف، امید است «قاموس نور» به مرجعی در حوزه لغت عربی مبدل گردد و بستری مناسب جهت ارائه بحث‌های مربوط به ریشه‌شناسی، زبان‌شناسی و تمامی مسائل مهم مربوط به لغت توسط محققان و اندیشمندان باشد.

همان‌گونه‌که ریشه‌شناسی در گروی فهم تغییر و تحولات تاریخی یک زبان است (Campbell; 1998: 1) و می‌توان به واسطه ریشه‌شناسی سیر تغییر کلمات را در طول تاریخ مشاهده نمود، عکس آن نیز صادق بوده و بحث زبان‌شناسی و ریشه‌شناسی و مباحث مربوط به فقه اللغة نیز می‌تواند در مباحث تاریخی مربوط به اشخاص و مکتوباتِ به‌جای‌مانده راهگشا باشد؛ یعنی بین زبان‌شناسی تاریخی و مباحث فقه اللغة و ریشه‌شناسی، یک پیوند دوسویه برقرار گردد. تحلیل هوشمند متن‌های برجای‌مانده از اعصار گذشته، به واسطه ابزارهای متن‌کاوی و بررسی تعداد، نوع و شیوه‌ استعمال کلمات در یک نگاشته، می‌تواند به عنوان شناسنامه‌ای برای یک اثر تلقی شده و زمان تألیف، اثرپذیری آن از نویسندگان متقدم از خود، اثربخشی آن بر آثار پسینی و خصوصیات سبک نگارش نویسنده مشخص گردد.

باید توجه داشت ایجاد بانک مداخل به همراه تمامی توصیفات و اطلاعاتی که حول این مداخل شکل گرفته، می‌تواند به عنوان یک داده جدید در عرصه زبان‌شناسی قلمداد شود و در سیستم‌های بازیابی اطلاعات نیز نقش مهمی را ایفا نماید. استفاده از عناصری چون: مدخل لغوی، توصیف عربی، ترجمه فارسی و دیگر زبان‌ها و شبکه واژگانی، الگویی از همنشینی کلمات را ایجاد خواهد کرد که می‌تواند کمک شایانی به سیستم‌های هوشمند متن‌کاوی همچون موتورهای ترجمه و ماشین‌های مشابهت‌یاب معنوی، طبقه‌بندی موضوعی متون، خلاصه‌ساز، خوشه‌بندی متون و سیستم‌های دیگری که وابسته به مداخل لغوی و تجزیه صرفی کلمات هستند، داشته باشد. نه تنها بهره از این داده‌ ارزشمند می‌تواند راهگشای بسیاری از فعالیت‌های متن‌کاوانه باشد، مراحل طراحی و شیوه دستیابی به این داده نیز می‌تواند به عنوان یک الگوی کاربردی در دیگر علوم اسلامی مورد استفاده قرار گیرد.

در این طرح، تمامی گروه‌های پژوهشی متناسب با حوزه فعالیت‌های خود درگیر بوده و هر توضیح و توصیفی (توصیف به معنای عام آن، یعنی عبارتی را که دارای «از» و «تا» باشد) را که جهت اتصال به مداخل این پیکره دادگان آماده باشد، به مداخل متصل می‌نمایند. استفاده از متون کتاب‌های موجود، اعم از فهرست‌های متنوع موجود در هر کتاب و اطلاعات پیرامون یک مدخل یا موضوع در متن اصلی یا مستندسازی و حاشیه‌نگاری پاورقی‌ها نیز از جمله اطلاعاتی است توسط محققان هر علوم به مداخل متصل می‌گردد. نمونه روشن آن، در کتاب‌های نرم‌افزار تراجم مانند اعیان الشیعه، الذریعة و یا نرم‌افزار طب، جغرافیا و موارد مشابه جهت توصیف یک شخص، یک گیاه، یک منطقه و غیره خواهد بود. یکی از مهم‌ترین منبع موجود برای این امر نیز مجلات علوم اسلامی منتشرشده در پایگاه نورمگز است. کلیدواژه، عناوین، چکیده، پاورقی‌ها، منابع انتهایی، لاگ کاربران، پیشنهاد مقالات مشابه، لینک ارتباطی با کتابخانه آنلاین و بسیاری اطلاعات دیگر، همگی گنجی غنی هستند که می‌توانند در ایجاد یک پیکره دادگانی منسجم از علوم مختلف مؤثر باشد.

گفتنی است، در مرحله تحلیل صرفی کلمات ورودی و فرآیند اتصال عبارات به پیکره دادگان، یکبار این مسیر در لغت‌نامه هوشمند طی شده است و پژوهشگران با جست‌وجوی موضوعات پژوهشی خود، با استفاده از این ابزارهای هوشمند می‌توانند به گنجینه اطلاعات مدون در پیکره دادگان ان علوم دست یابند.

نکته پایانی، اینکه اگرچه در لغت‌نامه‌های چاپی سنّتی، در مورد مهارت‌های مرتبط با استفاده از فرهنگ لغات، بسیار صحبت شده است، اما سخن پیرامون مهارت‌های مورد نیاز در زمینه استفاده از فرهنگ لغات الکترونیکی، بسیار اندک بوده و به یکی از دغدغه‌های جدی طراحان این برنامه‌ها مبدل شده است (Lew; 2013: 16). ازاین‌رو، در کنار طراحی یک پوسته و قالب مطلوب مطابق با نیازهای کاربران و خدمات ارائه‌شده به پژوهشگران، نیاز به آموزش‌هایی در کسب مهارت در زمینه استفاده از لغت‌نامه هوشمند نور نیز امری انکارناپذیر است. فرآیندهای تحلیل صرفی و استفاده از ابزارهای متن‌کاوی به همراه گستره اطلاعات ارائه‌شده در مورد کلمات عربی، چه بسا عرضه الکترونیکی لغت‌نامه هوشمند را با چالش‌هایی مواجه سازد که در گذر زمان و بازخورد نظرات پژوهشگران، در مسیر رشد و ارتقا قرار گیرد.