مقدمه دوم: رایانه دنیایی را به وجود آورد که در علوم مختلف، شریکِ بی رقیبِ انسان، به دلیل «سرعت، انعطاف و فراموش نکردن» باشد؛ یعنی دنیایی که تفکر، خلاقیت و برنامهریزی به عنوان وظیفه انسان قرار داده شد و در مقابل، سرعت بخشیدن به محاسبات، سرعت بخشیدن به تبادل اطلاعات، آسان کردن ارتباط بین انسانها، جمعآوری انبوه اطلاعات و لحاظ کردن همه آنها بدون فراموش کاری و از قلم افتادن، وظیفه رایانه گردید. برای همین، به این دوره «قرن رایانه و ارتباطات» میگوییم.
اما هدف از دو مقدمه مذکور این است که بر خلاف تصور رایج، بسیاری از طرحها نقطه شروعشان، نیاز و خلأ موجود در علم یا فنون بوده است. برای همین، متخصصان را به تفکر درباره راه حل واداشته و علوم رایانه نیز نقش ابزار مؤثر را در این میان بازی میکند. کمتر پیش آمده که بدون احساس نیاز، و تنها خلاقیت و ابتکار، طرحی را به وجود آورد و به پیش برد. پس در تحلیل هر طرح موفقی باید نیازها و کمبودها را دید و عوامل سوق دهنده به این راه حل را تحلیل کرد.
نمونه یک برنامه تبدیل تصویر به متن
در مقوله هوش مصنوعی در زبانهای طبیعی نیز همین نکتهها وجود دارد. ابتدا پاسخ به این سؤال بسیار مهم و کلیدی است که:چه نیازی به پردازش ماشینی یک زبان طبیعی وجود دارد؟ چه هدفی از ماشین انتظار میرود؟ و در نهایت، این طرح چه نیازی را برآورده میکند؟ پس از پاسخ به این سؤالها، به پلکان بعدی میرویم که با چه اسلوبی این طرح عملی میشود؟ مقدمات مورد نیاز چیست؟
معمولا افراد یا شرکتها نیازها و دلایل مختلفی برای ماشینی کردن یک زبان طبیعی دارند؛ مثلا یک محقق زبانشناس از این جهت به این مقوله علاقهمند میشود که ماشینیسازی یک زبان، مستلزم باببندی دقیق و ظریف آن علم و داشتن قواعد محکم و عام میباشد. پس انگیزهای است برای کنجکاوی و تحقیق بیشتر در زبان مورد علاقه و به دست آوردن قواعد و باببندی کردن صرف و نحو در یک زبان. حال ممکن است در زبانی علم صرف و نحو از سابقه کار تحقیقی طولانی و مداومی برخوردار باشد «مانند زبان عربی»، یا ماشینیسازی، متخصصان آن زبان را به تحقیق وادارد؛ همانطور که در بیشتر زبانهای هند و اروپایی «مانند فارسی و انگلیسی» رایج است.
از دیگر دلایل گرایش به ماشینیسازی میتوان به شرکتهای فعال در عرصه ترجمه اشاره کرد که میتوانند با ماشینی کردن ترجمه متون، به سود بالا با هزینه کم برسند؛ یا سازمانهای تحقیقاتی که با تبدیل صدا به متن یا تصویر به متن «OCR»، از منابع زیادی در امور پژوهشی خود بهره میبرند؛ یا خلاصهبرداری از یک متن به گونهای که معنا دچار دگرگونی و کمبود نشود؛ یا استخراج موضوعات از یک متن و طرحریزی یک معجم موضوعی و.... .
نمونه ای از برنامه صرف و تشریح ساختار ریشه در زبان عربی
از دیگر مزایای ماشینیسازی میتوان به چند مورد زیر اشاره کرد:
- سرعت بسیار بالا در رسیدن به نتایج مطلوب یا نیمهمطلوب و در نتیجه کاهش هزینهها؛
- استفاده از نیروی انسانی در امور سنگین تحقیقی و عیبیابی پاسخها؛
- دقت بالا در استفاده از منابع انبوه و اطمینان از لحاظ شدن همه قواعد در پاسخها؛
- دستیابی به قواعد و قوانین به صورت تجربی و استقرایی که شاید در هیچ منبعی مکتوب نشده است.
نکتهای که بسیار حائز اهمیت است و در طول کار نباید کمرنگ شود، این است که هر کدام از هدفهای مورد نظر، مقدمات خاص خود را دارد و مراحل خاصی را میپیماید. متأسفانه در بسیاری از امور تحقیقی، پس از ورود به طرح و اجرایی شدن بخشهایی از آن، هدف اصلی گم میشود و یا به هدف دیگری تبدیل میشود و نتیجه آنکه گروه تحقیقی پس صرف زمان و هزینه بسیار، نمیداند که دنبال چه بوده و در آینده قرار است به دنبال چه باشد!
این مشکل، معمولا در فعالیتهایی پیش میآید که آینده کار دقیقاً مشخص نبوده و تجربه قبلی در آن وجود ندارد. در نتیجه، کار به روش آزمون و خطا به پیش میرود. به همین جهت، هدفهای اولیه و میانی ترسیم میشود، ولی بعد از رسیدن به مراحل پایانی میبینیم که نه تنها هدفها را برآورده نکردهایم که به اهداف جدید هم نرسیدهایم. در مواردی هم هدفها برآورده میشود، ولی با وجود استعداد بیشتر برای ادامه، هدفهای بزرگتر در دستور کار قرار نمیگیرد و حتی به آن فکر نمیشود.
متنکاوی در زبان عربی
زبان عربی از معدود زبانهایی است که دارای منابع انبوه و تجربه تحقیقی بسیار در مورد زبانشناسی است. از طرفی، خود زبان عربی دارای استعداد و کشش فوق العادهای بوده و اَعراب جاهلی به دلیل اشتیاق به کلام فصیح و بلیغ، در این زبان کار کردهاند و آن را پروراندهاند. به همین جهت، در بسیاری از منابع ادبی زبان عربی از اشعار و نثر ادبی مربوط به دوران جاهلیت بسیار سخن به میان آمده و به عنوان شاهد مثال بر قواعد صرفی و نحوی بیان شده است. از سوی دیگر، با ظهور اسلام و بهخصوص معجزه جاوید آن، قرآن کریم، همت مسلمانان برای کاوش در ابعاد مختلف و اعجاز این کتاب آسمانی بیشتر شد. تصریح قرآن کریم(1) به زبان عربی و توصیه پیامبر مکرم اسلام «صلی الله علیه و آله و سلم» و امامان شیعه «علیهم الصلاه و السلام» به یادگیری زبان قرآن و درک بیشتر آیات الهی، باعث شد که علم صرف و نحو عربی همیشه مورد توجه قرار گیرد و از پایههای ثابت درسهای علوم دینی باشد.(2)
این پیشینه غنی در زبان عربی، کار ماشینیسازی را بسیار آسان و راحت مینماید و برای شروع، کمتر نیاز به کشف قواعد و استقرا در متون دارد. از این گذشته، در مراکز تحقیقاتی معتبر دنیا، در زمینه زبان عربی طرحهای ماشینی زیادی ارائه شده و به نتیجه رسیده است. در نتیجه، برای گروههای تازهکار، فضای طرح خیلی گنگ و ناشناخته نیست.
برنامه صرف ساخته شده در مرکز تحقیقات علوم اسلامی نور – گروه متنکاوی
با توجه به دو مقدمهای که در ابتدای مقاله گفته شد، مرکز تحقیقات کامپیوتری علوم اسلامی برای ماشینیسازی به برنامهای بومی بر پایه منابع مرکز، نیاز دارد. به عنوان شروع، چنین مقرر شد که در دو حوزه کلمهشناسی (علم صرف) و عبارتشناسی (علم نحو) کار شود. در زمینه علم صرف، به برنامهای نیاز داشتیم که بتواند تمامی حالتهای کلمه را در زبان عربی، با تعریف و اصطلاحات موجود در خود علم صرف بیان نماید.(3) این برنامه باید بتواند به هدفهای زیر به عنوان اهداف اولیه برسد:
- برچسب زنی کلمات «Tagging» به صورت برچسبهای صرفی و در مرحله بالاتر برچسبهای نحوی؛
- تعیین کلمات مشتق و جامد و تشخیص ریشه برای کلمات مشتق و پیراستهسازی؛(4)
- تعیین اعلام در میان کلمات جامد و جداسازی آنها و همچنین تشخیص نوع آنها (شخص، مکان، زمان، کتاب، فرقه، حوادث)؛
- تشخیص مصدر و نمایهزنی(5) بر کلمات؛
- تشخیص کلمات مستعمل در زبان عربی و جداسازی کلمات غیر مستعمل(6) یا کلمههای مُعرَّب از زبانهای دیگر؛
- برنامهای که با متون و منابع اسلامی و بیان قدیمی متناسب باشد، نه بر اساس گویش و کتابت عربی محاورهای و امروزی؛
- متناسب با تعریفها و اصطلاحات موجود در علم صرف و نحو باشد؛
- با توجه به بررسیهای انجامشده هنوز برنامه مناسبی که بتواند همه این اهداف را برآورد، یافت نشده است.(7) اما تحقیقات و مقالههای زیادی در این زمینه ارائه شده است که راهنمای خوبی برای کارهای آینده میباشد؛ حتی برخی برنامههای متنباز (Open source) که در این زمینه ارائه شده بود، نیز به کار گرفته شد(8) و کمک بسیاری به طرح نمود.
علاوه بر این، در طول کارهای متعدد تحقیقی در مرکز تحقیقات کامپیوتری، بانکهای غنی و متعددی در اختیار گروه قرار گرفت که این بانکها کمک شایانی در تسریع روند کار نمود. البته در برخی موارد اقدام به ایجاد بانکهای مورد نیاز نمودیم. سابقه کار قاعدهمحور در مرکز بسیار کم بوده است؛ به گونهای که در نرمافزارهای موجود، نرمافزاری یافت نشد.(9) استخراج قواعد صرفی و ماشینیسازی کردن آنها، از کارهای بزرگ گروه متنکاوی بوده است.
مرحله اول: اهداف طرح متنکاوی در مرکز
یک پروژه از ابتدای ایده بودن تا به انتها رسیدن، از مراحل مختلف تحقیقی و فنی میگذرد. بیشترین اتلاف وقت، در مرحله تحقیقاتی آن است؛ به عنوان مثال، طرح معجم موضوعی بحار الانوار، چیزی در حدود 7 سال کار تحقیقی داشته است. اگر زمان تحقیق و آمادهسازی محتوا در یک طرح را کاهش دهیم، پیشرفت بالایی در فرآوری محتوا داشتهایم. الزام به ماشینی شدن قسمتهایی از پژوهشهای محتوایی، ایجاب میکند که به مقوله متنکاوی هوشمند بپردازیم. از جمله هدفهای مورد نظر در ابتدای این طرح، میتوان به موارد ذیل اشاره نمود:
- تشخیص جامد و مشتق (ریشهزنی برای مشتقات)؛
- تعیین نمایه بر کلمات؛
- تشخیص اعلام در متن؛
- تشخیص موضوع بر متن و تعیین کلمات کلیدی متن؛
- تلخیص و چکیده گیری؛
- ساخت درختواره به صورت ماشینی.
برنامه صرف ساخته شده در مرکز تحقیقات علوم اسلامی نور – گروه متنکاوی
البته در ادامه طرح اهداف دیگر نیز به ذهن رسید و حتی اهدافی ناخواسته به دست آمد، مانند:
- تشخیص کلمات مستعمل و غیر مستعمل در زبان عربی؛
- تشخیص تمامی اشتقاقهای فعلی و اسمی یک ریشه؛
- تشخیص قواعد و رولهای پیشرفته صرفی در برنامه صرف؛
- امکان آموزش صرف توسط ماشین؛
- دستیابی به چندین قاعده نحوی پر کاربرد در حین کار در صرف (مضاف و مضاف الیه).
حال که در مرحله تکمیل لایه صرف هستیم، میتوان اهدافی برای آینده پیشبینی نمود:
- ابهامزدایی کلمات در لایه صرف؛
- تشخیص نقشهای نحوی و علامت گذاری این نقشها در متن؛
- ساخت پیکره متنی انبوه و علامت خورده در صرف؛
- ورود به لایههای معنایی و تشخیص ماشینی مفاهیم کلمه یا عبارت یا جمله:
♦ مقایسه متون از لحاظ معنا و نسبتسنجی میان آنها (تشخیص مشابهتها و تضادهای معنایی بین متون).
♦ ساخت خط زمان (Timeline) و بررسی موضوعات و مطالب مطرح شده در موقعیتها و زمانهای مختلف، به گونهای که سیستم بتواند برای محقق، فهرستی از مطالب مطرح شده در علمی خاص را بیان کند و سیر مطالب در طول تاریخ، به همراه تغییرات آن نیز آورده شود. این طرح در بررسی روایات و طرحهای پژوهش احادیث، بسیار پر کاربرد است.
♦ تشخیص نوع گفتار و طرز بیان: این مبحث در علم روایت بسیار حائز اهمیت است که از آن به «سیاق روایت» تعبیر میشود. - ارتباط معنایی بین علوم مختلف و ایجاد حلقههای ارتباط در موضوعات هر علم با یکدیگر؛
- طرح مباحث و زاویههای پوشیده در هر علم که کمتر مورد توجه صاحب نظران بوده است. چه بسا این ایدهها به قدری نظام یافته شود و مؤثر عمل کند که پایهگذار علمی جدید از بطن دانشی دیگر شود، مانند علم فهرست که از علم رجال به وجود آمد.
مرحله دوم: جمعآوری منابع موجود
با توجه به تعدد موضوعات و تأثیر گذار بودن طرح متنکاوی هوشمند و همچنین قدمت مرکز تحقیقات در مقوله تبدیل منابع علوم اسلامی به اطلاعات دیجیتال، به عنوان شروع لازم بود که اطلاعاتی پیرامون منابع و اطلاعات موجود در مرکز به دست میآمد و جمعآوری میگردید.
با همکاری معاونت پژوهشی، بانکهای اطلاعاتی متعددی به دست گروه رسید. بسیاری از این اطلاعات با اندک تغییراتی به عنوان بانکهای مبنا در طرح قرار گرفت و بسیاری با یکدیگر تلفیق شدند. از جمله بانکهای جمعآوری شده میتوان به: بانک ریشه و مشتق، بانک اعلام، بانک فونت، بانک پیراسته و بانک واژه و نمایه اشاره نمود. البته تعدادی از بانکهای طرح متنکاوی، به دلیل جدید بودن طرح، در مخزن اطلاعاتی مرکز موجود نبود و محققان متنکاوی آن را طراحی کردند و ساختند. از جمله این موارد میتوان به: بانک وزنهای اسمی و فعلی و بانک صیغههای فعلی و اسمی اشاره نمود.
نا گفته نماند که این مرحله به صورت مداوم و در طول چندین ماه به انجام رسید و در طول کار، گاهی اوقات به بانکهای جدیدی نیاز میشد که از منابع مرکز تهیه میشد یا محققان گروه آن را میساختند.
فهرست بانکهای تهیه شده از قرار زیر میباشد:
1. بانک اطلاعاتی اعلام
از بررسی کتب متعدد (کتب نرمافزار جامع الاحادیث) فهرستی از اَعلام جمعآوری گردیده و با نظارت محققان درصد صحت آن تأیید شده است. این بانک مبنا و ملاک تشخیص اعلام برای «برنامه خبره تشخیص اعلام» در مرحله اولِ «پالایش الفاظ» خواهد بود. خصوصیات بانک اعلام:
2. بانک اطلاعاتی صیغههای اسم
این بانک، حاوی کلیه مشتقات صرفشده به وسیله موتور اسمساز است. برنامه موتور اسمساز با کمک بانک ریشه و اوزان اسم، میتواند تمامی مشتقات اسم را به همراه اعلالهای هر وزن بسازد. از این بانک برای تشخیص اسمهای مشتق استفاده میشود.
3. بانک اطلاعاتی صیغههای فعل
این بانک همانند بانک صیغههای اسم، توسط برنامه موتور فعلساز و با کمک بانک ریشه و اوزان فعل ساخته شده است و حاوی تمامی صیغههای صرفشده در ابواب مختلف مجرد و مزید میباشد. موتور فعلساز علاوه بر صرف کردن صیغههای فعل، قادر به اعلال هر فعل نیز میباشد.
4. بانک اوزان فرضی اسم و فعل
این بانک با کمک موتور وزنساز تولید شده و حاوی تمامی وزنهای اسمی و فعلی است. تفاوت این بانک با بانک اوزان اسم و فعل در این است که بانک اوزان فرضی، وزنهای موجود در بانک اوزان اسم و فعل را با ریشههایی مجازی و با رعایت قواعد اعلال، به صورت صرفشده در خود دارد؛ در حالی که بانک اوزان فقط به ذکر وزنها بدون ریشه و به صورت غیر اعلالی اکتفا میکند.
خصوصیات بانک اوزان فرضی فعل:
خصوصیات بانک فرضی اسم:
5. بانک اوزان اسم و فعل
این بانک حاوی وزنهای خام ـ مورد نیاز برای موتورهای فعلساز یا اسمساز ـ میباشد. وزنهای موجود در این بانک، توسط محققان وارد شده و اعرابگذاری گردیده است.
خصوصیات بانک اوزان فعل:
خصوصیات بانک اوزان اسم:
در ادامه کار، با شناسایی نرمافزار متن باز «نظام الاشتقاق و التصریف (Arabic Morphology Language)» که توسط گروهی از محققان کشور تونس طراحی شد، توانستیم به بانک ریشه کاملتری برسیم. البته این بانک در مشتقات اسمی کمبودهایی دارد که در دست اصطلاح و تکمیل است.
مرحله سوم: ساخت برنامه صرف
با عنایت به توضیحات قبلی، گروه به این نتیجه رسید که با الگوگیری از انسان میتوان برنامهای ساخت که از وزن و ریشه، فعل بسازد. در حقیقت، در این روش به سیستم آموزش صرف دادهایم؛ به گونهای که بتواند با ریشه و وزن مشخصی، یک صیغه از فعل را با رعایت تمامی قواعد صرفی بسازد. در این راستا، محققان شروع به ساخت بانک وزنهای فعلی (اعم از ثلاثی مجرد و ابواب ثلاثی مزید و رباعی مجرد و مزید) نمودند. بانک ریشه هم از بانکهای لغتنامه «المنجد» و «معجم افعال متداوله» استخراج شد. تمامی قواعد صرفی بر محوریت کتاب «صرف ساده» مورد بازخوانی قرار گرفت و به صورت فلوچارت درآمده و تبدیل به کد گردید. برنامه با استفاده از حلقههای تودرتو، ابتدا ریشهای را از بانک ریشه و سپس یک وزن را از بانک صیغه دریافت میکند. ریشه باید به ترتیب حروف، در فاء الفعل و عین الفعل و لام الفعل از وزن مورد نظر قرار گیرد؛ اگر نیاز به اعلال یا ادغام یا حذف و... داشت، آن را اعمال نماید و در نهایت، یک فعل خروجی را در بانک جدید ذخیره کند.
برنامه در مدت کوتاهی با بهرهگیری از ریشههای سالم ساخته شد؛ اما تکمیل و اشکالزدایی آن کار زمانبری بود. خوشبختانه برنامه در مدت قریب به یک سال ارائه شد و نسخه آزمایشی آن مورد توجه محققان و مسؤولان مرکز قرار گرفت؛ اما هنوز ابواب افعیلال و افعلال، ریشههای مهموز، برخی اعلالها و افعال رباعی را پشتیبانی نمینمود. فرآیند اصلاح و ارتقا، یک سال به طول انجامید و در این مدت، به نکات نانوشتهای در صرف رسیدیم که به تجربههای علمی گروه افزود.
با ساخت این برنامه، به مشکل جدیدی برخورد کردیم و آن حجم انبوه بانک فعل خروجی بود؛ چرا که قریب به 6000 ریشه در 260 وزن صرف میشد و در نهایت، بانک فعل با 1560000 رکورد را تحویل میداد. ساخت این همه فعل، زمان زیادی را میطلبید. از طرفی، برای تشخیص افعال در متن باید تمامی کلمات متن بر این بانک فعل عرضه میشد و با توجه به حجم بالای فعلها و کلمات متن، زمان بسیاری را تلف میکرد. در این مرحله، گروه دست به ابتکار خوبی زد تا ضمن ارتقای هوشمندی برنامه، در مدت زمان کمتر به نتیجه مطلوب برسیم.
نکته قابل تأمل اینکه در همین مقطع، اساتیدی چون جناب آقای دکتر مینایی و دکتر شکر اللهی نیز با این طرح آشنا شدند. این آشنایی مقدمهای شد تا مسؤولان رده بالای مرکز از انجام چنین طرحی مطلع گردند و به تشکیل گروهی مستقل در زمینه هوشمندسازی متون اقدام نمایند.
طبق توضیحات قبلی، برنامه صرف، وزن و ریشه را دریافت کرده و فعل را میسازد؛ اما تعداد انبوه فعلهای ساخته شده از یک طرف، و جستجوی تک تک کلمات متن در این بانک از طرفی دیگر، باعث شد که عملاً نتوانیم برنامه تشخیص فعل در متن را طراحی کنیم. از این رو، در بانک ریشه دست به تغییراتی زدیم و تمامی ریشهها را به ریشههای فرضی تبدیل نمودیم؛ چرا که تشخیص نوع فعل، هدف برنامه صرف بود و ریشههای فرضی این منظور را برآورده میکرد.
از مزایای ریشههای فرضی، پایین آمدن حجم بانک فعل بود؛ بدون آنکه برنامه در تشخیص فعل به مشکلی برخورد کند.
بانک ریشههای فرضی ساخته شد و مورد بازبینی قرار گرفت و بعد مرحله حساس و مهمی شروع شد؛ جستجوی کلمات متن در بانک فعلهای فرضی. برنامهای برای این منظور طراحی نشده بود؛ اما با تغییراتی که در گروه به وجود آمد، دیگر فرصت طراحی و ساخت چنین برنامهای نیز به دست نیامد. برنامه صرف به شیوه جدید ساخته شد. هماکنون این برنامه به عنوان برنامه صرف نهایی در گروه شناخته میشود. سبک برنامه صرف جدید، به صورت معکوس بود؛ به این معنا که برنامه وزنهایی از قبل آماده شده نداشت تا کلمات متن را در این وزنها تطبیق دهد؛ بلکه کلمه مستقیماً مورد بررسی قرار میگرفت (با قوانین صرفی و بانک ریشه) و این سبک، زمان بازدهی را کوتاهتر نمود.
دستاوردها
برنامه صرف با چند هدف اولیه ساخته شد و تاکنون میتوان ادعا کرد که این اهداف برآورده شده است. در حال حاضر، با برنامه صرف میتوان به تشخیص و برچسبگذاری کلمات متن (پیکرهسازی) پرداخت و پیراستهزنی بر کلمات نیز با اندکی تغییرات در دسترس است. ریشهزنی یا مدخلزنی بر کلمات متن نیز از ویژگیهای این برنامه میباشد. متأسفانه به دلیل تعدد مدیریت و عدم تمرکز لازم بر برخی اهداف میانمدت، با وجود توانمندی برنامه صرف و آمادگی محققان، هنوز خروجی مؤثری از این برنامه دیده نشده و دستاوردی مشخص ارائه نگردیده است. به همین جهت، غالب نیروها و مسؤولان بخش تحقیق، از عملکردها و نتایج به دست آمده در این بخش بیاطلاع هستند.
از دیگر دستاوردهای این طرح میتوان به تشخیص کلمات مستعمل از غیر مستعمل اشاره نمود. استخراج اعلام در متن نیز از اولویت کاری گروه خارج شده و توسط مهندسان فنی و در غالب طرحی خارج از گروه متنکاوی در حال انجام است. در حال حاضر، عزیزان بخش فنی با کمک برنامه صرف، اقدام به تعریف پروژههای متعدد نمودهاند که بهزودی آثار این طرحها در نرمافزارهای مرکز تحقیقات علوم اسلامی دیده خواهد شد. در برخی نرمافزارهای مرکز نیز به کمک برنامه صرف میتوان قدرت موتور جستجو را بالاتر و کارآمدتر نمود که إن شاء الله در غالب «طرحهای پیشنهادی» ارائه خواهد شد.
هماینک با تحویل برنامه صرف به بخش پژوهش و بخش فنی، میتوان به لایه بعدی متنکاوی، یعنی «لایه نحو» پرداخت. از لوازم کار در لایه نحو، پیکره متنی به همراه برچسبهای صرفی بود که با تلاش طولانیمدت عزیزان محقق در بخش متنکاوی این مهم انجام گرفت. گروه متنکاوی، کتاب صحیفه سجادیه و 2 جلد از کتاب شرایع را به صورت نیمهماشینی، برچسبگذاری کردهاند. متأسفانه برنامه لازم برای ساخت پیکره متنی در موقع مطلوب در دسترس محققان قرار نگرفت و به همین جهت، برچسبگذاری متون با تأخیر و اتلاف زمان انجام پذیرفت. از نظر نگارنده، آمادهسازی و فراهم کردن بستری برای لایه نحو، خود دستاوردی قابل اعتنا محسوب میشود که برای شروع گام دوم در متنکاوی، آن را در اختیار داریم.
نمونهای از کلمههای برچسب خورده که توسط محقق «با علامت ستاره» تأیید شده است
نمونهای از برنامه تأیید برچسبهای صرفی که در ادامه تحویل گردید
طرحهای پیشنهادی
از آنجا که برنامه صرف به پایان طراحی و تکمیل خود نزدیک میشود، میتوان چشماندازی را در برنامههای موجود مرکز برایش متصور شد.
1. برنامه صرف میتواند در معجمها مؤثر باشد؛ به عنوان مثال، یکی از قابلیتهای معجمهای لفظی مرکز، قابلیت «گروههای فهرستسازی» است. هدف از این قسمت نرمافزار این بوده که محقق بتواند با استفاده از علائم عمومی (Wildcard) به تشخیص مشتقات یک ریشه بپردازد و فهرستی از مشتقات را در متن جستجو نماید. با کمک برنامه صرف، کافی است محقق ریشه و وزن یا باب مورد نظر خود را بیان کند. سیستم با کمک موتور صرف اقدام به جستجوی مشتق درخواستشده خواهد نمود.
برخی از ابواب، بار معنایی خاصی را به مشتقات میدهند؛ مثلا باب استفعال به معنای طلب و درخواست است و باب تفاعل معنای مشارکت طرفینی دارد. اما کاربر در نرمافزارهای فعلی مرکز نمیتواند باب را جدای از ریشه جستجو کند. حتی در نرمافزارهایی که از سیستم معجم موضوعی نیز بهره میبرند، قابلیت فهرست منتخب را میتوان با کمک موتور صرف برای کاربر آسانتر و راحتتر نمود. به جای آموزش جهت استفاده مطلوب از کارکترهای عمومی (*،؟) و فرمولنویسی برای تهیه فهرست منتخب، از اصطلاحات رایج در علم صرف و آشنا برای کاربر استفاده کنیم. قابلیت تهیه فهرست بر اساس: ریشه مورد نظر کاربر، باب مورد نظر (ثلاثی یا رباعی، مجرد یا مزید)، نوع مشتق فعلی (ماضی، مضارع، امر، نهی، جحد و...) یا اسمی (اسم فاعل، اسم مفعول، اسم زمان، اسم مکان، اسم آلت، مصدر میمی و...)، از مزایای استفاده از موتور صرف میباشد. تمامی این امکانات، با کمک موتور صرف انجامپذیر است.
2. برنامههای اِعرابزن مرکز از سیستمهای خبره محسوب میشود و در مقایسه با سایر سیستمها از مؤسسات دیگر، دقیقتر و بهینهتر میباشد. به همین جهت، این نرمافزار از این حیث قابل تقدیر است؛ اما این برنامه کاملاً مبتنی بر پیکره متنی انبوهی است که توسط محققان اعراب گذاری شده است؛ به عبارت دیگر، موتور اِعرابزن از سیستم آماری بهره میبرد. این سیستم با وجود هزینه کمتر، از دقت پایین در متون غیر همگون برخوردار است و از همه مهمتر اینکه از قواعد و قوانین زبان عربی بهره نمیبرد. بنابراین، نمیتواند علت اعراب گذاری کلمات را توضیح دهد و صرفا مبتنی بر پیکره متنی است. این موضوع به این معنا است که اگر محقق سهواً کلمهای را اعراب اشتباه بگذارد، برنامه نیز همان اشتباه را تکرار خواهد کرد! اگر محقق در مورد کلمهای اعراب را با توجه به نقش آن کلمه تعیین کند، برنامه عاجز از فهم این قاعده است! در نتیجه، برنامه در تعیین اعراب کلمه به یافتن همان کلمه در مخزن متون خود اکتفا میکند و اگر یافت نشد، اعراب نمیزند!
این موضوع، از معایب روشهای آماری است. در این زمینه موتور صرف که از سبک قاعدهمحوری تبعیت میکند، کمک خوبی برای این برنامه محسوب میشود. از این رو، با قاعده، برنامه اِعرابزن میفهمد که فعلهای مجهول چه اعرابی دارند و نیاز نیست همه فعلهای مجهول در پیکره متنی پیدا شوند.
سپاسگزاری
در پایان لازم است که از همکاری و تلاش همه عزیزان بهخصوص آقایان: حجت الاسلام و المسلمین ابن الرضا، دکتر بهروز مینایی، مهندس جوزی و حجت الاسلام و المسلمین سریانی تقدیر و تشکر نماییم.
پی نوشت ها:
1. «نَزَّلَ بِکَ رُوحُ الأَمِینُ عَلَی قَلْبِکَ لِتَکُونَ مِنَ المُنْظَرِینَ بِلِسَانٍ عَرَبِیٍّ مُبِینٍ». (شعراء/193 ـ 195)2. تا آنجا که بسیاری از تفاسیر قرآن به ابعاد ادبی معطوف بوده است و جنبههای بلاغی و فصاحت قرآن را شرح کردهاند. مانند: تفسیر مجمع البیان، اعراب القرآن، البحر المحیط، املاء ما منّ به الرحمان، البیان فی اعراب القرآن، التبیان فی اعراب القرآن و... .
3. با توجه به قواعد فرموله شده (مانند اوزان فعلی و اسمی، مفهوم ثلاثی و رباعی و خماسی، ابواب مجرد و مزید) که در صرف وجود دارد، ماشینیسازی بسیار راحتتر و سادهتر از نحو بود.
4. اصطلاحی است در حوزه نرمافزارهای مرکز تحقیقات علوم اسلامی که تعریفش به زبان ساده این است: کلمهای که بتواند از مجموعهای از مشتقات هم ریشه از یک باب، نیابت کند؛ مانند: «الکتابه» برای «کَتَبَ، کَاتِبٌ، مَکْتْوبٌ، کِتَابٍ و... ».
5. اصطلاحی است در حوزه نرمافزارهای مرکز تحقیقات علوم اسلامی و به عبارت یک یا چند کلمهای گفته میشود.
6. به این معنا که مسبوق به سابقه در زبان عربی نبوده، نه اینکه استعمال نمیشود.
قالب برنامههای کار شده در مؤسسات دیگر، مربوط به زبان عربی معاصر بوده است و کمتر به عربی قدیم توجه شده است. از طرفی، در غالب پروژهها همت بر تبدیل صدا و گویش عربی امروزی به متن بوده است، 7. یا ترجمه متن عربی به سایر زبان ها که خارج از نیازهای ما در مرکز تحقیقات بود.
8. برنامه «نظام الإشتقاق و التصریف، Arabic Morphological System» ساخت مؤسسه «جامعه الدول العربیه» از کشور تونس که به صورت متن باز در پایگاه این مؤسسه (www.alecso.org.tn) ارائه شده است.
9. چرا که در طرحهای مرکز کاری به این شکل انجام نشده بود و بیشتر از هوش مصنوعی با تکیه بر بانک اطلاعاتی (سبک دیتا بیس) استفاده میشد، نه با قواعد و قوانین (سبک رول بیس).