مروری بر نرم افزار هوشمند صرف

سه شنبه, 31 خرداد 1390 ساعت 14:56
    نویسنده: حامد مقیسه این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید
این مورد را ارزیابی کنید
(1 رای)

مقدمه اول‌: با بررسی کوتاهی در طول زندگانی انسان‌ها می‌فهمیم که همیشه نیاز‌ها‌، علت ساخت ابزار‌ها بوده است‌. نقاط ضعف و مشکلات حل نشدنی‌، انسان‌ها را واداشته که از نیروی خدادادی تفکر استفاده کنند و راه حل‌هایی برای رفع آن بیابند‌. همین روند، صاحب نظران را به این رساند که «نیاز، عامل ایجاد علوم بود»‌.

مقدمه دوم‌: رایانه دنیایی را به وجود آورد که در علوم مختلف، شریکِ بی رقیبِ انسان، به دلیل «سرعت‌، انعطاف‌ و فراموش نکردن»‌ باشد؛ یعنی دنیایی که تفکر‌، خلاقیت‌ و برنامه‌ریزی به عنوان وظیفه انسان قرار داده شد و در مقابل، سرعت بخشیدن به محاسبات‌، سرعت بخشیدن به تبادل اطلاعات‌، آسان کردن ارتباط بین انسان‌ها‌، جمع‌آوری انبوه اطلاعات و لحاظ کردن همه آنها بدون فراموش کاری و از قلم افتادن‌، وظیفه رایانه گردید‌. برای همین، به این دوره «قرن رایانه و ارتباطات» می‌گوییم‌.

اما هدف از دو مقدمه مذکور این است که بر خلاف تصور رایج‌، بسیاری از طرح‌ها نقطه شروعشان‌، نیاز و خلأ موجود در علم یا فنون بوده است‌. برای همین، متخصصان را به تفکر درباره راه حل واداشته و علوم رایانه نیز نقش ابزار مؤثر را در این میان بازی می‌کند‌. کمتر پیش آمده که بدون احساس نیاز‌، و تنها خلاقیت و ابتکار، طرحی را به وجود آورد و به پیش برد‌. پس در تحلیل هر طرح موفقی باید نیاز‌ها و کمبود‌ها را دید و عوامل سوق دهنده به این راه حل را تحلیل کرد‌.

نمونه یک برنامه تدبیل تصویر به متننمونه یک برنامه تبدیل تصویر به متن

در مقوله هوش مصنوعی در زبان‌های طبیعی نیز همین نکته‌ها وجود دارد‌. ابتدا پاسخ به این سؤال بسیار مهم و کلیدی است که‌:چه نیازی به پردازش ماشینی یک زبان طبیعی وجود دارد؟ چه هدفی از ماشین انتظار می‌رود؟ و در نهایت، این طرح چه نیازی را برآورده می‌کند؟‌ پس از پاسخ به این سؤال‌ها، به پلکان بعدی می‌رویم که با چه اسلوبی این طرح عملی می‌شود؟ مقدمات مورد نیاز چیست؟

معمولا افراد یا شرکت‌ها نیاز‌ها و دلایل مختلفی برای ماشینی کردن یک زبان طبیعی دارند‌؛ مثلا یک محقق زبان‌شناس از این جهت به این مقوله علاقه‌مند می‌شود که ماشینی‌سازی یک زبان‌، مستلزم باب‌بندی دقیق و ظریف آن علم و داشتن قواعد محکم و عام می‌باشد‌. پس انگیزه‌ای است برای کنجکاوی و تحقیق بیشتر در زبان مورد علاقه و به دست آوردن قواعد و باب‌بندی کردن صرف و نحو در یک زبان‌. حال ممکن است در زبانی علم صرف و نحو از سابقه کار تحقیقی طولانی و مداومی برخوردار باشد «مانند زبان عربی»، یا ماشینی‌سازی‌، متخصصان آن زبان را به تحقیق وادارد‌؛ همان‌طور که در بیشتر زبان‌های هند و اروپایی «مانند فارسی و انگلیسی» رایج است.

از دیگر دلایل گرایش به ماشینی‌سازی می‌توان به شرکت‌های فعال در عرصه ترجمه اشاره کرد که می‌توانند با ماشینی کردن ترجمه متون، به سود بالا با هزینه کم برسند‌؛ یا سازمان‌های تحقیقاتی که با تبدیل صدا به متن یا تصویر به متن «OCR»‌، از  منابع زیادی در امور پژوهشی خود بهره می‌برند‌؛ یا خلاصه‌برداری از یک متن به گونه‌ای که معنا دچار دگرگونی و کمبود نشود‌؛ یا استخراج موضوعات از یک متن و طرح‌ریزی یک معجم موضوعی و.... .

نمونه ای از برنامه صرف و تشریح ساختار ریشه در زبان عربینمونه ای از برنامه صرف و تشریح ساختار ریشه در زبان عربی

از دیگر مزایای ماشینی‌سازی می‌توان به چند مورد زیر اشاره کرد‌:

  1. سرعت بسیار بالا در رسیدن به نتایج مطلوب یا نیمه‌مطلوب و در نتیجه کاهش هزینه‌ها؛
  2. استفاده از نیروی انسانی در امور سنگین تحقیقی و عیب‌یابی پاسخ‌ها؛
  3. دقت بالا در استفاده از منابع انبوه و اطمینان از لحاظ شدن همه قواعد در پاسخ‌ها؛
  4. دستیابی به قواعد و قوانین به صورت تجربی و استقرایی که شاید در هیچ منبعی مکتوب نشده است.

نکته‌ای که بسیار حائز اهمیت است و در طول کار نباید کم‌رنگ شود‌، این است که هر کدام از هدف‌های مورد نظر‌، مقدمات خاص خود را دارد و مراحل خاصی را می‌پیماید‌. متأسفانه در بسیاری از امور تحقیقی‌، پس از ورود به طرح و اجرایی شدن بخش‌هایی از آن‌، هدف اصلی گم می‌شود و یا به هدف دیگری تبدیل می‌شود و نتیجه آنکه گروه تحقیقی پس صرف زمان و هزینه بسیار‌، نمی‌داند که دنبال چه بوده و در آینده قرار است به دنبال چه باشد‌!

این مشکل، معمولا در فعالیت‌هایی پیش می‌آید که آینده کار دقیقاً مشخص نبوده و تجربه قبلی در آن وجود ندارد. در نتیجه، کار به روش آزمون و خطا به پیش می‌رود‌. به همین جهت، هدف‌های اولیه و میانی ترسیم می‌شود، ولی بعد از رسیدن به مراحل پایانی می‌بینیم که نه تنها هدف‌ها را برآورده نکرده‌ایم که به اهداف جدید هم نرسیده‌ایم‌. در مواردی هم هدف‌ها برآورده می‌شود، ولی با وجود استعداد بیشتر برای ادامه‌، هدف‌های بزرگ‌تر در دستور کار قرار نمی‌گیرد و حتی به آن فکر نمی‌شود‌.

متن‌کاوی در زبان عربی

زبان عربی از معدود زبان‌هایی است که دارای منابع انبوه و تجربه تحقیقی بسیار در مورد زبان‌شناسی است‌. از طرفی، خود زبان عربی دارای استعداد و کشش فوق العاده‌ای بوده و اَعراب جاهلی به دلیل اشتیاق به کلام فصیح و بلیغ‌، در این زبان کار کرده‌اند و آن را پرورانده‌اند‌. به همین جهت، در بسیاری از منابع ادبی زبان عربی از اشعار و نثر ادبی مربوط به دوران جاهلیت بسیار سخن به میان آمده و به عنوان شاهد مثال بر قواعد صرفی و نحوی بیان شده است‌. از سوی دیگر، با ظهور اسلام و به‌خصوص معجزه جاوید آن‌، قرآن کریم‌، همت مسلمانان برای کاوش در ابعاد مختلف و اعجاز این کتاب آسمانی بیشتر شد‌. تصریح قرآن کریم(1) به زبان عربی و توصیه پیامبر مکرم اسلام «صلی الله علیه و آله و سلم» و امامان شیعه «علیهم الصلاه و السلام» به یادگیری زبان قرآن و درک بیشتر آیات الهی‌، باعث شد که علم صرف و نحو عربی همیشه مورد توجه قرار گیرد و از پایه‌های ثابت درس‌های علوم دینی باشد.(2)

این پیشینه غنی در زبان عربی، کار ماشینی‌سازی را بسیار آسان و راحت می‌نماید و برای شروع‌، کمتر نیاز به کشف قواعد و استقرا در متون دارد‌. از این گذشته، در مراکز تحقیقاتی معتبر دنیا‌، در زمینه زبان عربی طرح‌های ماشینی زیادی ارائه شده و به نتیجه رسیده است‌. در نتیجه، برای گروه‌های تازه‌کار‌، فضای طرح خیلی گنگ و ناشناخته نیست‌.

برنامه صرف ساخته شده در مرکز تحقیقات کامپیوتری علوم اسلامی (نور) - گروه متن کاوی

برنامه صرف ساخته شده در مرکز تحقیقات علوم اسلامی نور – گروه متن‌کاوی

با توجه به دو مقدمه‌ای که در ابتدای مقاله گفته شد، مرکز تحقیقات کامپیوتری علوم اسلامی برای ماشینی‌سازی به برنامه‌ای بومی بر پایه منابع مرکز‌، نیاز دارد‌. به عنوان شروع‌، چنین مقرر شد که در دو حوزه کلمه‌شناسی (علم صرف) و عبارت‌شناسی (علم نحو) کار شود. در زمینه علم صرف، به برنامه‌ای نیاز داشتیم که بتواند تمامی حالت‌های کلمه را در زبان عربی‌، با تعریف و اصطلاحات موجود در خود علم صرف بیان نماید.(3) این برنامه باید بتواند به هدف‌های زیر به عنوان اهداف اولیه برسد‌:

  1. برچسب زنی کلمات «Tagging» به صورت برچسب‌های صرفی و در مرحله بالاتر برچسب‌های نحوی؛
  2. تعیین کلمات مشتق و جامد و تشخیص ریشه برای کلمات مشتق و پیراسته‌سازی؛(4)
  3. تعیین اعلام در میان کلمات جامد و جدا‌سازی آنها و همچنین تشخیص نوع آنها (شخص‌، مکان‌، زمان‌، کتاب‌، فرقه‌، حوادث)؛
  4. تشخیص مصدر  و نمایه‌زنی(5) بر کلمات؛
  5. تشخیص کلمات مستعمل در زبان عربی و جداسازی کلمات غیر مستعمل(6) یا کلمه‌های مُعرَّب از زبان‌های دیگر؛
  6. برنامه‌ای که با متون و منابع اسلامی و بیان قدیمی متناسب باشد، نه بر اساس گویش و کتابت عربی محاوره‌ای و امروزی؛
  7. متناسب با تعریف‌ها و اصطلاحات موجود در علم صرف و نحو باشد؛
  8. با توجه به بررسی‌های انجام‌شده هنوز برنامه مناسبی که بتواند همه این اهداف را برآورد‌، یافت نشده است.(7) اما تحقیقات و مقاله‌های زیادی در این زمینه ارائه شده است که راهنمای خوبی برای کارهای آینده می‌باشد؛ حتی برخی برنامه‌های متن‌باز (Open source) که در این زمینه ارائه شده بود‌، نیز به کار گرفته شد(8) و کمک بسیاری به طرح نمود‌.

علاوه بر این‌، در طول کارهای متعدد تحقیقی در مرکز تحقیقات کامپیوتری‌، بانک‌های غنی و متعددی در اختیار گروه قرار گرفت که این بانک‌ها کمک شایانی در تسریع روند کار نمود‌. البته در برخی موارد اقدام به ایجاد بانک‌های مورد نیاز نمودیم‌. سابقه کار قاعده‌محور در مرکز بسیار کم بوده است‌؛ به گونه‌ای که در نرم‌افزارهای موجود، نرم‌افزاری یافت نشد.(9) استخراج قواعد صرفی و ماشینی‌سازی کردن آنها‌، از کارهای بزرگ گروه متن‌کاوی بوده است‌.

مرحله اول: اهداف طرح متن‌کاوی در مرکز

یک پروژه از ابتدای ایده بودن تا به انتها رسیدن، از مراحل مختلف تحقیقی و فنی می‌گذرد‌. بیشترین اتلاف وقت، در مرحله تحقیقاتی آن است؛ به عنوان مثال، طرح معجم موضوعی بحار الانوار، چیزی در حدود 7 سال کار تحقیقی داشته است‌. اگر زمان تحقیق و آماده‌سازی محتوا در یک طرح را کاهش دهیم‌، پیشرفت بالایی در فرآوری محتوا داشته‌ایم‌. الزام به ماشینی شدن قسمت‌هایی از پژوهش‌های محتوایی‌، ایجاب می‌کند که به مقوله متن‌کاوی هوشمند بپردازیم‌. از جمله هدف‌های مورد نظر در ابتدای این طرح‌، می‌توان به موارد ذیل اشاره نمود‌:

  1. تشخیص جامد و مشتق (ریشه‌زنی برای مشتقات)؛
  2. تعیین نمایه بر کلمات؛
  3. تشخیص اعلام در متن؛
  4. تشخیص موضوع بر متن و تعیین کلمات کلیدی متن؛
  5. تلخیص و چکیده گیری؛
  6. ساخت درختواره به صورت ماشینی.

برنامه صرف ساخته شده در مرکز تحقیقات کامپیوتری علوم اسلامی (نور) - گروه متن کاوی

برنامه صرف ساخته شده در مرکز تحقیقات علوم اسلامی نور – گروه متن‌کاوی

البته در ادامه طرح اهداف دیگر نیز به ذهن رسید و حتی اهدافی ناخواسته به دست آمد‌، مانند‌:

  1. تشخیص کلمات مستعمل و غیر مستعمل در زبان عربی؛
  2. تشخیص تمامی اشتقاق‌های فعلی و اسمی یک ریشه؛
  3. تشخیص قواعد و رول‌های پیشرفته صرفی در برنامه صرف؛
  4. امکان آموزش صرف توسط ماشین؛
  5. دستیابی به چندین قاعده نحوی پر کاربرد در حین کار در صرف (مضاف و مضاف الیه).

حال که در مرحله تکمیل لایه صرف هستیم‌، می‌توان اهدافی برای آینده پیش‌بینی نمود‌:

  1. ابهام‌زدایی کلمات در لایه صرف؛
  2. تشخیص نقش‌های نحوی و علامت گذاری این نقش‌ها در متن؛
  3. ساخت پیکره متنی انبوه و علامت خورده در صرف؛
  4. ورود به لایه‌های معنایی و تشخیص ماشینی مفاهیم کلمه یا عبارت یا جمله:
     مقایسه  متون از لحاظ معنا و نسبت‌سنجی میان آنها (تشخیص مشابهت‌ها و تضادهای معنایی بین متون).
    ساخت خط زمان (Timeline) و بررسی موضوعات و مطالب مطرح شده در موقعیت‌ها و زمان‌های مختلف‌، به گونه‌ای که سیستم بتواند برای محقق‌، فهرستی از مطالب مطرح شده در علمی خاص را بیان کند و سیر مطالب در طول تاریخ‌، به همراه تغییرات آن نیز آورده شود‌. این طرح در بررسی روایات و طرح‌های پژوهش احادیث‌، بسیار پر کاربرد است‌.
    تشخیص نوع گفتار و طرز بیان: این مبحث در علم روایت بسیار حائز اهمیت است که از آن به «سیاق روایت» تعبیر می‌شود.
  5. ارتباط معنایی بین علوم مختلف و ایجاد حلقه‌های ارتباط در موضوعات هر علم با یکدیگر؛
  6. طرح مباحث و زاویه‌های پوشیده  در هر علم که کمتر مورد توجه صاحب نظران بوده  است. چه بسا این ایده‌ها به قدری نظام یافته شود و مؤثر عمل کند که پایه‌گذار علمی جدید از بطن دانشی دیگر شود‌، مانند علم فهرست که از علم رجال به وجود آمد.

مرحله دوم‌: جمع‌آوری منابع موجود

با توجه به تعدد موضوعات و تأثیر گذار بودن طرح متن‌کاوی هوشمند و همچنین قدمت مرکز تحقیقات در مقوله تبدیل منابع علوم اسلامی به اطلاعات دیجیتال‌، به عنوان شروع لازم بود که اطلاعاتی پیرامون منابع و اطلاعات موجود در مرکز به دست می‌آمد و جمع‌آوری می‌گردید‌.

با همکاری معاونت پژوهشی، بانک‌های اطلاعاتی متعددی به دست گروه رسید‌. بسیاری از این اطلاعات با اندک تغییراتی به عنوان بانک‌های مبنا در طرح قرار گرفت و بسیاری با یکدیگر تلفیق شدند‌. از جمله بانک‌های جمع‌آوری شده می‌توان به: بانک ریشه و مشتق‌، بانک اعلام‌، بانک فونت‌، بانک پیراسته‌ و بانک واژه و نمایه اشاره نمود‌. البته تعدادی از بانک‌های طرح متن‌کاوی، به دلیل جدید بودن طرح، در مخزن اطلاعاتی مرکز موجود نبود و محققان متن‌کاوی آن را طراحی کردند و ساختند‌. از جمله این موارد می‌توان به: بانک وزن‌های اسمی و فعلی و  بانک صیغه‌های فعلی و اسمی اشاره نمود‌.

نا گفته نماند که این مرحله به صورت مداوم و در طول چندین ماه به انجام رسید و در طول کار، گاهی اوقات به بانک‌های جدیدی نیاز می‌شد که از منابع مرکز تهیه می‌شد یا محققان گروه آن را می‌ساختند‌.
فهرست بانک‌های تهیه شده از قرار زیر می‌باشد‌:

1. بانک اطلاعاتی اعلام

از بررسی کتب متعدد (کتب نرم‌افزار جامع الاحادیث) فهرستی از اَعلام جمع‌آوری گردیده و با نظارت محققان درصد صحت آن تأیید شده است‌. این بانک مبنا و ملاک تشخیص اعلام برای «برنامه خبره تشخیص اعلام» در مرحله اولِ «پالایش الفاظ» خواهد بود‌. خصوصیات بانک اعلام‌:

2. بانک اطلاعاتی صیغه‌های اسم

این بانک، حاوی کلیه مشتقات صرف‌شده به وسیله موتور اسم‌ساز است‌. برنامه موتور اسم‌ساز با کمک بانک ریشه و اوزان اسم‌، می‌تواند تمامی مشتقات اسم را به همراه اعلال‌های هر وزن بسازد‌. از این بانک برای تشخیص اسم‌های مشتق استفاده می‌شود‌.

3. بانک اطلاعاتی صیغه‌های فعل

این بانک همانند بانک صیغه‌های اسم‌، توسط برنامه موتور فعل‌ساز و با کمک بانک ریشه و اوزان فعل ساخته شده است و حاوی تمامی صیغه‌های صرف‌شده در ابواب مختلف مجرد و مزید می‌باشد‌. موتور فعل‌ساز علاوه بر صرف کردن صیغه‌های فعل‌، قادر به اعلال هر فعل نیز می‌باشد‌.

4. بانک اوزان فرضی اسم و فعل

این بانک با کمک موتور وزن‌ساز تولید شده و حاوی تمامی وزن‌های اسمی و فعلی است‌. تفاوت این بانک با بانک اوزان اسم و فعل در این است که بانک اوزان فرضی‌، وزن‌های موجود در بانک اوزان اسم و فعل را با ریشه‌هایی مجازی و با رعایت قواعد اعلال‌، به صورت صرف‌شده در خود دارد؛ در حالی که بانک اوزان فقط به ذکر وزن‌ها بدون ریشه و به صورت غیر اعلالی اکتفا می‌کند‌.

خصوصیات بانک اوزان فرضی فعل:

 خصوصیات بانک فرضی اسم:

5. بانک اوزان اسم و فعل

این بانک حاوی وزن‌های خام ـ مورد نیاز برای موتور‌های فعل‌ساز یا اسم‌ساز ـ  می‌باشد‌. وزن‌های موجود در این بانک، توسط محققان وارد شده و اعراب‌گذاری گردیده است.

خصوصیات بانک اوزان فعل‌:

خصوصیات بانک اوزان اسم:


در ادامه کار، با شناسایی نرم‌افزار متن باز «نظام الاشتقاق و التصریف (Arabic Morphology Language)» که توسط گروهی از محققان کشور تونس طراحی شد‌، توانستیم به بانک ریشه کامل‌تری برسیم. البته این بانک در مشتقات اسمی کمبود‌هایی دارد که در دست اصطلاح و تکمیل است‌.

مرحله سوم‌: ساخت برنامه صرف

با عنایت به توضیحات قبلی‌، گروه به این نتیجه رسید که با الگوگیری از انسان می‌توان برنامه‌ای ساخت که از وزن و ریشه‌، فعل بسازد‌. در حقیقت، در این روش به سیستم آموزش صرف داده‌ایم‌؛ به گونه‌ای که بتواند با ریشه و وزن مشخصی‌، یک صیغه از فعل را با رعایت تمامی قواعد صرفی بسازد‌. در این راستا، محققان شروع به ساخت بانک وزن‌های فعلی (اعم از ثلاثی مجرد و ابواب ثلاثی مزید و رباعی مجرد و مزید) نمودند‌. بانک ریشه هم از بانک‌های لغت‌نامه «المنجد» و «معجم افعال متداوله» استخراج شد‌. تمامی قواعد صرفی بر محوریت کتاب «صرف ساده» مورد بازخوانی قرار گرفت و به صورت فلوچارت درآمده و تبدیل به کد گردید‌. برنامه با استفاده از حلقه‌های تودرتو‌، ابتدا ریشه‌ای را از بانک ریشه و سپس یک وزن را از بانک صیغه دریافت می‌کند‌. ریشه باید به ترتیب حروف‌، در فاء الفعل و عین الفعل و لام الفعل از وزن مورد نظر قرار گیرد‌؛ اگر نیاز به اعلال یا ادغام یا حذف و‌... داشت، آن را اعمال نماید و در نهایت، یک فعل خروجی را در بانک جدید ذخیره کند‌.

برنامه در مدت کوتاهی با بهره‌گیری از ریشه‌های سالم ساخته شد؛ اما تکمیل و اشکال‌زدایی آن کار زمان‌بری بود‌. خوشبختانه برنامه در مدت قریب به یک سال ارائه شد و نسخه آزمایشی آن مورد توجه محققان و مسؤولان مرکز قرار گرفت؛ اما هنوز ابواب افعیلال و افعلال‌، ریشه‌های مهموز‌، برخی اعلال‌ها و افعال رباعی را پشتیبانی نمی‌نمود‌. فرآیند اصلاح و ارتقا، یک سال به طول انجامید و در این مدت، به نکات نانوشته‌ای در صرف رسیدیم که به تجربه‌های علمی گروه افزود‌.

با ساخت این برنامه، به مشکل جدیدی برخورد کردیم و آن حجم انبوه بانک فعل خروجی بود؛ چرا که قریب به 6000 ریشه در 260 وزن صرف می‌شد و در نهایت، بانک فعل با 1560000 رکورد را تحویل می‌داد‌. ساخت این همه فعل، زمان زیادی را می‌طلبید‌. از طرفی، برای تشخیص افعال در متن باید تمامی کلمات متن بر این بانک فعل عرضه می‌شد و با توجه به حجم بالای فعل‌ها و کلمات متن‌، زمان بسیاری را تلف می‌کرد‌. در این مرحله، گروه دست به ابتکار خوبی زد تا ضمن ارتقای هوشمندی برنامه‌، در مدت زمان کمتر به نتیجه مطلوب برسیم‌.

نکته قابل تأمل اینکه در همین مقطع، اساتیدی چون جناب آقای دکتر مینایی و دکتر شکر اللهی نیز با این طرح آشنا شدند‌. این آشنایی مقدمه‌ای شد تا مسؤولان رده بالای مرکز از انجام چنین طرحی مطلع گردند و به تشکیل گروهی مستقل در زمینه هوشمند‌سازی متون اقدام نمایند‌.

طبق توضیحات قبلی‌، برنامه صرف‌، وزن و ریشه را دریافت کرده و فعل را می‌سازد؛ اما تعداد انبوه فعل‌های ساخته شده از یک طرف، و جستجوی تک تک کلمات متن در این بانک‌ از طرفی دیگر، باعث شد که عملاً نتوانیم برنامه تشخیص فعل در متن را طراحی کنیم‌. از این رو، در بانک ریشه دست به تغییراتی زدیم و تمامی ریشه‌ها را به ریشه‌های فرضی تبدیل نمودیم؛ چرا که تشخیص نوع فعل‌، هدف برنامه صرف بود و ریشه‌های فرضی این منظور را برآورده می‌کرد‌.

از مزایای ریشه‌های فرضی، پایین آمدن حجم بانک فعل بود؛ بدون آنکه برنامه در تشخیص فعل به مشکلی برخورد کند‌.

بانک ریشه‌های فرضی ساخته شد و مورد بازبینی قرار گرفت و بعد مرحله حساس و مهمی شروع شد؛ جستجوی کلمات متن در بانک فعل‌های فرضی‌. برنامه‌ای برای این منظور طراحی نشده بود‌؛ اما با تغییراتی که در گروه به وجود آمد، دیگر فرصت طراحی و ساخت چنین برنامه‌ای نیز به دست نیامد‌. برنامه صرف به شیوه جدید ساخته شد‌. هم‌اکنون این برنامه به عنوان برنامه صرف نهایی در گروه شناخته می‌شود‌. سبک برنامه صرف جدید، به صورت معکوس بود‌؛ به این معنا که برنامه وزن‌هایی از قبل آماده شده نداشت تا کلمات متن را در این وزن‌ها تطبیق دهد؛ بلکه کلمه مستقیماً مورد بررسی قرار می‌گرفت (با قوانین صرفی و بانک ریشه) و این سبک، زمان بازدهی را کوتاه‌تر نمود‌.

 

دستاورد‌ها

برنامه صرف با چند هدف اولیه ساخته شد و تاکنون می‌توان ادعا کرد که این اهداف برآورده شده است‌. در حال حاضر، با برنامه صرف می‌توان به تشخیص و برچسب‌گذاری کلمات متن (پیکره‌سازی) پرداخت و پیراسته‌زنی بر کلمات نیز با اندکی تغییرات در دسترس است‌. ریشه‌زنی یا مدخل‌زنی بر کلمات متن نیز از ویژگی‌های این برنامه می‌باشد‌. متأسفانه به دلیل تعدد مدیریت و عدم تمرکز لازم بر برخی اهداف میان‌مدت‌، با وجود توانمندی برنامه صرف و آمادگی محققان‌، هنوز خروجی مؤثری از این برنامه دیده نشده و دستاوردی مشخص ارائه نگردیده‌ است. به همین جهت، غالب نیروها و مسؤولان بخش تحقیق، از عملکرد‌ها و نتایج به دست آمده در این بخش بی‌اطلاع هستند‌.

از دیگر دستاوردهای این طرح می‌توان به تشخیص کلمات مستعمل از غیر مستعمل اشاره نمود‌. استخراج اعلام در متن نیز از اولویت کاری گروه خارج شده و توسط مهندسان فنی و در غالب طرحی خارج از گروه متن‌کاوی در حال انجام است‌. در حال حاضر، عزیزان بخش فنی با کمک برنامه صرف‌، اقدام به تعریف پروژه‌های متعدد نموده‌اند که به‌زودی آثار این طرح‌ها در نرم‌افزار‌های مرکز تحقیقات علوم اسلامی دیده خواهد شد‌. در برخی نرم‌افزارهای مرکز نیز به کمک برنامه صرف می‌توان قدرت موتور جستجو را بالاتر و کارآمدتر نمود که إن شاء الله در غالب «طرح‌های پیشنهادی» ارائه خواهد شد‌.

هم‌اینک با تحویل برنامه صرف به بخش پژوهش و بخش فنی‌، می‌توان به لایه بعدی متن‌کاوی، یعنی «لایه نحو» پرداخت‌. از لوازم کار در لایه نحو‌، پیکره متنی به همراه  برچسب‌های صرفی بود که با تلاش طولانی‌مدت عزیزان محقق در بخش متن‌کاوی این مهم انجام گرفت‌. گروه متن‌کاوی، کتاب صحیفه سجادیه و 2 جلد از کتاب شرایع را به صورت نیمه‌ماشینی‌، برچسب‌گذاری کرده‌اند‌.  متأسفانه برنامه لازم برای ساخت پیکره متنی در موقع مطلوب در دسترس محققان قرار نگرفت و به همین جهت، برچسب‌گذاری متون با تأخیر و اتلاف زمان انجام پذیرفت‌. از نظر نگارنده، آماده‌سازی و فراهم کردن بستری برای لایه نحو‌، خود دستاوردی قابل اعتنا محسوب می‌شود که برای شروع گام دوم در متن‌کاوی‌، آن را در اختیار داریم‌.

نمونه ای از کلمه های برچسب خورده که توسط محقق « با علامت ستاره » تأیید شده است

نمونه‌ای از کلمه‌های برچسب خورده که توسط محقق «با علامت ستاره» تأیید شده است‌

نمونه ای از برنامه تأیید برچسب های صرفی که در ادامه تحویل گردید

نمونه‌ای از برنامه تأیید برچسب‌های صرفی که در ادامه تحویل گردید‌

طرح‌های پیشنهادی

                              

از آنجا که برنامه صرف به پایان طراحی و تکمیل خود نزدیک می‌شود‌، می‌توان چشم‌اندازی را در برنامه‌های موجود مرکز برایش متصور شد‌.

1. برنامه صرف می‌تواند در معجم‌ها مؤثر باشد؛ به عنوان مثال، یکی از قابلیت‌های معجم‌های لفظی مرکز‌، قابلیت «گروه‌های فهرست‌سازی» است‌. هدف از این قسمت نرم‌افزار این بوده که محقق بتواند با استفاده از علائم عمومی (Wildcard)  به تشخیص مشتقات یک ریشه بپردازد و فهرستی از مشتقات را در متن جستجو نماید‌. با کمک برنامه صرف‌، کافی است محقق ریشه و وزن یا باب مورد نظر خود را بیان کند‌. سیستم با کمک موتور صرف اقدام به جستجوی مشتق درخواست‌شده خواهد نمود‌.

برخی از ابواب‌، بار معنایی خاصی را به مشتقات می‌دهند؛ مثلا باب استفعال به معنای طلب و درخواست است و باب تفاعل معنای مشارکت طرفینی دارد‌. اما کاربر در نرم‌افزارهای فعلی مرکز نمی‌تواند باب را جدای از ریشه جستجو کند‌. حتی در نرم‌افزارهایی که از سیستم معجم موضوعی نیز بهره می‌برند‌، قابلیت فهرست منتخب را می‌توان با کمک موتور صرف برای کاربر آسان‌تر و راحت‌تر نمود‌. به جای آموزش جهت استفاده مطلوب از کارکترهای عمومی (*،؟) و فرمول‌نویسی برای تهیه فهرست منتخب‌، از اصطلاحات رایج در علم صرف و آشنا برای کاربر استفاده کنیم‌. قابلیت تهیه فهرست بر اساس: ریشه مورد نظر کاربر‌، باب مورد نظر (ثلاثی یا رباعی‌، مجرد یا مزید)‌، نوع مشتق فعلی (ماضی‌، مضارع‌، امر‌، نهی‌، جحد و‌...) یا اسمی (اسم فاعل‌، اسم مفعول‌، اسم زمان‌، اسم مکان‌، اسم آلت‌، مصدر میمی و‌...)، از مزایای استفاده از موتور صرف می‌باشد‌. تمامی ‌این امکانات، با کمک موتور صرف انجام‌پذیر است‌.

 

2. برنامه‌های اِعراب‌زن مرکز از سیستم‌های خبره محسوب می‌شود و در مقایسه با سایر سیستم‌ها از مؤسسات دیگر، دقیق‌تر و بهینه‌تر می‌باشد‌. به همین جهت، این نرم‌افزار از این حیث قابل تقدیر است‌؛ اما این برنامه کاملاً مبتنی بر پیکره متنی انبوهی است که توسط محققان اعراب گذاری شده است‌؛ به عبارت دیگر، موتور اِعراب‌زن از سیستم آماری بهره می‌برد‌. این سیستم با وجود هزینه کمتر، از دقت پایین در متون غیر همگون برخوردار است و از همه مهم‌تر اینکه از قواعد و قوانین زبان عربی بهره نمی‌برد‌. بنابراین، نمی‌تواند علت اعراب گذاری کلمات را توضیح دهد و صرفا مبتنی بر پیکره متنی است‌. این موضوع به این معنا است که اگر محقق سهواً کلمه‌ای را اعراب اشتباه بگذارد‌، برنامه نیز همان اشتباه را تکرار خواهد کرد‌!  اگر محقق در مورد کلمه‌ای اعراب را با توجه به نقش آن کلمه تعیین کند‌، برنامه عاجز از فهم این قاعده است‌! در نتیجه، برنامه در تعیین اعراب کلمه به یافتن همان کلمه در مخزن متون خود اکتفا می‌کند و اگر یافت نشد‌، اعراب نمی‌زند‌!

این موضوع، از معایب روش‌های آماری است‌. در این زمینه موتور صرف که از سبک قاعده‌محوری تبعیت می‌کند‌، کمک خوبی برای این برنامه محسوب می‌شود‌. از این رو، با قاعده‌، برنامه اِعراب‌زن می‌فهمد که فعل‌های مجهول چه اعرابی دارند و نیاز نیست همه فعل‌های مجهول در پیکره متنی پیدا شوند‌.

سپاس‌گزاری

در پایان لازم است که از همکاری و تلاش همه عزیزان به‌خصوص آقایان: حجت الاسلام و المسلمین ابن الرضا، دکتر بهروز مینایی، مهندس جوزی و حجت الاسلام و المسلمین سریانی تقدیر و تشکر نماییم.

پی نوشت ها:

اطلاعات تکميلي

  • تاریخ انتشار نسخه چاپی: پنج شنبه, 26 خرداد 1390
  • صفحه در فصلنامه: صفحه 65
  • شماره فصلنامه: فصلنامه شماره 34
بازدید 55220 بار
شما اينجا هستيد:خانه