پیشینه پردازش هوشمند در مرکز نور
در خدمتتان هستیم با گزارش مختصری از فعالیتهای مرکز تحقیقات کامپیوتری علوم اسلامی که طی سه دهه گذشته در زمینه هوش مصنوعی انجام داده و منتج شده به اینکه انشاءالله امروز بتوانیم مراسم افتتاح آزمایشگاه هوش مصنوعی نور را رقم بزنیم.
در ابتداء، تاریخچهای از روند تکامل پردازش هوشمند را در مرکز ارائه خواهیم داد و سپس، به اهداف تأسیس آزمایشگاه و نمونههای شاخصی که طی این سالها داشتیم و در نهایت، به نقشه راه و چشماندازی که برای آزمایشگاه هوش مصنوعی نور ترسیم شده، خواهیم پرداخت.
همانطورکه مستحضر هستید، از سال 1368 که با نظر مقام معظم رهبری مرکز تحقیقات کامپیوتری علوم اسلامی تأسیس شد، توجه به فناوریهای نوین پردازش محتوا، یکی از رسالتهای اصلی بوده و با فلسفه وجودی مرکز گره خورده است. اوّلین محصول مرکز که مبتنی بر هوش مصنوعی تولید شد، پروژه اعتبارسنجی ماشینی اسناد و روایات بود که مرکز در دهه هشتاد بدان دست یافت. با بهکارگیری این محصول در نرمافزار درایةالنور، اسناد روایات و احادیث با استفاده از هوش مصنوعی اعتبارسنجی شد و به صورت ماشینی مشخص میشد که چه سندی ضعیف و چه سندی معتبر است و بر اساس برآیند اعتبار راویانی که در سند وجود داشتند، تصمیم توسط ماشین پیشنهاد میشد. قبل از آن هم سمینار ملی کامپیوتر و علوم اسلامی در سال 1371 در مرکز برگزار شده بود.
پس از آن محصولات متعددی بر همان مبنا شکل گرفتند؛ تا اینکه در سال 1390 ادارهای تحت عنوان «اداره متنکاوی» در مرکز تأسیس شد که متولی پیشبرد دستاوردها در زمینه هوش مصنوعی و استفاده از قابلیتهای مبتنی بر هوش مصنوعی در نرمافزارهای نور بود.
پس از تأسیس اداره متنکاوی، جهش قابل توجهی در نرخ رشد قابلیتهای مبتنی بر هوش مصنوعی در مرکز شکل گرفت و پس از آن، سمینار پردازش هوشمند را داشتیم و هماکنون در سال 1400 ، بیش از 35 دستاورد هوش مصنوعی داریم که در نرمافزارها و پایگاههای مرکز نمود و بروز داشته که در ادامه بدانها خواهیم پرداخت.
هدف از ایجاد آزمایشگاه هوش مصنوعی
به طور کلی، هدف اصلی از ایجاد آزمایشگاه هوش مصنوعی، تکمیل زیستبوم مورد نیاز برای بهرهبرداری حداکثری از هوش مصنوعی در حوزههای علوم اسلامی و انسانی است. این هدف، شامل راهبردهای ذیل است:
- معرفی ظرفیتها و دستاوردهای هوش مصنوعی در حوزه علوم اسلامی و انسانی؛
- تولید و عرضه پیکرههای استاندارد و سرویسهای مورد نیاز در پردازش هوشمند محتوای اسلامی؛
- انتشار دستاوردها در فضای علمی، پژوهشی و آموزشی در قالب مقالههای پژوهشی، برای کمک در انتشار و جریانسازی فرآیند تولید و دستاوردها و نرمافزارهای مبتنی بر هوش مصنوعی؛
- تعامل فعال با مراکز پژوهشی، دانشگاهها و مراکز فعال در حوزه هوش مصنوعی و علوم اسلامی و انسانی؛
- ارائه راهکارهای تخصصی پردازش هوشمند به مراکز، مؤسسات و پژوهشگاههای علوم اسلامی و انسانی.
فرآیند تولید نرمافزارهای نور
فرِآیند تولید نرمافزار در مرکز را میتوان به طور خلاصه، به سه مرحله تقسیمبندی کرد:
- تولید محتوا شامل مراحل تایپ، تصحیح و OCR؛
- فرآوری و غنیسازی محتوای تولیدشده در مرحله اوّل: شامل برچسبگذاری، اِعرابگذاری، مشخص شدن آیات و احادیث؛
- ارائه محتوای فرآوریشده در قالب نرمافزار.
دستاوردهای مرکز در حوزه هوش مصنوعی
با استفاده از هوش مصنوعی توانستهایم، کیفیت و سرعت فرآوری محتوا را به حداکثر برسانیم که در ادامه، به نمونههای مشخصی از هر کدام از این موارد، اشاره خواهیم کرد.
1. تجزیه صرفی ماشینی کلمات عربی
در حوزه زبانشناسی رایانشی، طی پروژهای حدوداً 4ساله، بحث تجزیه صرفی ماشینی کلمات عربی انجام شد که به عنوان یکی از ابزارهای پایه تحلیل متن و فهم ماشین از متون بهکار گرفته شد. با این ابزار که به صورت قانونمحور توسعه داده شد، تقریباً تمامی قواعد زبانشناختی عربی، از جمله قواعد مربوط به اعلالها، شناسایی ریشه، وزن، پیشوندها و پسوندهای هر کلمه، فراهم گردید و به عنوان سرویسی برای سایر ابزارها و خدمات بهکار گرفته شد.
2. پیکره استاندارد نحوی قرآن
این دستاورد، کار بعدی ما بود و در سطح نحوی که یک سطح فراتر از سطح صرفی است، تهیه گردید. این پیکره، ارتباط بین کلمات در جمله، خاص دیتای قرآن مشخص شد که بر اساس آن، ماشین میتواند از این روابط کنشگر و کنشپذیر، اموری چون: فاعل، مفعول، ظرف و... را شناسایی نماید.
3. مدخلیابی هوشمند
کار دیگری که مبتنی بر موتور صرف انجام شد، مدخلیابی هوشمند بود. از این قابلیت، در پایگاه قاموس نور بهرهبرداری شده است. در اینجا پس از وارد شدن کلمه مورد نظر در پایگاه قاموس توسط کاربر، نزدیکترین مداخل لغوی به پاسخ مورد نظر او پیشنهاد میشود.
4. اِعرابگذاری هوشمند
بر اساس این کار، به صورت ماشینی و خودکار، احادیثی را که فاقد اِعراب بودند، بر مبنای یادگیری ماشینی که روی پیکره اِعرابخورده احادیث داشتیم، توانستیم این احادیث را با کیفیت بالای 95 درصد اِعرابگذاری کنیم.
5. مشابهیابی احادیث
برای اوّلینبار، در نرمافزار «جامعالأحادیث 3.5»، از این قابلیت رونمایی شد که در آن، کاربر با یک کلیک، تمام احادیثی را که شباهت بالایی با حدیث مورد نظر از حیث لفظی دارند، در اختیار خواهد داشت. از این قابلیت، در نرمافزار «جامع احادیث فریقین» بین کتب منابع حدیثی شیعه و اهلسنّت نیز استفاده شده است. این امکان، به حدیثپژوهانی که قصد بررسی نسخ مختلف حدیث را دارند، کمک شایانی خواهد کرد و جهشی در فرآیند حدیثپژوهی خواهد بود. از این قابلیت، در پایگاه «جامعالأحادیث» نیز استفاده شده است.
مبتنی بر تکنیک مشابهیابی، پایگاه سمیم نور نیز شکل گرفت؛ یعنی از این فناوری، برای اصالتسنجی مقالات و تولید محتوا استفاده شده است. کاربر مقاله مورد نظر خود را به سیستم سمیم نور وارد میکند و مقاله کاربر با انبوهی از متون که پشتوانه آن، 570هزار مقاله تماممتن پایگاه نورمگز، 35هزار جلد کتاب در پایگاه نورلایب و 120هزار پایاننامه است، مشابهتسنجی میشود. این پشتوانه ارزشمند، محتوایی غنی را تشکیل داده و این موتور مشابهتیاب، در کنار آن توانسته کیفیت بالایی در مشابهتیابی مقالات در عرصه اصالتسنجی تولید علم به ارمغان آورد.
6. مشابهتیابی معنایی
ما پا را از سطح مشابهیابی لفظی فراتر گذاشتهایم و به سوی مشابهتیابی معنایی در احادیث رفتهایم. گاهی اوقات دو حدیث مورد نظر کاربر، ممکن است از نظر محتوای لفظی تفاوتهایی با هم داشته باشند؛ اما ناظر به یک موضوع هستند و به مضمونی واحد از یک محتوا توسط معصوم اشاره میکنند. سیستم بر اساس مشابهیابی معنایی، میتواند تمامی احادیث موضوع مورنظر کاربر را شناسایی کند وکلمات مرتبط و مترادف را استخراج نماید. سیستم توانسته به اینجا برسد که احادیثی را که به حدیث مورد نظر کاربر بسیار نزدیک هستند، در بین 400هزار حدیثی که هماکنون در پایگاه جامعالأحادیث داریم، شناسایی کرده و به کاربر پیشنهاد دهد.
در زمینه برچسبگذاری موضوعی متون حدیثی و برچسبگذاری موضوعی متون فقهی هم کارهایی را انجام دادهایم. ماشین با یادگیری خود توانسته احادیث و متون فقهی را از بین ابواب فقهی 50 گانه، برچسبگذاری کند که این دستاورد، برای ارائه طبقهبندیشده متون فقهی و حدیثی به کاربر نهایی کمک میکند.
7. برچسبگذاری آیات
کار دیگر در زمینه غنیسازی متون، برچسبگذاری آیات بوده است؛ بدین شکل که سیستم، متن خام را دریافت کرده و تمامی آیات و روایاتی را که در لابهلای این متن بهکاررفته، شناسایی مینماید و نشانی آنها را مشخص کرده، به وبگاه جامع قرآنی یا پایگاه حدیثی ما لینک میدهد، تا کاربر بتواند پیرامون آن حدیث، هر محتوایی را که در مرکز غنیسازی شده، از جمله محتوای تفسیری، محتوای شرح حدیث و سایر محتواها را در دسترس داشته باشد.
8. لینکدهی پاورقی کتب
سیستم به صورت هوشمند، پاورقی ذیل هر صفحه را شناسایی کرده، اجزای آن را تحلیل نموده، اسم کتاب را شناسایی میکند و در نهایت، کاربر را به صفحه مورد نظر متصل میکند؛ بدون آنکه نیاز باشد کاربر، خودش به جستوجوی محتوا بپردازد. با توجه به پیچیدگیهای این کار، مثل مواجه بودن با چاپهای مختلف یک کتاب، اعتبارسنجی محتوا در پشت صحنه توسط ماشین انجام شده و در صورتی که لینک محتوای نهایی واجد امتیاز و مشابهت لازم باشد، این محتوا به کاربر نمایش داده میشود.
در زمینه استخراج خودکار اعلام و اشخاص، موجودیتهای اسمی متن، اعم از اشخاص و اسامی مکانها و جایها و همینطور، وقایع و رویدادها، توسط ماشین شناسایی و لینک شده که امیدواریم بهزودی از این قابلیت در پایگاه جامع تاریخ استفاده و رونمایی کنیم.
9. پیشنهاد آیات مرتبط
کار دیگر ما در حوزه هوش مصنوعی، پیشنهاد آیات مرتبط برای کاربران پایگاه جامع قرآنی است که بر اساس تحلیل باهمآیی آیات در متن انواع تفاسیر، میتوانیم از خرد جمعی مفسران استفاده کنیم؛ مثلاً اگر 20 مفسر از دو آیه استفاده کردهاند، سیستم تحلیل میکند که آیه دوم میتواند برای کاربری که آیه اوّل را در نظر دارد، مفید باشد و به عنوان آیات مرتبط و بیشتر، به کاربر پیشنهاد شود.
مورد دیگری نیز در تحلیل باهمآییها انجام شد؛ به این شکل که با توجه به داشتن حجم عظیمی از لاگ کاربران و جستوجوی آنها در پایگاه نورمگز، ما توانستیم پیشنهاد عبارت جستوجو را برای کاربران داشته باشیم؛ برای مثال، سیستم در ازای جستوجوی «بیداری اسلامی» توسط کاربر، عبارات «بهار عربی»، «اخوانالمسلمین»، «انقلاب مصر» را نیز به کاربر پیشنهاد میدهد. سیستم بدون اینکه معنای اینها را درک نموده باشد، صرفاً بر اساس تحلیل باهمآییها در حجم بالای لاگ کاربران میتواند این پیشنهادهای جذاب را به کاربران ارائه نماید.
10. پیشنهاد هوشمند مقالات
شبیه تحلیلهایی که در زمینه عبارتهای جستوجو انجام شد، بر اساس باهمآیی دانلود یا بازدید دو مقاله در نورمگز، به این نتیجه رسیدیم که چون مقاله «الف» توسط کاربری که مقاله «ب» را دیده، در انبوه کاربران بهمراتب تکرار شده، مقاله دوم میتواند مفید باشد و این در حجم بالای لاگ کاربران میتواند ما را به Recommender system یا سیستمهای پیشنهاددهنده محتوا رهنمون کند که میتواند به توسعه پژوهش محققان کمک شایانی نماید.
11. ترجمه ماشینی
در حوزه ترجمه ماشینی، ترازبندی خودکار بین متن و ترجمه انجام شده است. در فرآیند پژوهش، بیشترِ اوقات، کاربر با متن ترجمهای مواجه است که با متن اصلی متناظر است. تشخیص اینکه دقیقاً کجای این متن ترجمه، به کجای متن اصلی اشاره میکند، گاهی برای پژوهشگر زمانبر و مشکل میشود. در مرکز قبلاً این کار به صورت دستی انجام میشد؛ یعنی توسط پژوهشگر، مطالعه و جابهجا و صفحهبهصفحه به متن اصلی لینک میشد. با ایجاد سیستم ماشینی، این کار به صورت خودکار انجام میشود و برنامه، نظیربهنظیر جملات متن ترجمه را به یکایک جملات در متن اصلی متصل میکند و حتی بعضی مواقع، یک جمله از ترجمه، به دو جمله از متن اصلی مرتبط است و یا برعکس. شناسایی این موضوع، توسط ماشین صورت میگیرد.
در حوزه ترجمه ماشینی، کار دیگری انجام شده که ترجمهیابی احادیث است. یکسری از احادیث ترجمه شدهاند؛ اما احادیثی هم داریم که ترجمه نشدهاند. در این گونه موارد، سیستم بر اساس ترجمه ماشینی، این احادیث را ترجمه میکند؛ اما ممکن است کیفیت نهایی ترجمه ماشینی برای ارائه مستقیم به کاربر نهایی مطلوب نباشد. ما این سیستم ماشینی را با سیستم جستوجویی ترکیب کردهایم تا بتواند ترجمه ماشینی را در متونِ ترجمهشده جستوجو نماید و با قرائنی، از جمله وجود متن اصلی حدیث، متن ترجمه نهایی را در کتاب فارسی روانی که یک مترجم، لابهلای متنِ خود به حسب نیاز آن را ترجمه کرده، شناسایی مینماید و به کاربر به عنوان ترجمه صحیح ارائه میدهد. انشاءالله، بهزودی از این قابلیت هم در پایگاه جامعالأحادیث رونمایی خواهد شد.
سخن پایانی
دیجیتالسازی و رقومیسازی متون، یک فرآیند هزینهبر برای سازمانها در حوزه تولید محتواست. اگر این سازمان در ابعاد مرکز نور باشد که برای تولید نرمافزارهای متعدد نیازمند دیجیتالسازی متون بسیاری است، این هزینه بسیار بالاتر خواهد بود. در این حوزه، ما از ترکیب چند موتور OCR و نویسهخوان رومی استفاده نمودیم و چرخهای ایجاد کردیم که با تجمیع حداکثری کیفیت این موتورها، بتوانیم زمان دیجیتال کردن متون را به حداقل برسانیم. در نهایت، در جاهایی که اغلاطی بین این سیستمها مشترک هستند، شناسایی شده و برای اصلاح به تایپیست داده میشود و بقیه متن بدون نیاز به اصلاح انسانی، OCR شده و در چرخه فناوری قرار میگیرد. از این قابلیت، در پایگاه نورمگز استفاده کردهایم و بیش از یک میلیون صفحه از مقالات نورمگز که صرفاً تصویری بودند، با استفاده از موتور OCR جستوجوپذیر شدهاند و انبوهی از مقالات نورمگز به پایگاه اضافه شده است تا پژوهشگر بتواند در اینها هم جستوجو کند و درکنار آن، قابلیتهای جانبی نیز به سیستم افزوده شده و کاربر میتواند عبارت مورد نظر خود را در تصویر، هایلایت و برجسته کند؛ بدون اینکه نیاز داشته باشد دنبال آن عبارت بگردد.
در حوزه پردازش محتوای صوتی، برای نخستینبار تحقیق و توسعهای در این زمینه صورت گرفت و این قابلیت در نرمافزار «مقتلالحسین(علیهالسلام)» ارائه گردید؛ به صورتی که کاربر بتواند در محتوای صوتی جستوجو کند.
در کنار این قابلیتها، یک سری مجموع دادگان و پیکرهگانی نیز آماده شد که برخی از اینها منتشر شده و برخی نیز از طریق همین رونمایی در پایگاه آزمایشگاه هوش مصنوعی نور ارائه خواهد شد. این موارد، برای تسهیل فرآیند متنکاوی و پردازش هوشمند در محتوای اسلامی است و اینکه جریانسازی کنیم و پروژههای مشترکی را با نهادهای دانشگاهی و پژوهشگرانی که در این حوزه تخصص دارند، کلید بزنیم.
عناوین پیکرگان بدین شرح است:
- پیکره موازی متن و ترجمه، شامل بیش از 260هزار تکه متن به زبان عربی و ترجمه معادل فارسی آنها؛
- پیکره موازی متن و تصویر متون که در سطح خط کلمات از کتب متناظر عربی و فارسی، با تصویر و متن معادل آنها؛
- پیکره تحلیل صرفی زبان عربی که تقریباً بیش از 320هزار کلمه از قرآن کریم و کتاب شرائعالاسلام آماده شده؛ به همراه 20 برچسب صرفی (ریشه کلمات، پیشوندها، پسوندها، وزن کلمه، قسم کلمه و...)؛
- داده محک پیراستهسازی کلمات عربی؛
- پیکره نمونه احادیث که بالغ بر 15هزار حدیث از کتاب شریف کافی استانداردسازی شده؛
- پیکره موجودیتهای اسمی زبان عربی و زبان فارسی که تقریباً 60هزار حدیث برچسبگذاری شده و نیز اسامی اَعلام و اشخاصی که درون این احادیث وجود دارند، توسط انسان برچسبگذاری شده؛
- پیکره مقالات علمی از پایگاه نورمگز که نمونهای است حاوی حدود 10هزار مقاله به زبان فارسی، به همراه کلیدواژه، چکیده و سایر اقلام دادهای مورد نیاز پژوهشگر.
گفتنی است که تا به حال، بیش از 10 مقاله در سطح ملی و بینالمللی از کارها و دستاوردهای گروه متنکاوی نور ـ از این پس، «آزمایشگاه هوش مصنوعی» ـ منتشر کردهایم که با کلید خوردن این آزمایشگاه و نگاه برونسازمانی و تعاملی حداکثری که به همراه خواهد داشت، این آمار چند برابر خواهد شد.
علاوه بر این مقالات، نیازمند تعاملات حداکثری با دانشگاهها از طریق مشارکت در تعریف پایاننامهها و اشتراک در پروژهها هستیم؛ تا بتوانیم از دانش روزآمد و محققانی که به عنوان ظرفیت بالقوه ما هستند، استفاده کنیم. به جای اینکه پژوهشگران روی دیتای فیسبوک یا موتورهای جستوجوی گوگل، تحقیقات خود را آزمایش کنند، در حوزه علوم اسلامی، مبتنی بر این دادگانی که در اینجا آماده شده و ابزارها و سرویسهایی که به عنوان ابزارهای پایه در اختیار ایشان قرار میگیرد، این پروژهها را توسعه دهند.
همینطور، فرصتهای مطالعاتی که میتوانیم با دانشگاهها کلید بزنیم، بحث تعریف رقابتهای عملی برای نیازهای خاص میتواند شکل بگیرد و در نهایت، برگزاری رویدادها و کارگاهها در زمینه پردازش هوشمند محتوای علوم اسلامی که ـ انشاءالله ـ گوشهای از این دستاوردها در پایگاه آزمایشگاه هوش مصنوعی رونمایی خواهد شد و در آینده نزدیک، محتواها و دستاوردهای بیشتری را شاهد خواهیم بود.