ره آورد نور

Skip to content

نگاهی به پیشینه، اهداف، دستاوردها و چشم‌انداز آزمایشگاه هوش مصنوعی علوم اسلامی و انسانی نور

سه شنبه, 24 اسفند 1400 ساعت 15:15

نویسنده:

مهندس احمد ربیعی‌زاده* این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

اندازه قلم کاهش اندازه قلم افزایش اندازه قلم
چاپ
پست الکترونیکی

این مورد را ارزیابی کنید

1
2
3
4
5

(1 رای)

اشاره

آنچه در این نوشتار می‌خوانید، برگرفته از سخنرانی مهندس احمد ربیعی‌زاده، مدیر آزمایشگاه هوش مصنوعی و علوم اسلامی دیجیتال نور است که در سلسله نشست‌های تخصصی هفته پژوهش در سالن اجتماعات مرکز ارائه شده است. مهندس ربیعی‌زاده، ضمن اشاره به روند تکامل موضوع هوش مصنوعی در این مرکز، به بیان اهداف، دستاوردها و چشم‌اندازهای این مبحث در تولید محصولات نور پرداخت که به‌روشنی نشانگر آن است، مرکز نور در طی بیش از سه دهه فعالیت خویش، روند روبه‌رشدی را در حوزه هوش مصنوعی علوم اسلامی و انسانی پشت سر گذاشته و برنامه‌های کاربردی و ابزارهای ارزشمندی را در این باره عرضه نموده و مسیر پژوهش در علوم و معارف اسلامی و انسانی را هموار ساخته است.

پیشینه پردازش هوشمند در مرکز نور

در خدمتتان هستیم با گزارش مختصری از فعالیت‌های مرکز تحقیقات کامپیوتری علوم اسلامی که طی سه دهه گذشته در زمینه هوش مصنوعی انجام داده و منتج شده به اینکه ان‌شاءالله امروز بتوانیم مراسم افتتاح آزمایشگاه هوش مصنوعی نور را رقم بزنیم.

در ابتداء، تاریخچه‌ای از روند تکامل پردازش هوشمند را در مرکز ارائه خواهیم داد و سپس، به اهداف تأسیس آزمایشگاه و نمونه‌های شاخصی که طی این سال‌ها داشتیم و در نهایت، به نقشه راه و چشم‌اندازی که برای آزمایشگاه هوش مصنوعی نور ترسیم شده، خواهیم پرداخت.

همان‌طورکه مستحضر هستید، از سال 1368 که با نظر مقام معظم رهبری مرکز تحقیقات کامپیوتری علوم اسلامی تأسیس شد، توجه به فناوری‌های نوین پردازش محتوا، یکی از رسالت‌های اصلی بوده و با فلسفه وجودی مرکز گره خورده است. اوّلین محصول مرکز که مبتنی بر هوش مصنوعی تولید شد، پروژه اعتبارسنجی ماشینی اسناد و روایات بود که مرکز در دهه هشتاد بدان دست یافت. با به‌کارگیری این محصول در نرم‌افزار درایة‌النور، اسناد روایات و احادیث با استفاده از هوش مصنوعی اعتبارسنجی شد و به صورت ماشینی مشخص می‌شد که چه سندی ضعیف و چه سندی معتبر است و بر اساس برآیند اعتبار راویانی که در سند وجود داشتند، تصمیم توسط ماشین پیشنهاد می‌شد. قبل از آن هم سمینار ملی کامپیوتر و علوم اسلامی در سال 1371 در مرکز برگزار شده بود.

پس از آن محصولات متعددی بر همان مبنا شکل گرفتند؛ تا اینکه در سال 1390 اداره‌ای تحت عنوان «اداره متن‌کاوی» در مرکز تأسیس شد که متولی پیشبرد دستاوردها در زمینه هوش مصنوعی و استفاده از قابلیت‌های مبتنی بر هوش مصنوعی در نرم‌افزارهای نور بود.

پس از تأسیس اداره متن‌کاوی، جهش قابل توجهی در نرخ رشد قابلیت‌های مبتنی بر هوش مصنوعی در مرکز شکل گرفت و پس از آن، سمینار پردازش هوشمند را داشتیم و هم‌اکنون در سال 1400 ، بیش از 35 دستاورد هوش مصنوعی داریم که در نرم‌افزارها و پایگاه‌های مرکز نمود و بروز داشته که در ادامه بدانها خواهیم پرداخت.

نرخ رشد تعداد قابلیت های هوشمند در محصولات نور

هدف از ایجاد آزمایشگاه هوش مصنوعی

به طور کلی، هدف اصلی از ایجاد آزمایشگاه هوش مصنوعی، تکمیل زیست‌بوم مورد نیاز برای بهره‌برداری حداکثری از هوش مصنوعی در حوزه‌های علوم اسلامی و انسانی است. این هدف، شامل راهبردهای ذیل است:

معرفی ظرفیت‌ها و دستاوردهای هوش مصنوعی در حوزه علوم اسلامی و انسانی؛
تولید و عرضه پیکره‌های استاندارد و سرویس‌های مورد نیاز در پردازش هوشمند محتوای اسلامی؛
انتشار دستاوردها در فضای علمی، پژوهشی و آموزشی در قالب مقاله‌های پژوهشی، برای کمک در انتشار و جریان‌سازی فرآیند تولید و دستاوردها و نرم‌افزارهای مبتنی بر هوش مصنوعی؛
تعامل فعال با مراکز پژوهشی، دانشگاه‌ها و مراکز فعال در حوزه هوش مصنوعی و علوم اسلامی و انسانی؛
ارائه راهکارهای تخصصی پردازش هوشمند به مراکز، مؤسسات و پژوهشگاه‌های علوم اسلامی و انسانی.

فرآیند تولید نرم‌افزارهای نور

فرِآیند تولید نرم‌افزار در مرکز را می‌توان به طور خلاصه، به سه مرحله تقسیم‌بندی کرد:

تولید محتوا شامل مراحل تایپ، تصحیح و OCR؛
فرآوری و غنی‌سازی محتوای تولیدشده در مرحله اوّل: شامل برچسب‌گذاری، اِعراب‌گذاری، مشخص شدن آیات و احادیث؛
ارائه محتوای فرآوری‌شده در قالب نرم‌افزار.

دستاوردهای مرکز در حوزه هوش مصنوعی

با استفاده از هوش مصنوعی توانسته‌ایم، کیفیت و سرعت فرآوری محتوا را به حداکثر برسانیم که در ادامه، به نمونه‌های مشخصی از هر کدام از این موارد، اشاره خواهیم کرد.

1. تجزیه صرفی ماشینی کلمات عربی

در حوزه زبان‌شناسی رایانشی، طی پروژه‌ای حدوداً 4ساله، بحث تجزیه صرفی ماشینی کلمات عربی انجام شد که به عنوان یکی از ابزارهای پایه تحلیل متن و فهم ماشین از متون به‌کار گرفته شد. با این ابزار که به صورت قانون‌محور توسعه داده شد، تقریباً تمامی قواعد زبان‌شناختی عربی، از جمله قواعد مربوط به اعلال‌ها، شناسایی ریشه، وزن، پیشوندها و پسوندهای هر کلمه، فراهم گردید و به عنوان سرویسی برای سایر ابزارها و خدمات به‌کار گرفته شد.

2. پیکره استاندارد نحوی قرآن

این دستاورد، کار بعدی ما بود و در سطح نحوی که یک سطح فراتر از سطح صرفی است، تهیه گردید. این پیکره، ارتباط بین کلمات در جمله، خاص دیتای قرآن مشخص شد که بر اساس آن، ماشین می‌تواند از این روابط کنشگر و کنش‌پذیر، اموری چون: فاعل، مفعول، ظرف و... را شناسایی نماید.

3. مدخل‌یابی هوشمند

کار دیگری که مبتنی بر موتور صرف انجام شد، مدخل‌یابی هوشمند بود. از این قابلیت، در پایگاه قاموس نور بهره‌برداری شده است. در اینجا پس از وارد شدن کلمه مورد نظر در پایگاه قاموس توسط کاربر، نزدیک‌ترین مداخل لغوی به پاسخ مورد نظر او پیشنهاد می‌شود.

4. اِعراب‌گذاری هوشمند

بر اساس این کار، به صورت ماشینی و خودکار، احادیثی را که فاقد اِعراب بودند، بر مبنای یادگیری ماشینی که روی پیکره اِعراب‌خورده احادیث داشتیم، توانستیم این احادیث را با کیفیت بالای 95 درصد اِعراب‌گذاری کنیم.

5. مشابه‌یابی احادیث

برای اوّلین‌بار، در نرم‌افزار «جامع‌الأحادیث 3.5»، از این قابلیت رونمایی شد که در آن، کاربر با یک کلیک، تمام احادیثی را که شباهت بالایی با حدیث مورد نظر از حیث لفظی دارند، در اختیار خواهد داشت. از این قابلیت، در نرم‌افزار «جامع احادیث فریقین» بین کتب منابع حدیثی شیعه و اهل‌سنّت نیز استفاده شده است. این امکان، به حدیث‌پژوهانی که قصد بررسی نسخ مختلف حدیث را دارند، کمک شایانی خواهد کرد و جهشی در فرآیند حدیث‌پژوهی خواهد بود. از این قابلیت، در پایگاه «جامع‌الأحادیث» نیز استفاده شده است.

مبتنی بر تکنیک مشابه‌یابی، پایگاه سمیم نور نیز شکل گرفت؛ یعنی از این فناوری، برای اصالت‌سنجی مقالات و تولید محتوا استفاده شده است. کاربر مقاله مورد نظر خود را به سیستم سمیم نور وارد می‌کند و مقاله کاربر با انبوهی از متون که پشتوانه آن، 570هزار مقاله تمام‌متن پایگاه نورمگز، 35هزار جلد کتاب در پایگاه نورلایب و 120هزار پایان‌نامه‌ است، مشابهت‌سنجی می‌شود. این پشتوانه ارزشمند، محتوایی غنی را تشکیل داده و این موتور مشابهت‌یاب، در کنار آن توانسته کیفیت بالایی در مشابهت‌یابی مقالات در عرصه اصالت‌سنجی تولید علم به ارمغان آورد.

6. مشابهت‌یابی معنایی

ما پا را از سطح مشابه‌یابی لفظی فراتر گذاشته‌ایم و به سوی مشابهت‌یابی معنایی در احادیث رفته‌ایم. گاهی اوقات دو حدیث مورد نظر کاربر، ممکن است از نظر محتوای لفظی تفاوت‌هایی با هم داشته باشند؛ اما ناظر به یک موضوع هستند و به مضمونی واحد از یک محتوا توسط معصوم اشاره می‌کنند. سیستم بر اساس مشابه‌یابی معنایی، می‌تواند تمامی احادیث موضوع مورنظر کاربر را شناسایی کند وکلمات مرتبط و مترادف را استخراج نماید. سیستم توانسته به اینجا برسد که احادیثی را که به حدیث مورد نظر کاربر بسیار نزدیک هستند، در بین 400هزار حدیثی که هم‌اکنون در پایگاه جامع‌الأحادیث داریم، شناسایی کرده و به کاربر پیشنهاد دهد.

در زمینه برچسب‌گذاری موضوعی متون حدیثی و برچسب‌گذاری موضوعی متون فقهی هم کارهایی را انجام داده‌ایم. ماشین با یادگیری خود توانسته احادیث و متون فقهی را از بین ابواب فقهی 50 گانه، برچسب‌گذاری کند که این دستاورد، برای ارائه طبقه‌بندی‌شده متون فقهی و حدیثی به کاربر نهایی کمک می‌کند.

7. برچسب‌گذاری آیات

کار دیگر در زمینه غنی‌سازی متون، برچسب‌گذاری آیات بوده است؛ بدین شکل که سیستم، متن خام را دریافت کرده و تمامی آیات و روایاتی را که در لابه‌لای این متن به‌کاررفته، شناسایی می‌نماید و نشانی آنها را مشخص کرده، به وبگاه جامع قرآنی یا پایگاه حدیثی ما لینک می‌دهد، تا کاربر بتواند پیرامون آن حدیث، هر محتوایی را که در مرکز غنی‌سازی شده، از جمله محتوای تفسیری، محتوای شرح حدیث و سایر محتواها را در دسترس داشته باشد.

8. لینک‌دهی پاورقی کتب

سیستم به صورت هوشمند، پاورقی ذیل هر صفحه را شناسایی کرده، اجزای آن را تحلیل نموده، اسم کتاب را شناسایی می‌کند و در نهایت، کاربر را به صفحه مورد نظر متصل می‌کند؛ بدون آنکه نیاز باشد کاربر، خودش به جست‌وجوی محتوا بپردازد. با توجه به پیچیدگی‌های این کار، مثل مواجه بودن با چاپ‌های مختلف یک کتاب، اعتبارسنجی محتوا در پشت صحنه توسط ماشین انجام شده و در صورتی که لینک محتوای نهایی واجد امتیاز و مشابهت لازم باشد، این محتوا به کاربر نمایش داده می‌شود.

در زمینه استخراج خودکار اعلام و اشخاص، موجودیت‌های اسمی متن، اعم از اشخاص و اسامی مکان‌ها و جای‌ها و همین‌طور، وقایع و رویدادها، توسط ماشین شناسایی و لینک شده که امیدواریم به‌زودی از این قابلیت در پایگاه جامع تاریخ استفاده و رونمایی کنیم.

9. پیشنهاد آیات مرتبط

کار دیگر ما در حوزه هوش مصنوعی، پیشنهاد آیات مرتبط برای کاربران پایگاه جامع قرآنی است که بر اساس تحلیل باهم‌آیی آیات در متن انواع تفاسیر، می‌توانیم از خرد جمعی مفسران استفاده کنیم؛ مثلاً اگر 20 مفسر از دو آیه استفاده کرده‌اند، سیستم تحلیل می‌کند که آیه دوم می‌تواند برای کاربری که آیه اوّل را در نظر دارد، مفید باشد و به عنوان آیات مرتبط و بیشتر، به کاربر پیشنهاد شود.

مورد دیگری نیز در تحلیل باهم‌آیی‌ها انجام شد؛ به این شکل که با توجه به داشتن حجم عظیمی از لاگ کاربران و جست‌وجوی آنها در پایگاه نورمگز، ما توانستیم پیشنهاد عبارت جست‌وجو را برای کاربران داشته باشیم؛ برای مثال، سیستم در ازای جست‌وجوی «بیداری اسلامی» توسط کاربر، عبارات «بهار عربی»، «اخوان‌المسلمین»، «انقلاب مصر» را نیز به کاربر پیشنهاد می‌دهد. سیستم بدون اینکه معنای اینها را درک نموده باشد، صرفاً بر اساس تحلیل باهم‌آیی‌ها در حجم بالای لاگ کاربران می‌تواند این پیشنهادهای جذاب را به کاربران ارائه نماید.

10. پیشنهاد هوشمند مقالات

شبیه تحلیل‌هایی که در زمینه عبارت‌های جست‌وجو انجام شد، بر اساس باهم‌آیی دانلود یا بازدید دو مقاله در نورمگز، به این نتیجه رسیدیم که چون مقاله «الف» توسط کاربری که مقاله «ب» را دیده، در انبوه کاربران به‌مراتب تکرار شده، مقاله دوم می‌تواند مفید باشد و این در حجم بالای لاگ کاربران می‌تواند ما را به Recommender system یا سیستم‌های پیشنهاددهنده محتوا رهنمون کند که می‌تواند به توسعه پژوهش محققان کمک شایانی نماید.

11. ترجمه ماشینی

در حوزه ترجمه ماشینی، ترازبندی خودکار بین متن و ترجمه انجام شده است. در فرآیند پژوهش، بیشترِ اوقات، کاربر با متن ترجمه‌ای مواجه است که با متن اصلی متناظر است. تشخیص اینکه دقیقاً کجای این متن ترجمه، به کجای متن اصلی اشاره می‌کند، گاهی برای پژوهشگر زمان‌بر و مشکل می‌شود. در مرکز قبلاً این کار به صورت دستی انجام می‌شد؛ یعنی توسط پژوهشگر، مطالعه و جابه‌جا و صفحه‌به‌صفحه به متن اصلی لینک می‌شد. با ایجاد سیستم ماشینی، این کار به صورت خودکار انجام می‌شود و برنامه، نظیربه‌نظیر جملات متن ترجمه را به یکایک جملات در متن اصلی متصل می‌کند و حتی بعضی مواقع، یک جمله از ترجمه، به دو جمله از متن اصلی مرتبط است و یا برعکس. شناسایی این موضوع، توسط ماشین صورت می‌گیرد.

در حوزه ترجمه ماشینی، کار دیگری انجام شده که ترجمه‌یابی احادیث است. یک‌سری از احادیث ترجمه شده‌اند؛ اما احادیثی هم داریم که ترجمه نشده‌اند. در این گونه موارد، سیستم بر اساس ترجمه ماشینی، این احادیث را ترجمه می‌کند؛ اما ممکن است کیفیت نهایی ترجمه ماشینی برای ارائه مستقیم به کاربر نهایی مطلوب نباشد. ما این سیستم ماشینی را با سیستم جست‌وجویی ترکیب کرده‌ایم تا بتواند ترجمه ماشینی را در متونِ ترجمه‌شده جست‌وجو نماید و با قرائنی، از جمله وجود متن اصلی حدیث، متن ترجمه نهایی را در کتاب فارسی روانی که یک مترجم، لابه‌لای متنِ خود به حسب نیاز آن را ترجمه کرده، شناسایی می‌نماید و به کاربر به عنوان ترجمه صحیح ارائه می‌دهد. ان‌شاءالله، به‌زودی از این قابلیت هم در پایگاه جامع‌الأحادیث رونمایی خواهد شد.

سخن پایانی

دیجیتال‌سازی و رقومی‌سازی متون، یک فرآیند هزینه‌بر برای سازمان‌ها در حوزه تولید محتواست. اگر این سازمان در ابعاد مرکز نور باشد که برای تولید نرم‌افزارهای متعدد نیازمند دیجیتال‌سازی متون بسیاری است، این هزینه بسیار بالاتر خواهد بود. در این حوزه، ما از ترکیب چند موتور OCR و نویسه‌خوان رومی استفاده نمودیم و چرخه‌ای ایجاد کردیم که با تجمیع حداکثری کیفیت این موتورها، بتوانیم زمان دیجیتال کردن متون را به حداقل برسانیم. در نهایت، در جاهایی که اغلاطی بین این سیستم‌ها مشترک هستند، شناسایی شده و برای اصلاح به تایپیست داده می‌شود و بقیه متن بدون نیاز به اصلاح انسانی، OCR شده و در چرخه فناوری قرار می‌‎گیرد. از این قابلیت، در پایگاه نورمگز استفاده کرده‌ایم و بیش از یک میلیون صفحه از مقالات نورمگز که صرفاً تصویری بودند، با استفاده از موتور OCR جست‌وجوپذیر شده‌اند و انبوهی از مقالات نورمگز به پایگاه اضافه شده‌ است تا پژوهشگر بتواند در اینها هم جست‌وجو کند و درکنار آن، قابلیت‌های جانبی نیز به سیستم افزوده شده و کاربر می‌تواند عبارت مورد نظر خود را در تصویر، هایلایت و برجسته کند؛ بدون اینکه نیاز داشته باشد دنبال آن عبارت بگردد.

در حوزه پردازش محتوای صوتی، برای نخستین‌بار تحقیق و توسعه‌ای در این زمینه صورت گرفت و این قابلیت در نرم‌افزار «مقتل‌الحسین(علیه‌السلام)» ارائه گردید؛ به صورتی که کاربر بتواند در محتوای صوتی جست‌وجو کند.

در کنار این قابلیت‌ها، یک سری مجموع دادگان و پیکره‌گانی نیز آماده شد که برخی از اینها منتشر شده و برخی نیز از طریق همین رونمایی در پایگاه آزمایشگاه هوش مصنوعی نور ارائه خواهد شد. این موارد، برای تسهیل فرآیند متن‌کاوی و پردازش هوشمند در محتوای اسلامی است و اینکه جریان‌سازی کنیم و پروژه‌های مشترکی را با نهادهای دانشگاهی و پژوهشگرانی که در این حوزه تخصص دارند، کلید بزنیم.

عناوین پیکر‌گان بدین شرح است:

پیکره موازی متن و ترجمه، شامل بیش از 260هزار تکه متن به زبان عربی و ترجمه معادل فارسی آنها؛
پیکره موازی متن و تصویر متون که در سطح خط کلمات از کتب متناظر عربی و فارسی، با تصویر و متن معادل آنها؛
پیکره تحلیل صرفی زبان عربی که تقریباً بیش از 320هزار کلمه از قرآن کریم و کتاب شرائع‌الاسلام آماده شده؛ به همراه 20 برچسب صرفی (ریشه کلمات، پیشوندها، پسوندها، وزن کلمه، قسم کلمه و...)؛
داده محک پیراسته‌سازی کلمات عربی؛
پیکره نمونه احادیث که بالغ بر 15هزار حدیث از کتاب شریف کافی استانداردسازی شده؛
پیکره موجودیت‌های اسمی زبان عربی و زبان فارسی که تقریباً 60هزار حدیث برچسب‌گذاری شده و نیز اسامی اَعلام و اشخاصی که درون این احادیث وجود دارند، توسط انسان برچسب‌گذاری شده؛
پیکره مقالات علمی از پایگاه نورمگز که نمونه‌ای است حاوی حدود 10هزار مقاله به زبان فارسی، به همراه کلیدواژه، چکیده و سایر اقلام داده‌ای مورد نیاز پژوهشگر.

گفتنی است که تا به حال، بیش از 10 مقاله در سطح ملی و بین‌المللی از کارها و دستاوردهای گروه متن‌کاوی نور ـ از این پس، «آزمایشگاه هوش مصنوعی» ـ منتشر کرده‌ایم که با کلید خوردن این آزمایشگاه و نگاه برون‌سازمانی و تعاملی حداکثری که به همراه خواهد داشت، این آمار چند برابر خواهد شد.

علاوه بر این مقالات، نیازمند تعاملات حداکثری با دانشگاه‌ها از طریق مشارکت در تعریف پایان‌نامه‌ها و اشتراک در پروژه‌ها هستیم؛ تا بتوانیم از دانش روزآمد و محققانی که به عنوان ظرفیت بالقوه ما هستند، استفاده کنیم. به جای اینکه پژوهشگران روی دیتای فیس‌بوک یا موتورهای جست‌وجوی گوگل، تحقیقات خود را آزمایش کنند، در حوزه علوم اسلامی، مبتنی بر این دادگانی که در اینجا آماده شده و ابزارها و سرویس‌هایی که به عنوان ابزارهای پایه در اختیار ایشان قرار می‌گیرد، این پروژه‌ها را توسعه دهند.

همین‌طور، فرصت‌های مطالعاتی که می‌توانیم با دانشگاه‌ها کلید بزنیم، بحث تعریف رقابت‌های عملی برای نیازهای خاص می‎تواند شکل بگیرد و در نهایت، برگزاری رویدادها و کارگاه‌ها در زمینه پردازش هوشمند محتوای علوم اسلامی که ـ ان‌شاءالله ـ گوشه‌ای از این دستاوردها در پایگاه آزمایشگاه هوش مصنوعی رونمایی خواهد شد و در آینده نزدیک، محتواها و دستاوردهای بیشتری را شاهد خواهیم بود.