* لطفاً خودتان را برای خوانندگان فصلنامه معرّفی بفرمایید.
◊ احمد ربیعیزاده هستم؛ معاون فنّاوری مرکز تحقیقات کامپیوتری علوم اسلامی و مدیر آزمایشگاه هوش مصنوعی نور. سالهاست افتخار همکاری با این مجموعه فنّاور عرصه علوم اسلامی را دارم.
* مقوله هوش مصنوعی و دادههای ماشینی در مرکز نور، از چه پیشینهای برخوردار است؟
◊ به طور کلّی، بحث استفاده از فنّاوریهای نوین اطّلاعات در مرکز تحقیقات کامپیوتری علوم اسلامی، با ذات مرکز عجین بوده و اصلاً تأسیس این مرکز، مبتنی بر استفاده از فنّاوریهای جدید کامپیوتری است؛ چنانکه از عنوان و اسم این مرکز نیز مشخّص است. از همان ابتداء، بحثهای تخصّصی مرتبط با این فضا، در سمینارهای علمی توسط مرکز برگزار شد؛ یعنی در اوایل دهه هفتاد شمسی، سمینارهایی برگزار شد که مربوط به بهرهبرداری از کامپیوتر و فنّاوریهای کامپیوتری در زمینه علوم اسلامی بود.
بعد از آن، میتوان گفت که ما در دهه هشتاد به طور خاصّ شروع به بهرهبرداری از هوش مصنوعی کردیم. اوّلین بار در نرمافزار تخصّصی درایة النور، قابلیتی تحت عنوان «ارتباطسنجی ماشینی اسناد روایات» اضافه شد. آن موقع، جناب آقای دکتر مینایی و کارگروهی که در این خصوص تشکیل شده بود، بر اساس تحلیلی که ماشین از برآیند اعتبار یکایک راویان موجود در سند یک حدیث انجام داده بود، توانستند به صورت ماشینی یک قابلیتی را تحت عنوان «ارزیابی اسناد» در نرمافزار درایة النور اضافه کنند؛ یعنی ماشین خودش جمعبندی تحلیلی را که از اعتبار روات داشت، به کلّ سند حدیث تعمیم میداد و میگفت این سند، صحیح، موثّق، معتبر یا ضعیف است. این، یکی از قابلیتهای اوّلیهای بود که مبتنی بر سیستمهای خبره کار میکرد و مبتنی بر قوانین از پیش تعریفشده یا اصطلاحاً روشهای قاعدهمند عمل مینمود. این مورد را بهعنوان خروجی نسل اوّل ماشینهای هوش مصنوعی مرکز نور میتوان برشمرد.
* یعنی قبل از این، استفاده از هوش مصنوعی، در محصولات مرکز سابقه نداشته است؟
◊ پاسخ به این سؤال، نیازمند تعیین مقصود مورد نظر ما از هوش مصنوعی است. تعریفهای مختلفی از هوش مصنوعی ارائه شده است. در تعریف کلان، سیستمهای خبره و ماشینهایی که به صورت قاعدهمند به حلّ مسائل انسانی میپردازند نیز داخل در تعریف هوش مصنوعی هستند و صرفاً بحث یادگیری ماشین بهخودیخود، مطرح نیست. گاهی ما از ماشین انتظار داریم که خودش قواعد حلّ مسئله را شناسایی کند که این امر، سطح مترقیتری از هوش مصنوعی است؛ امّا هوش مصنوعی به طور عامّ، یعنی هر ماشینی که بتواند در یک یا چند وظیفه مشخّص، مانند انسان خبره عمل کند. طبق این تعریف، شاید بتوانیم محصولات قدیمیتر از درایة النور و ابزارهای ماشینی به کار گرفته شده در مراحل فرآوری محتوا را هم بهنوعی از خروجیهای اوّلیه هوش مصنوعی بدانیم.
ولی به هر حال، در آن زمان بارزترین نمونه از خروجیهای مرکز در حوزه هوش مصنوعی، همین سیستم اعتبارسنجی ماشینی اسناد روایات است که در نرمافزار درایة النور در دهه هشتاد گنجانده و منتشر شده است.
بعد از آن، زمینههای بهرهبرداری از هوش مصنوعی و تکنیکهای پردازش زبان طبیعی، گامبهگام توسعه پیدا کرد و با هدایت جناب دکتر مینایی، تیمی تحت عنوان «گروه متنکاوی نور» تشکیل شد که در واقع، همکاری مشترکی بین افرادی از گروه تحقیق و توسعه معاونت فنّاوری و افرادی از گروه لغت در معاونت پژوهش بود.
پروژه اوّل این گروه، موتور تجزیه صرفی بود؛ یعنی ماشینی که بتواند کلمات عربی را از نظر صرفی و ساختواژی تحلیل کند و پیشوند و پسوند کلمات، ریشه، وزن، تعداد، جنسیت و سایر ویژگی صرفی را که بالغ بر بیست مورد هستند، شناسایی کند.
مدّتی بعد، زمینههای بهرهبرداری از هوش مصنوعی توسعه پیدا کرد و در معاونت فنّاوری گروهی تحت عنوان «گروه پردازش زبان طبیعی» ذیل بخش تحقیق و توسعه شکل گرفت. در این گروه، افراد متخصّص مباحث مربوط به پردازش زبان طبیعی(1) را پیگیری میکردند و به بررسی دستاوردهای جدید در این زمینه در سطح دنیا و همچنین بررسی انطباق آنها با نیازهای مرکز نور میپرداختند. بهتدریج کار توسعه پیدا کرد و با توجّه به تعدد نیازها و تنوّع گستره آنها، لازم شد که علاوه بر پردازش متن، پردازش تصویر و پردازش صوت هم در دستور کار قرار گیرد. بنابراین، ادارهای در معاونت فنّاوری تحت عنوان «اداره پردازش هوشمند» مرکز تأسیس شد. رفتهرفته حجم قابلیتها و دستاوردهایی که لازم بود در محصولات مختلف نور مبتنی بر هوش مصنوعی انجام شود، توسعه پیدا کرد؛ تا جایی که در سال 1401 شمسی «آزمایشگاه هوش مصنوعی و علوم اسلامی و انسانی دیجیتال نور» تأسیس گردید؛ بدین منظور که بتواند علاوه بر پوششدادن نیازهای داخلی، تعامل فعّالی هم با دانشگاهها و مؤسّسات و مراکزی که در حوزه هوش مصنوعی و علوم اسلامی فعّال هستند، برقرار نماید و کارهای مشترکی انجام شود؛ بهطوریکه هماکنون، برخی از دستاوردهای خاصّ، از تعریف پروژههای مشترک در سطح پایاننامههای ارشد و دکتری و همچنین فرصتهای مطالعاتی دانشگاهها بوده که در واقع، در مرکز تحقیقات کامپیوتری علوم اسلامی شکل گرفته و حمایت یا پشتیبانی شده است. بحمدالله، الآن به جایی رسیدهایم که تقریباً بیش از پنجاه قابلیت مبتنی بر هوش مصنوعی را در لابهلای برنامههای مختلف نور گنجاندهایم و از آنها بهرهبرداری میکنیم.
* از نظر شما، فرآیند بهرهوری از هوش مصنوعی در محصولات نور چگونه است؟
◊ به طور کلّی، فرآیند تولید نرمافزارهای محتوایی در مرکز نور سه مرحله اصلی دارد:
مرحله اوّل آن، بحث آمادهسازی محتواست. تایپ و تصحیح متن در مرکز، در این مرحله انجام میشود؛ یعنی بحث دیجیتالسازی و رقومیسازی محتوای ورودی. این مرحله، به همّت گروههای مختلفی در معاونتهای گوناگون مرکز از قبیل معاونت تولید، در حال انجام است.
مرحله دوم، فرآوری محتوای رقومی است. در این قسمت، انواع و اقسام برچسبگذاریها روی محتوا به فراخور پژوهشهای مختلف انجام میشود؛ مثلاً در پروژهای مانند تاریخ، بیش از صد نوع برچسبگذاری روی محتوای متون تاریخی انجام شده است؛ برچسبهایی مانند: اسم اشخاص، زمان، مکان خاصّ، جنگها و امثال آن. به همین منوال، در هر پروژهای متناسب با آن، یکسری برچسبهای مشخّص و معینشده، به متون تولیدشده تعلق میگیرد. کارهایی که در زمینه تهیه نمایه، کلیدواژه و موضوع در علوم مختلف انجام میشود، همگی نوعی برچسبگذاری است که در عمل، به غنیسازی و فرآوری محتوای آمادهشده میانجامد. این قبیل فعّالیتها، در معاونتهایی از جمله معاونت پژوهش انجام میشود.
مرحله سوم، ارائه محتوای فرآوریشده و پردازششده، در قالب یک نرمافزار یا محصول نهایی است که در بستر وب، موبایل و یا نرمافزار دسکتاپی عرضه میگردد و در واقع، بسترهایی برای تعامل با مخاطب نهایی فراهم میشود.
در هر سه مرحله و فرآیند تولید نرمافزارهای محتوایی، سعی شده حتیالامکان از قابلیتهای مبتنی بر شاخههای مختلف هوش مصنوعی استفاده کنیم.
از جمله مباحث مطرح در خصوص هوش مصنوعی، بحث زبانشناسی رایانشی(2) است که از آن برای توسعه موتور صرف، افزودن قابلیت ریشهیابی(3) و مدخلیابی(4) در موتورهای جستوجو بهرهبرداری شده است. از قابلیت مشابهیابی متون(5) و ردهبندی یا طبقهبندی متون(6) که کاربردها و انواع مختلفی دارد، پس از سفارشیسازیهای لازم به فراخور نیاز، در کاربردهایی از قبیل: مشابهیابی احادیث، شناسایی اصالت محتوا در سمیم نور و برچسبگذاری موضوعی مقالات و کتب بهره بردهایم.
فنّاوری دیگر، استخراج هوشمند اطّلاعات(7) است که در نیازهای مختلفی از قبیل استخراج کلیدواژه(8)، از آن استفاده شده است. از سیستمهای پیشنهاددهنده هوشمند(9)، در نرمافزارهای مختلف نور از جمله وبگاه نورلایب و نورمگز، استفاده کردیم و علاوه بر پیشنهاد بهازای محتوا، به کاربران خودمان پیشنهادهای اختصاصی نیز میدهیم. همچنین، بحث استفاده از سیستمهای ترجمه ماشینی در راستای ترازبندی متن و ترجمه(10)، همچنین تکنیکهای پردازش تصویر در جهت نویسهخوانی نوری(11) و استخراج متن از تصاویر متون چاپی، از جمله ابزارهایی هستند که مبتنی بر فنّاوریهای هوش مصنوعی بوده و ما آنها را بومیسازی و سفارشیسازی نموده و سپس، در محتوای تولیدی مرکز بهرهبرداری کردهایم.
* علاوه بر قابلیت جستوجوی لفظی در متون که باید تایپ شود، آیا امکان جستوجوی صوتی هم برای کاربران وجود دارد؟ افزون بر این، آیا سیستم میتواند همه این پاسخهای لفظی را خودش تحلیل کند و فقط یک نتیجه تحقیقی و خلاصه به درخواست کاربر ارائه بدهد؟
◊ در خصوص بخش اوّل پرسش شما، باید عرض کنم که پشتیبانیکردن محصولات از قابلیت جستوجوی صوتی را در برخی از نرمافزارهای خودمان داریم. به طور خاصّ، در خطّ جستوجوی پایگاه قرآن این امکان را فراهم کردهایم که کاربر بتواند یک جستوجوی صوتی را انجام بدهد؛ برای نمونه، کاربر در قسمت جستوجوی پایگاه قرآن، پس از فعّالسازی میکروفون میتواند عبارت مورد جستوجوی خود را بگوید و سیستم بلافاصله صوت او را تبدیل به متن کرده و سپس، فرآیند جستوجو در تفاسیر یا متن قرآن و دیگر منابع موجود را دنبال میکند و فهرستی از پاسخها را ارائه میدهد.
امّا قابلیت دیگر این است که شما بتوانید در فایلهای صوتی کاوش کنید. این قابلیت را هم برای اوّلین بار در نرمافزار «مقتلالحسین(ع)» فراهم نمودیم؛ در آنجا کاربر میتواند عبارت مورد نظر خود را در فایل صوتی سخنرانیهای موجود در برنامه جستجو کند و به ثانیه خاصّ از یک فایل سخنرانی که به آن عبارت خاصّ پرداخته است، هدایت شود. به طور کلّی، در خصوص استفاده از پردازش صوتی، فعّالیتهای خوبی در مرکز آغاز شد؛ امّا با توجّه به حجم دادگان عظیم متنی که در اختیار داریم و از سوی دیگر، محدودیت نیروی متخصّص، اولویت نخستِ ما در پیشبرد پروژهها، پردازش متن بوده است.
در مورد بخش دوم سؤال شما که فرمودید نتایج به صورت لفظی برای کاربر فهرست نشود، بلکه از جمعبندی محتوا بخواهد یک نتیجه تحقیقی و بسته پژوهشی مناسب را برای کاربر تولید کند، باید عرض کنم که فنّاوری مربوط به این قابلیت، هوش مصنوعی مولّد(12) نام دارد که توسعه و بهرهبرداری از آن، هماکنون در دستور کار تیمهای ما قرار دارد.
* یکی از موضوعات مهم در بحث هوش مصنوعی، پردازش مؤلّفههای اساسی یک متن است. در متون طولانی مثل روایات مطول، برای این منظور با چه چالشهایی مواجه هستید و چه چارهای اندیشیدهاید؟ همچنین در زمینه پردازشهای معنایی و فرالفظی در مرکز چه نمونههایی به محصول تبدیل شدهاند؟
◊ ما در پایگاه جامع الأحادیث، قابلیتی را برای اوّلینبار مبتنی بر تکنیکهای مشابهیابی متنی، تحت عنوان «احادیث اخص و اعم» ارائه کردیم که به ترتیب، احادیثی هستند که حاوی بخشی از روایت مورد نظر هستند یا روایت مورد نظر، بخشی از متن آنها را تشکیل میدهد؛ بهعنوان نمونه، وقتی شما یک حدیث مطول در اصول کافی دسترسی پیدا میکنید، پایگاه به شما عبارتهای تقطیعشده همین حدیث طولانی را که در منابع دیگر نقل شده، نمایش میدهد که ما این نوع احادیث مرتبط را «احادیث اخص» میگوییم؛ یعنی پایگاه میآید حدیث طولانی را به فرازهای مختلف همان حدیث که در منابع دیگر به شکل پراکنده آمده، متّصل و مرتبط میکند و شما میتوانید علاوه بر تحلیل فرازهای قبلی و بعدی، این بخشهای تقطیعشده را با متن حدیث طولانی مطابقت دهید و تشابهها و یا تفاوتها را بهتر درک کنید.
برعکس این کار، «احادیث اعم» است؛ یعنی گاهی ممکن است حدیثپژوه به یک حدیث کوتاه یا تقطیعشده دسترسی داشته باشد؛ امّا گونههای بلندتری از آن، در سایر منابع متقدّم نقل شده باشد. قابلیت احادیث اعم، شما را به آن روایات مطول و بلندتر، وصل میکند و همگی تحت یک مجموعه واحد، قابل شناسایی و تحقیق است. بنابراین، به کمک این قابلیت میتوانیم شبکهای از نسخههای مختلف نقلشده از یک حدیث را از تمامی منابع روایی با تعیین وضعیت تقدّم و تأخّر آنها به کاربر ارائه دهیم.
قبل از این، قابلیت «گروهبندی احادیث» را داشتیم که به دستهبندی احادیثی میپرداخت که با درنظرگرفتن تمام محدوده متن حدیثی، تقریباً نسخه تکراری(13) از یکدیگر بودهاند؛ در آنجا آن حدیث جزئی با آن حدیث کلّی، به جهت عدم تشابه کلّ متنشان، تحت یک گروه قرار نمیگیرند و هریک در یک گروه مجزا قرار خواهد گرفت. برای همین منظور بود که ما سراغ قابلیتی جدید به اسم «احادیث اخص و اعم» رفتیم.
* آیا ترجمه اینگونه احادیث به شکل یکپارچه، در دسترس هستند؟
◊ در حوزه تحلیلهای بینزبانی در احادیث، کارهای مختلفی انجام شده یا در حال انجام است؛ از قبیل اینکه الآن در پایگاه جامع الأحادیث، شما با یک کلیک میتوانید از متن حدیث به لغتنامهها مراجعه کنید؛ مثلاً بنده هنگام تحقیق در متن، معنای واژهای مانند «استنطقه» را نمیدانم. صرفاً با انتخاب این کلمه و زدن دکمه «جستجو در لغتنامه»، به کادر لغتنامه منتقل خواهم شد و میتوانم معنای این واژه را بررسی کنم؛ یعنی سیستم به شکل هوشمند این کار را انجام میدهد. در واقع، سیستم پس از تحلیل کلمه و حذف پیشوند یا پسوند کلمه، نزدیکترین مدخل مربوط به آن را از بین مداخل موجود در کتب لغت پیشنهاد میدهد.
متن فارسی ترجمه احادیث نیز بهازای برخی احادیث موجود است که مبتنی بر قابلیت گروهبندی هوشمند یا ارائه احادیث اخص و اعم، کاربر میتواند به ترجمه نسخههای دیگر این حدیث از سایر کتب حدیثی، دسترسی داشته باشد.
بحث دیگر، ترجمهدارکردن احادیث فاقد ترجمه است که با بهرهبرداری از ترجمه ماشینی و شناسایی و بازیابی ترجمههای ارائهشده از آن در کتابهای فارسی، در دستور کار قرار دارد که امیدواریم انشاءالله در آینده نزدیک، به نتیجه برسد و در پایگاه ارائه شود.
* آیا سیستم فعلی میتواند احادیثی را که از نظر معنا و مفهوم با حدیث مورد نظر ما ارتباط دارد، شناسایی و ارائه کند؟
◊ بله؛ یکی از مباحثی که در حوزه حدیث و مبتنی بر هوش مصنوعی میتواند جذّاب باشد، موضوع ارائه احادیث مرتبط از حیث معنایی است. یک روایت، با وجود تفاوت لفظی با روایات دیگر، ممکن است به حدیثی از یک معصوم دیگر و یا همان معصوم، شباهت معنایی داشته باشد؛ به عبارتی، ما باید بتوانیم احادیثی را که از نظر مضمونی شبیه هم هستند و به یک مفهوم کلّی اشاره میکنند، به طور یکجا داشته باشیم.
در گذشته، این نوع کارها به صورت دستی توسط محقّقان و دانشمندانی مثل شیخ حرّ عاملی در وسائل الشیعه انجام میشده است. در اهلسنّت هم بحث تخریج حدیث را داریم؛ یعنی احادیث مختلفی را که به یک مفهوم اشاره میکنند، جمعآوری مینمایند؛ چه شباهت لفظی داشته باشند، چه از نظر لفظی متفاوت باشند.
این قابلیت، با استفاده از مدلهای زبانی(14) و تعبیهسازی اسناد(15)، سالهای گذشته به نتیجه رسیده بود و برای اوّلینبار در پایگاه جامع الأحادیث ذیل برگه «احادیث مرتبط» ارائه شد.
به خاطر دارم، یکی از عزیزان رساله دکترای خودش را در موضوع سنّ بلوغ دختران به نتیجه رسانده بود. ایشان میگفت: یکی از مراحلی که خیلی از من وقت گرفت، پیداکردن احادیث از لابهلای حجم عظیمی منابع روایی بود که به این مفهوم اشاره میکنند. وقتی ما این قابلیت را به ایشان ارائه کردیم، از طرفی خیلی خوشحال شد و از طرفی خیلی ناراحت؛ خوشحال از اینکه چنین قابلیتی برای محقّقان فراهم شده که در زمان کمتر و با جامعیت خیلی بیشتر، نتیجه مورد نظر را برای پژوهشگر فراهم میکند و ناراحت از اینکه چرا در هنگام تدوین رساله خویش، به این امکان دسترسی نداشته بود! چراکه ایشان سه سال وقت خود را روی بررسی احادیث گذاشته بود، تا همه روایات مرتبط با این موضوع را دیده باشد؛ با وجود اینکه به ابزارهای فنّی و استفاده از نرمافزارها و شیوه جستوجو در آنها نیز مسلّط بود. با وجود چنین قابلیتهایی، در واقع، زمینه جهشی در فرآیند حدیثپژوهی فراهم میشود؛ زیرا پژوهشگران زمان کمتری را برای گردآوری منابع صرف خواهند کرد و قادر خواهند بود توان خود را روی تحلیلهای پیچیدهتر بعدی صرف کنند.
* چشمانداز مرکز را در باره هوش مصنوعی و دادههای ماشینی چگونه میدانید؟
◊ چشمانداز کلّی که برای استفاده از هوش مصنوعی در مرکز دیده شده، این است که ما استفاده حدّاکثری از هوش مصنوعی را در تمام ایستگاههای کاری مرکز، دنبال کنیم؛ چه در معاونتهایی از قبیل: معاونت پژوهش، تولید و حتّی بازرگانی و اداری - مالی و چه در بخشهای برنامهنویسی موجود در معاونت فنّاوری. در این صورت، هم هزینهها کاهش مییابد، هم کیفیت خروجیها افزایش پیدا میکند. علاوه بر این، به وسیله هوش مصنوعی میتوان قابلیتهای جدیدی را نیز برای کاربران فراهم کرد. اینها توضیح اجمالی و کلّی چشمانداز ما در حوزه هوش مصنوعی است.
امّا به طور خاصّ، کاری که طیّ این یک سال و نیم اخیر روی آن بیشتر تمرکز شده، تحقیق و توسعه در زمینه دستیارهای هوشمند است که مبتنی بر فنّاوریهای جدیدی از جمله مدلهای زبانی بزرگ(16) و رباتهای گفتوگوگر(17) است؛ بهطوریکه کاربر بتواند به صورت آزاد با آن سیستم هوشمند تعامل کند و آن سیستم بهعنوان یک دستیار تخصّصی و باکیفیت که دامنه وسیعی از محتوا را در اختیار دارد، نسبت به نیاز محقّق در حوزههای مختلف پاسخگو باشد؛ مانند دستیار هوشمند خبره در زمینه: تفسیر قرآن، حدیث، دانش فقه و اصول، تاریخ و دیگر علوم و معارف اسلامی.
تا قبل از این فنّاوری جدید، لازم بود بهازای هریک از وظایف مورد نظر، یک ماشین هوشمند مستقلّ تولید شود؛ مثلاً یک ماشین یا مدل برای استخراج کلیدواژهها، یکی برای خلاصهسازی متن و مانند آن؛ امّا با ظهور دستیارهای هوشمند، از قبیل ChatGPT همه این قابلیتها در یک ماشین واحد مجتمع شدهاند؛ بدین ترتیب که این ماشین یکپارچه و هوشمند، قابل تعامل است و پس از شناسایی نیاز مخاطب، مطابق با دستور او عمل کرده، خروجی مورد نظر را تولید میکند. در برخی از نیازهای محدود، ما به صورت مستقیم از این سرویسهای خارجی بهرهبرداری میکنیم.
شایان ذکر است که به دلایل مختلف نمیتوانیم به صورت کامل به این قبیل سامانههای هوشمند خارجی تکیه کنیم؛ زیرا سامانههای ارائهشده، در برخی نیازهای تخصّصی علوم اسلامی، از اتقان و کیفیت لازم برخوردار نیستند و در مواردی، در پاسخ به سؤال کاربر به تولید مطالبی میپردازند که به هیچ وجه واقعیت خارجی ندارد که بهاصطلاح، با نام چالش «هذیان گفتن» یا «توهّم زدن» (18) شناخته میشود؛ ضمن اینکه گاهی در برخی از این سیستمها، سوگیریهای(19): فرهنگی، اجتماعی و یا سیاسی خاصّی نیز وجود دارد که ناشی از نوع دیتای مورد استفاده در آنها بوده است. از سوی دیگر، استفاده از این سامانه برای برخی نیازها، مستلزم در اختیار گذاشتن حجم بالایی از محتوای مرکز و همچنین صرف هزینه بسیار است.
به دلایل ذکرشده، ما در مرکز تحقیقات کامپیوتری علوم اسلامی، در حال تلاش برای تولید و بومیسازی مدلهای زبانی بزرگ با استفاده از تکنیکهای خاصّی از جمله تنظیم دقیق(20) یا سامانه مولّد بازیابیمحور(21) هستیم؛ برای اینکه بتوانیم دستیارهایی هوشمند در حوزههای مختلف علوم اسلامی، از قبیل: پژوهشهای قرآنی، حدیثی، فقهی، تاریخی و... تولید کنیم؛ تا برای کاربران و متخصّصان ما، قابل اتّکاء و اعتماد باشند. بحمدالله، تاکنون پیشرفتهای خوبی هم در این زمینه داشتهایم که إن شاء الله پس از رسیدن به نقطه مطلوب، خروجی لازم را در این زمینه عرضه خواهیم کرد.
* با توجّه به تحوّلاتی که در حوزه هوش مصنوعی در حال رخدادن هست، آیا ایستگاههای کاری موجود در فرایند تولید نرمافزار، جای خودش را به فنّاوریهای نوین خواهند داد؟ اساساً چه تحوّلی در محصولات نور ایجاد میشود؟
◊ یکی از چالشهای جهانی که این نوع فنّاوریهای جدید و مبتنی بر هوش مصنوعی، از قبیل رباتهای گفتوگوگر یا مدلهای زبانی بزرگ ایجاد کرده، حذف یکسری مشاغل و یا محصولات است. همین امر، باعث شده که گروههای مختلفی در گوشه و کنار دنیا، اعتراض و اعتصاب کنند. مدّتی پیش، خبری در همین زمینه دیدم که نویسندگان هالیوود، پویشی را در اعتراض به استفاده از فنّاوریهای جدید و جایگزینشدن آنها به راه انداخته بودند و حرفشان این بود که درست است در مواردی هوش مصنوعی خوب عمل کرده، ولی نباید شغل ما را بگیرد. آنها روی برخی پلاکاردهایی که در دست داشتند، نوشته بودند: هوش مصنوعی مثل ما کودکی نکرده و احساس و عاطفهای را که ما در کودکی تجربه کردهایم، هرگز نداشته. پس، چطور میتواند مشابه ما داستان و فیلمنامه بنویسد!
به هر حال، این، یک واقعیت است. تهدیدهایی که هوش مصنوعی برای برخی مشاغل داشته، همه جا دیده میشود. در واقع، یکسری شغلهایی که از سطح تخصّص بالایی برخوردار نیستند، الآن توسط ماشین در حال جایگزینی هستند و دیگر نیازی به گروههای انسانی برای انجام آنها نیست؛ دقیقاً شبیه چیزی که در گذشته برای سایر فنّاوریهای نوظهور اتّفاق افتاده است؛ مثلاً وقتی اتومبیل جایگزین درشکه شد، به تدریج اوضاع تعمیرگاههای درشکه کساد شد. برای همین، کسانی که درشکه داشتند و به نوعی با این وسیله در ارتباط بودند، مخالفت خود را نسبت به این تغییر، ابراز میکردند؛ امّا فنّاوری راه خودش را باز میکند و جلو میرود. مدّتی بعد، همه مجبور شدند ماشین را بپذیرند و درشکه و درشکهچی، از رده خارج شدند. بنابراین، با ظهور فنّاوریهای نوین و فراگیر و نقطهعطفهایی که در این حوزه رخ میدهد، چارهای جز پذیرش و همراهی و مدیریت چالشها نداریم.
در مرکز تحقیقات کامپیوتری علوم اسلامی هم قاعدتاً در سایه شکوفایی و رشد این فنّاوریها، بهخصوص ابزارها و محصولات مبتنی بر هوش مصنوعی، باید تغییراتی را داشته باشیم و با آنها همسو شویم؛ تا بتوانیم به بهترین شکل ممکن، از دانش روز برای کاهش هزینهها و افزایش بهرهوری بهرهبرداری کنیم؛ مثلاً برای تولید محتوا در بخشهای مختلف، میتوان از این ابزارها خیلی استفاده کرد و یا در مرحله فرآوری محتوا نیز از این ابزارها بهرهمند شد؛ حتّی در خصوص تایپ و دیجیتالسازی محتوا هم از این فنّاوریها میتوان استفاده نمود. پس، ناچاریم متناسب با تغییراتی که در فنّاوری اتّفاق افتاده، ایستگاههای کاری خودمان را هم بازآرایی کنیم و ارتقا دهیم؛ بعضی جاها ممکن است که یکسری ایستگاههای کاری حذف شوند و برخی ماشینها جایگزین آنها شوند. بدیهی است که این کارها، نیازمند یک برنامهریزی منسجم و فراگیر است و باید در لایههای مختلف مرکز شناسایی، ساماندهی و مدیریت شود.
در مورد خود محصولات نهایی نیز همان طور که عرض شد، در کنار بخشهای اصلی و کلاسیک موجود در نرمافزارها، ما باید در سکوهای مختلف، به سوی طراحی دستیارهای هوشمند و داشبوردهای قابل تعامل برای کاربران روی بیاوریم؛ تا حتّی کاربران ناآشنا با بخشها و قابلیتهای پیشرفته نرمافزار هم بتوانند با تعامل با ربات هوشمند از طریق یک درگاه واحد، نیازهای مختلف خود را مطرح نمایند و پاسخ مقتضی را دریافت کنند. این قابلیت، نیازمند تحلیل و پرورش بوده و گاهی با استفاده از سرویسهای موجود نیز قابل ارائه خواهد بود.
* برخی متخصّصان معتقدند که هوش مصنوعی باید با هوش انسانی ترکیب شود و در کنار هم کار کنند تا خروجی مطلوب و خوبی داشته باشد. نظر شما در این مورد چیست؟
◊ این موضوع، در مسائل مختلف و بسته به کاری که ما از هوش مصنوعی انتظار داریم، میتواند متفاوت باشد. در برخی از نیازها، هوش مصنوعی تماماً میتواند جایگزین اپراتور انسانی شود و در واقع، کاملاً میتوانیم به آن تکیه کنیم؛ یعنی بر اساس ارزیابیهای اوّلیهای که در آن مسئله خاصّ از هوش مصنوعی داریم، باید دید که آیا میتوانیم به طور کامل بر آن تکیه کنیم یا خیر.
برای مثال، ما یک چشمیِ نوری را برای شیر آب در نظر میگیریم تا به صورت خودکار، کار باز و بستهشدن شیر را برای ما به عهده بگیرد؛ به جای اینکه دستی این کار را انجام بدهیم. ارزیابیها نشان داده که این فنّاوری جدید، قابل اتکاست و تقریباً بالای نود و نه درصد موارد را میتواند خودش به درستی مدیریت کند. در این گونه موارد، کاملاً کار دستی قبلی، به ماشین سپرده میشود. به بیان دیگر، اگر ماشین توانست یک خروجی نزدیک به هوش و عملکرد انسان را که مورد انتظار است، با در نظر گرفتن معیارهای ارزیابیِ(22) از پیش تعریفشده مثل: دقّت(23)، جامعیت(24) و مانعیت(25) پوشش بدهد، کاملاً به این نوع فنّاوری تکیه میکنیم.
در فضای هوش مصنوعی و پردازش محتوا هم به همین شکل است. در یک مسئلهای اگر ببینیم که ماشین با دقّت خیلی بالایی میتواند برای ما آن وظیفه را انجام بدهد، کاملاً به آن ابزار تکیه میکنیم؛ امّا اگر دیدیم ماشین دقّت لازم را ندارد، مسئله به دو نوع تقسیم میشود؛ چنانچه آن مسئله، چندان حسّاسیت نداشته باشد، به همان میزان دقّت ماشین، مثلاً هشتاد درصد دقّت، بسنده مینماییم؛ چون در این مسئله خاصّ، این سطح از دقّت، برای ما کافی است و حتّی نیازی به نظارت انسانی هم نداریم. کاری که ما در استخراج متن از تصاویر مقالات نورمگز انجام دادیم، یک موتور تقریباً هشتاددرصدی برای تبدیل تصویر به متن است. در اینجا از همین ابزار استفاده کردیم و تصویر بیش از یک میلیون صفحه از مقالات موجود در وبگاه نورمگز را به متن تبدیل نمودیم؛ تا متن مقالات، جستوجوپذیر باشند؛ یعنی یکسری از مجلّات بودند که متن مقالاتشان هنوز تایپ نشده بود و ما به کمک ابزارهای ماشینی، تصویر متنی آنها را به متن قابل جستوجو تبدیل کردیم و همین مقدار از دقّت، برای ما کافی بود تا آنها را نیز به دایره جستوجوی کاربران پایگاه اضافه کنیم. این کار، بدون نیاز به کاربر انسانی انجام شد و در اختیار کاربران قرار گرفت و در واقع، به یکباره حجم عظیمی از محتوا جستوجوپذیر شد. به همین منوال، در وبگاه نورلایب نیز متن کتابهای تصویری که هنوز تایپ نشده بودند، قابل جستوجو شدند. یا اینکه مثلاً در پایگاه قاموس، محتوای برخی مداخل و توصیفات توسط ماشین استخراج و پس از گذاشتن یک نماد و برچسب خاصّ روی محتوا، در اختیار محقّقان قرار داده شد.
امّا نوع دیگری از قابلیتهای محتوایی وجود دارد که ماشین از دقّت لازم برای تبدیل آن به یک خروجی باکیفیت و قابل قبول، برخوردار نیست و برای اینکه، خروجی نهایی از کیفیت ایدهآل و مورد نظر برخوردار باشد، ناچاریم از بازبینیکنندههای انسانی در خصوص افزایش کیفیت خروجی ماشین استفاده کنیم. در اینجا نیروی انسانی متخصّص، خروجی ماشین را کنترل و اصلاح میکند؛ تا به کیفیت لازم و قابل ارائه برای مخاطب نهایی برسد؛ بهعنوان نمونه، در همین موضوع استخراج متن از تصاویر، در مورد کتابهای مرجع و اصلی که متن آنها به طور کامل باید در اختیار محقّقان نهایی قرار گیرد، لازم است خروجی نهایی از کیفیت بالایی برخوردار باشد؛ در اینجا نمیتوانیم کاملاً به خروجی ماشین اتکا کنیم؛ بلکه باید یک یا چند کاربر متخصّص، این خروجی را بازنگری، اصلاح و تأیید کنند.
* مرکز در خصوص ذخیرهسازی متون و محتواهای رقومی و پردازش آنها، از نظر سختافزاری چه وضعیتی دارد؟
◊ موضوع ذخیرهسازی اطّلاعات، خیلی بحث پُرچالشی برای ما نیست. به فراخور نیاز و میزان رشدی که در دیتاهای مرکز داریم، سالانه پیشبینیهای لازم را در این باره انجام میدهیم و با تهیه انبارههای ذخیرهسازی اطّلاعات(26)، نیازهای سختافزاری خود را توسعه میبخشیم؛ البته با توجّه به ضرورت افزایش پوشش محتوایی در شاخههای مختلف علوم اسلامی و شتاب گرفتن فرایندهای مربوط به رقومیسازی محتوای کتابها در سالهای اخیر، با وجود شرایط بهتر نسبت به گذشته، ولی هنوز مقداری با شرایط ایدهآل فاصله داریم.
بیشترین چالش ما در حوزه سختافزار، مربوط به تأمین زیرساختهای پردازشی اختصاصی برای نیازهای هوش مصنوعی است؛ توضیح اینکه در مباحث مربوط به هوش مصنوعی، ما با سه رکن درگیر هستیم؛ یک رکن، مربوط به تأمین داده با حجم مناسب برای یادگیری آن ماشین هوشمند است. محتوا و داده، یک رکن بسیار مهم است. رکن دیگر، زیرساخت سختافزاری مناسب است که بتواند این پردازش را بهخوبی سامان بدهد که در فنّاوریهای جدید هوش مصنوعی، بسیار حایز اهمّیّت است.
برای مثال، در برخی چتجیپیتیها میبینیم بیش از دو هزار پردازنده گرافیکی فوق سریع و با ویژگیهای سختافزاری خیلی بالا در بازه زمانی طولانی، روی حجم عظیمی از دادهها به کار گرفته میشوند؛ تا یک خروجی باکیفیت را ارائه کنند. بنابراین، تأمین سختافزار مناسب در حوزه پردازش محتوا در زمینه هوش مصنوعی، خیلی برای ما مسئله مهمی است که غالباً هزینههای بالایی دارند و باید با تعداد بالایی تهیه شوند؛ برای نمونه، تنها تهیه یک بسته هشتتایی از یک مدل خاصّ از این پردازندهها، در حال حاضر، به دلیل شرایط ویژه بازار، بیش از بیست میلیارد تومان هزینه خواهد داشت که با وجود تعاملاتی که با سازمانهای مختلف در سطح ملّی داشتهایم، هنوز نتوانستیم بودجه آنها را به طور کامل تأمین کنیم.
پس، موضوع سختافزارها، یکی از ارکان اساسی در حوزه هوش مصنوعی است و برای اینکه بتوانیم سطح مترقیای از هوش مصنوعی را در محتوای علوم اسلامی خودمان به نتیجه برسانیم، به آنها نیازمندیم.
امّا رکن سوم، نوع نرمافزار و الگوریتم کار است. برای توسعه مدلهای زبانی بزرگ، باید از الگوریتمهای خاصّی استفاده کرد که با کارایی مناسب بتوانند دادههای حجیم و عظیم را با استفاده بهینه از پردازندههای سریع، پردازش کنند و ما به نتیجه مطلوب و مورد انتظار دست یابیم. با یک الگوریتم باکیفیت است که میشود به خروجی لازم و مفید دست یافت. بحمدالله، با توجّه به رویکرد متنبازی که در سطح بینالمللی وجود دارد، تقریباً گامهای اوّلیه را برداشتهایم و گامهای اوّلیه در این امر، برای ما خیلی مسئلهساز نیست و میتوانیم با سفارشیسازی مدلهای متنبازی که در سطح جهان عرضه شده، کار را پیش ببریم.
فراتر از این سه رکن، نیاز به نیروی متخصّصی داریم که باید این سه رکن را به کار بگیرد و مسیر را پیش ببرد. ازاینرو، بحث جذب و نگهداشت نیروی متخصّص در حوزههای مختلف فنّاوری و به طور خاصّ، در هوش مصنوعی و زمینههای دانشبنیان، واقعاً یک مسئله جدی در سطح ملّی و همچنین در مرکز است. در مرکز نور، فضای رشد مناسبی برای نیروهای متخصّص فراهم است؛ امّا متأسّفانه در برخی موارد، زمانی که به فرد به حدّ مطلوبی از تخصّص و ثمردهی میرسند، با دعوت بعضی شرکتهای داخل یا غالباً خارج استان در پایتخت و یا حتّی در سطح بینالمللی جذب میشوند و آنها را از دست میدهیم.
این مسئله، واقعاً در حوزه آی. تی و به طور خاصّ در زمینه هوش مصنوعی، خیلی مشهود است و ما هم مثل خیلی از شرکتها با آن دستوپنجه نرم میکنیم و هرازگاهی درگیر چالش نیروی متخصّص در حوزه آی. تی یا هوش مصنوعی هستیم و لازم است در سطح ملّی و به طور خاصّ در مرکز، در این باره تدبیر اساسی اندیشیده شود.
* در پایان اگر نکته خاصّی باقی مانده، بیان بفرمایید.
◊ از دیگر ملاحظاتی که باعث میشود بتوانیم در مرکز حدّاکثر بهرهبرداری را از فنّاوری هوش مصنوعی در راستای نیازهای خود داشته باشیم، داشتن یک چشمانداز مشخّص برای یکایک محصولات نور و ایستگاههای کاری مرکز است؛ اینکه بهصورت مشخّص شناسایی کنیم که در چه جاهایی میتوان هوش مصنوعی را جایگزین کرد و به خدمت گرفت و یا کجا میتوان از طریق هوش مصنوعی، به کار پژوهشی و انسانی سرعت و کیفیت بیشتری بخشید.
وقتی چشمانداز خود را ترسیم نمودیم، نیازمند کار کارشناسی و برگزاری سلسله جلساتی برای همه محصولات خود در علوم مختلف میباشیم. پس از آن، نیازمند یک برنامهریزی جامع هستیم، تا نقشه راه روشن و ملموسی بهازای محصولات مختلف مرکز در زمینه هوش مصنوعی ترسیم کنیم؛ مثلاً جایگاه هوش مصنوعی در نرمافزار آینده ما در زمینه: فقه، تفسیر، حدیث، کلام، تاریخ و امثال آن، کجاست؟ یعنی در ده سال آتی در زمینه هریک از این علوم، قرار است محصول خود و ایستگاههای کاری مرتبط را به چه مرحلهای از غنای محتوایی و برخورداری از فنّاوریهای روز برسانیم؟
بدیهی است که ترسیم این نقشه راه، انرژی زیادی را از ردههای مختلف مدیریتی و بدنه کارشناسان مرکز میطلبد و انجام پیگیریهای مستمرّ و نظارت دورهای برای به ثمر رسیدن آن و دسترسی به جایگاه مطلوب در این حوزه، خیلی مهم است و واحدهای مختلفی در مرکز، اعمّ از: واحد طرح و برنامه، معاونت فنّاوری و هوش مصنوعی و یا معاونت پژوهش و تولید، دفتر مدیریت پروژه و حتّی بازرگانی و مالی، باید به صورت منسجم و هماهنگ کار کنند تا بتوانیم به نتیجه روشن، شایسته و دلخواه برسیم.
به نظر میرسد، برای داشتن یک چشمانداز و نقشه راه جامع و ایدهآل، دو نوع زاویه نگاه را باید مورد توجّه قرار داد. نگاه نخست، نگاه از طرف نیازمندی به فنّاوری است؛ یعنی نیازها و پیشنهادات محقّقان و کارشناسان حوزههای مختلف در داخل مرکز و همچنین نیازهای کاربران و مخاطبان هدف و پیشنهادات سازنده آنها، شناسایی و گردآوری شوند و سپس، ببینیم چه راهکارهایی از سمت فنّاوری و هوش مصنوعی برای پاسخگویی به آنها وجود دارد و به انجام تحقیقات لازم و توسعه محصولات در آن راستا بپردازیم.
نگاه دوم، نگاه از سمت فنّاوری به نیازمندی است؛ یعنی پس از پایش و شناسایی ظرفیتهای روز هوش مصنوعی و به طور خاصّتر، روشها و دستاوردهای مطرحشده در زمینه علوم اسلامی دیجیتال، مانند قرآن یا حدیث، ببینیم در خارج از مرکز و لبه فنّاوریهای مرتبط، چه کارهایی انجام شده و مراکز و نهادها و سازمانهای داخلی یا بینالمللی که کارشان با فعّالیت مرکز نور شباهت دارد، تاکنون در پرتو بهرهمندی از فنّاوریهای روز دنیا، از جمله هوش مصنوعی، چه پیشرفتهایی داشتهاند و سپس، به توسعه نیازمندیها و قابلیتها و بازطراحی محصولات خودمان بپردازیم.
پس از آن، قاعدتاً باید نیازمندیهایی که این چشمانداز دارد، بهمرورزمان تأمین شود؛ تا همان طوری که مرکز نور تا کنون به عنوان یک مرکز پیشرو در زمینه علوم اسلامی دیجیتال شناخته شده، همچنان مسیر تعالی را طیّ کنیم و در حوزه هوش مصنوعی و فنّاوریهای جدید، بتوانیم محصولات باکیفیتی را در معرض استفاده کاربران و محقّقان عزیز قرار دهیم.
نکته پایانی اینکه در کنار تولید و توسعه محصولات نور، کار دیگری که ما سعی میکنیم پیش بگیریم و جای دارد بیش از گذشته به آن پرداخته شود، این است که بتوانیم به نوبه خودمان یک جریانسازی مؤثّری در سطح ملّی و حتّی بینالمللی در حوزه استفاده از فنّاوریهای جدیدی مثل هوش مصنوعی در راستای پژوهشهای علوم اسلامی ایجاد کنیم؛ برای مثال، برگزاری همایشها و کنفرانسهای علمی و اطّلاعرسانی در حوزه هوش مصنوعی در مراکز مختلف، اعمّ از: دانشگاهها، حوزههای علمیه و مؤسّسات پژوهشی، بسیار مؤثّر خواهد بود.
در واقع، باید بین فعّالیتهای مختلفی که در گوشهوکنار کشور و یا فراتر از آن، در مراکز اسلامی در سطح دنیا انجام میشود، یک همافزایی ایجاد کنیم؛ تا إنشاءالله، در مجموع، شتاب بیشتری را در این عرصه شاهد باشیم.
پینوشتها:
1. Natural Language Processing – NLP.2. Computational Linguistics.
3. Stemming.
4. Lemmatisation.
5. Textual Similrity.
6. Text Classification.
7. Information Extraction.
8. Keywortd Extraction.
9. Recommander System.
10. Text Alignment.
11. Optical Character Recognition -OCR.
12. Generative AI.
13. Near Duplicate.
14. Language Model.
15. Document Embedding.
16. Large Language Model.
17. Chatbots.
18. Hallucination.
19. Bios.
20. Fine-Tuning.
21. Retrieval-Augmented Generation -RAG.
22. Evaluation Measure.
23. Accuracy.
24. Recall.
25. Precision.
26. Data Storage.