کلیدواژگان: هوش مصنوعی، مدلهای زبانی، آزمایشگاه هوش مصنوعی نور، رباتهای گفتوگوگر.
فعّالیتهای مرکز نور در زمینه هوش مصنوعی
«فلسفه وجودی مرکز تحقیقات کامپیوتری علوم اسلامی از سال 1368م که تأسیس شده، تلفیق بین کامپیوتر و فنّاوریهای جدید بوده است. مسائل مربوط به هوش مصنوعی نیز از حدود پانزده سال گذشته، در معاونت فنّاوری مرکز مورد توجّه قرار گرفت. در این معاونت، ابتدا گروهی با عنوان «متنکاوی» تأسیس شد. بعداً با توجّه به تنوّع شاخههای مختلف هوش مصنوعی، بخشی به عنوان «پردازش هوشمند» فعّالیت میکرد و درنهایت، «آزمایشگاه هوش مصنوعی نور» کارهای مربوط به این زمینه را دنبال میکند.
در این مرکز، در ساحتهای مختلف تولید نرمافزارها و محصولات دیگر، سعی شده است که از هوش مصنوعی بهرهبرداری شود. به طور کلّی، فرایندهای تولید نرمافزارهای اسلامی را میتوان در سه مرحله دانست:
مرحله اوّل: تولید محتوا
کار دیجیتالسازی، رزومهسازی، تبدیل تصاویر متون و آمادهسازی محتوای اوّلیه کتابها و مقالات، توسط تیمهای متعدّد، در این مرحله صورت میگیرد.
مرحله دوم: فرآوری اطّلاعات
در این مرحله، برچسبگذاریهای مختلف روی محتواها انجام میشود؛ مثلاً در برای منابع و محتواهای تاریخی، نزدیک به صد نوع برچسب توسط انسان در این گونه محتواها گذاشته میشود.
مرحله سوم: ارائه محتوا
این مرحله، در سه نوع: سکوی موبایلی، رومیزی و برخطّ ارائه انجام میشود.
در همه مراحل، تلاش شده است که به صورت حدّاکثری از ظرفیت هوش مصنوعی بهرهبرداری شود. بر این اساس، از زمان تأسیس این گروه تا به حال، حدود پنجاه قابلیت مبتنی بر هوش مصنوعی را در لابهلای نرمافزارها و محصولات به نتیجه رساندهایم و از آنها استفاده کردهایم؛ ازجمله: زبانشناسی رایانشی، مشابهیابی، ردهبندی متون، استخراج اطّلاعات، سیستمهای پیشنهاددهنده، ترجمه ماشینی، پردازش تصویر و صوت، بازیابی اطّلاعات و جستوجو که یکی از شاخههای پُرکاربرد است.
بهتازگی، با رشد چشمگیری که در مدلهای زبانی بزرگ شاهد بودیم، به فراخور نیاز، بررسیها و پژوهشهایی انجام شد و محصولاتی در دست اقدام داریم که در ادامه، به آنها اشاره خواهم کرد.»
رباتهای گفتوگوگر
«در دو - سه سال اخیر، شاهد سرمایهگذاریهای کلانی در سطح بینالمللی، توسط شرکتهای بزرگ دنیا هستیم که محصولات خیرهکنندهای را ارائه کردهاند. شرکت Open AI محصول Chat GPT را تقویت کرد؛ بهنحویکه در بین رباتهای گفتوگوگر پیشرو بود و در طیّ چند روز، یک میلیون کاربر را به خود جذب کرد و در کمتر از دو ماه، به حدود صد میلیون کاربر از سراسر دنیا دست یافت. شرکت Microsoft، نرمافزار Copilot را عرضه کرد. شرکت Google ، نرمافزار Gemini را ارائه نمود و شرکت Anthropic ، نرمافزار Claude را منتشر کرد. هریک از این محصولات شاخص، در حوزههای مختلف تولید محتوا درخشیدند و اکنون میتوان گفت موضوعی نیست که از این رباتهای گفتوگوگر بهرهبرداری نکند.
قبل از هوش مصنوعی، بحث یادگیری ماشین بود که به صورت کلاسیک، از اطّلاعات برچسبخورده، شبیهسازی میکرد؛ امّا الآن با هوش مصنوعی جدید، شاهد آن هستیم که بدون اطّلاعات برچسبخورده و صرفاً با داشتن دادههای انبوه، میتواند محتوای جدید تولید کند که قبل از این، تصوّرش هم برای ما مشکل بود.»
مدلهای زبانی بزرگ
«در این نشست، تمرکز بنده روی مسائل مربوط به استفاده از این مدلها در پژوهشهای علوم اسلامی است. هسته اصلی ارتقای نرمافزارها و رباتهای گفتوگوگر و پشت صحنه آنها، مدلهای زبانی بزرگ هستند. مدلهای زبانی بزرگ، عبارتاند از مدلسازی زبان طبیعی انسانی برای ماشین. این شیوه مدلسازی و القای این دانش بشری به ماشین را از طریق مدلهای زبانی انجام میدهند که طیّ یک فرایندی، حجم عظیمی از متون دادههای مورد نظر در اختیار ماشین قرار میگیرد و هوش مصنوعی سعی میکند رخداد کلمات بعدی را با توجّه به کلمات قبلی که داشته، پیشبینی کند. این عملیات، در حجم بالا باعث میشود که کمکم ماشین مانند انسان بتواند خودش به تولید محتوا بپردازد.
یعنی ماشین بهازای رخداد بعدی کلمات، یک احتمال را میتواند شبیهسازی کند و از کنار هم گذاشتن تمام این احتمالات و ضربوجمعها، میتوان گفت که حالا از این به بعد، ماشین میتواند برای ما زبان طبیعی را بفهمد. اینجاست که ماشین میتواند تولید محتوا داشته باشد، درخواست ما را تشخیص بدهد و با توجّه به آن واژگانی که در دستور خود به کار گرفتهایم، سعی کند مطابق آن دستور عمل نماید.»
کاربردهای مدلهای زبانی
«مدلهای زبانی، کاربردهای متعدّدی دارند و قبل از اینکه رباتهای گفتوگوگر بیایند و بحث تولید محتوای هوشمند مطرح شود، در حوزههای مختلف کاربرد داشتند؛ ازجمله در: تصحیح متون، ترجمه ماشینی و تبدیل صوت به متن؛ مثلاً در این مورد اخیر، اگر صوتی از یک سخنران را در اختیار ماشین قرار بدهیم که در آن اشاره شده باشد: «أمیرالمؤمنین صِهر رسول الله» بود. در اینجا اگر دایره لغات مورد نیاز ماشین به اندازه کافی باشد و متون مشابه در حوزه مدّ نظر را از قبل دیده باشد، میتواند بفهمد که اینجا منظور از «صِهر»، داماد است؛ نه سِحر به معنای جادو.
در سالهای اخیر، شاهد شتاب چشمگیری در این حوزه بودهایم که سه عامل اصلی داشته است:
آمدن الگوریتمهای جدیدی که به صورت هدفمند میتوانست با کارایی بالا، صرفاً به کلماتی که تأثیر زیادی دارند، در دستور کار قرار گیرند و مورد توجّه بیشتری باشند و از این طرف، پردازش را به نحوی کم کنند و کیفیت مدل را افزایش بدهند و با تکنیکهایی که به صورت موازی توانستند روی جیپییوآر پردازندههای گرافیکی سوار بشوند. پس از این، شاهد آن بودیم که پردازشهایی که قبل از این ممکن بود ماهها طول بکشد تا ماشین بتواند به این کیفیت برسد، در عرض چند هفته انجام شد. از طرفی، ترکیب سه مؤلّفه: دادههای حجیم در کنار آن سختافزار پردازندههای گرافیکیای که زیر بار آمدند و نیز الگوریتمهای جدید، باعث شد که در چند سال اخیر، شاهد رشد بینظیری در عرصه مدلهای زبانی هوشمند باشیم.
از گذشته، این مدلهای زبانی، با کیفیتهای خیلی پایینتر، کموبیش وجود داشتند و تقریباً چند سال اخیر هم آنها را میبینیم و ما نمونههایی از آن را در مرکز تحقیقات کامپیوتری علوم اسلامی استفاده کردیم. مشابهیابی معنایی حدیث، ازجمله محصولات اوّلی بود که برای نخستینبار در پایگاه جامع الأحادیث استفاده شد و فارغ از الفاظی که در کلمات احادیث بود، ماشین احادیث مرتبط معنایی را هم شناسایی میکرد؛ مثلاً اگر حدیث: «عَنْ أَبِي جَعْفَرٍ عَلَيْهِ اَلسَّلاَمُ: أَنَّهُ سُئِلَ عَنِ اَلصَّبِيِّ مَتَى یَصُومُ قَالَ إِذَا أَطَاقَهُ» (تهذیب الأحکام، ج 4، ص 326) را که در مورد سنّ روزهگرفتن نوجوان است، جستوجو کنیم، در پاسخها تمامی احادیثی را که به این مفهوم اشاره میکنند، امّا واژگان آنها ممکن است متفاوت باشد، ارائه میکند؛ مثل این حدیث از امام صادق (ع) که فرمود: «إِذَا أَطَاقَ اَلْغُلاَمُ صَوْمَ ثَلاَثَةِ أَيَّامٍ مُتَتَابِعَةٍ فَقَدْ وَجَبَ عَلَيْهِ صِيَامُ شَهْرِ رَمَضَانَ» (الکافی، ج4، ص125). در این روایت، لفظ «صبی» وجود ندارد و به جای آن، به لفظ «غلام» اشاره شده است؛ امّا ماشین توانسته است که ارتباط معنایی بین تعدادی از واژگان را تشخیص دهد؛ یعنی میفهمد الفاظ «غلام»، «رجل»، «شاب»، «سبی» و «ابن»، همه کلماتی هستند که از حیث معنایی ارتباط بالایی با یکدیگر دارند؛ درحالیکه در گذشته، این واژگان را فقط به صورت محدود در لغتنامهها و دیکشنریها داشتیم؛ امّا ماشین در اینجا، نه تنها لغات مترادف را، بلکه لغات مرتبط را هم شناسایی کرده است و از نزدیکی یکایک واژگان دو حدیث و برایندگیریای که بین آنها انجام میدهد، به این میرسد که مثلاً این دو حدیث از نظر معنایی، ارتباط بالایی با همدیگر دارند.»
کاربردهای مدلهای زبانی در حوزه پژوهشهای اسلامی
«با مطالعه و بررسی نظر کاربران نرمافزارهای نور، معلوم شد که مثلاً جستوجو، یکی از نیازهای مهم آنان در استفاده از برنامههاست. برای اینکه به صورت استاندارد این نیازها را دستهبندی کنیم، بررسیهایی انجام شد. روشهای مختلف، دستهبندی بررسی شد. یک دستهبندی رایج و کلی، این است که پژوهشگر ابتداء موضوع و پرسش پژوهشیاش را انتخاب میکند. در مرحله بعدی، پیشینه کار را بررسی میکند. سپس، نوبت به مرحله تحلیل و تفسیر دادهها میرسد. بعد به استنتاج و تحلیل و نتیجهگیری میرسد و درنهایت، به نگارش تحقیق میپردازد و در پایان نیز آن را منتشر میکند.
برای هر کدام از این مراحل، نمونههایی از کاربردها و چالشهای استفاده از مدلهای زبانی بزرگ و رباتهای گفتوگوگر را میتوان به کار برد.»
مرحله اوّل: انتخاب موضوع
«در مرحله انتخاب موضوع تحقیق و تعریف مسئله، میتوان از ربات برای انتخاب موضوع پژوهشی بهره بُرد. ربات میتواند که با توجّه به فعّالیتها و پژوهشهایی که در یک مسئله انجام شده، تشخیص دهد که چه مسائل روزآمدی مطرح است و ضرورت پرداختن به آن چیست؟
ابزارهای پردازش زبانهای طبیعی میتوانند با بررسی مقالات و دادههای علمی، موضوعات کمتر مطالعهشده را پیشنهاد بدهند؛ مثلاً ابر کلیدواژهها که در پایگاه مجلّات تخصّصی نور دیده میشود، موضوعات داغ را به نمایش میگذارد و نیز این پایگاه، روند انتشار مقاله در هر موضوع را نمایش میدهد. بعد از انتخاب موضوع، میتوان با کمک رباتهای گفتوگوگر، موضوعات ریزتر آن موضوع را نیز مشخّص کرد.
در سالهای اخیر، «پژوهشگاه علوم و فنّاوری اطّلاعات ایران (ایرانداک)» هم به طور خاصّ برای این کار، یک محصول با نام «سامانه پیشنهاد پژوهش» ارائه کرده است که با استفاده از هوش مصنوعی، کارهای پیش رویی را که در زمینه مقالات و پایاننامهها بیان شدهاند، استخراج کردهاند و این سیستم، قابلیتی را فراهم کرده که کاربر بتواند لابهلای آنها جستوجو کند.»
مرحله دوم: مرور ادبیات و پیشینه تحقیق
«در اینجا هم میتوان مواردی مانند گردآوری محتواهای مرتبط، مشابهیابی لفظی و معنایی محتوا، جستوجو و بازیابی اطّلاعات و فیشبرداری مطالب هدف را با استفاده از هوش مصنوعی انجام داد. همچنین، برای واکاوی محتواهای صوتی و تصویری هم میتوان از آن کمک گرفت.
البته یک چالشی هم وجود دارد که گاهی مقالات یا منابعی که برای موضوع ما معرّفی میکند، صحّت ندارد. از این مسئله، بهعنوان چالش خیالبافی و خیالپردازی هوش مصنوعی یاد میشود. البته مدلها روزبهروز در حال جبران ضعف خود هستند.
مطلب دیگری که رباتهای گفتوگوگر، بهتازگی به آن تصریح میکنند، آن است که بعد از ارائه پاسخ، بیان میکنند ممکن است اشکالاتی در پاسخهای ما باشد؛ یعنی نوعی سلب مسئولیت از خود کرده که اشکالی قانونی و حقوقی، متوجّه آنها نباشد.
در مرحله بعدی پژوهش، گردآوری اطّلاعات صورت میگیرد که نوعی جستوجوی معنایی اتّفاق میافتد. مدل میتواند متن دادهای را که دریافت کرده، تحلیل کند و درنهایت، ترجمه هم بکند. انشاءالله، با استفاده از همین تکنیکهای ترجمه ماشینی، بهزودی در پایگاه مجلّات تخصّصی نور، شاهد خواهیم بود که تمام مقالات علمی پژوهشی فارسی، به زبان عربی هم ترجمه شوند و بعداً مقالات عربی هم به فارسی تبدیل میشوند تا برای همه محقّقان قابل استفاده باشد.
در مورد محتواهای چندرسانهای نیز میتوان از سرویسهای هوش مصنوعی استفاده کرد. در این زمینه، از نرمافزار استفاده میکنیم؛ برای محتوای پژوهشی خود، نرمافزار Gemini که محصول شرکت گوگل است، امکانات خوبی فراهم کرده است. گوگل، یک اکوسیستمی از نرمافزارهای مختلف دارد که ازجمله آنها YouTube است که درگاه تولید محتوای فیلم و چندرسانهای است و کاملاً به این ربات گفتوگوگر متّصل است؛ به عنوان مثال، نشانی اینترنتی فیلم یک جلسه سخنرانی را در اختیارش قرار دادهام و از آن خواستم که چکیده و موضوع مباحث مطرحشده در این جلسه سخنرانی را مشخّص کند و به شکل نسبتاً خوبی این کار را انجام داده است. مشابه این محصول را در مرکز تحقیقات کامپیوتری علوم اسلامی، در حوزه مشابهیابیهای فرا لفظی، به صورت آزمایشی در پایگاه کتابخانه دیجیتال نور داشتهایم که هنوز رونمایی نشده است و انشاءالله بهزودی ارائه خواهد شد.
همین طور، پیرامون بحث بازیابی معنایی احادیث، در آزمایشگاه مصنوعی نور کارهایی انجام شده است که انشاءالله در همین روزهای هفته پژوهش، محصولی جدید را در این زمینه، به صورت آزمایشی ارائه خواهیم کرد تا درنهایت، برای جستوجوی معنایی در محتواهای پایگاه جامع الأحادیث از آن استفاده کنیم.
کار دیگری که در حال انجام است، دستیار پایگاه قرآن است که امید است بتوانیم در حوزه قرآن و تفسیر و برای نرمافزار جامع تفاسیر نور و همینطور پایگاه جامع قرآنی، از آن بهرهبرداری کنیم.»
مرحله سوم: تحلیل و تفسیر دادهها
«در اینجا میتوان از ابزارهای هوشمند برای فیشبرداری خودکار استفاده کرد. این مسئله هم یکی از قابلیتهایی است که میتواند به محقّقان کمک کند و در وقت آنان صرفهجویی نماید. کاری را که این مرکز در گذشته، در نرمافزارهای معاجم موضوعی خود به صورت دستی انجام میداد، اینک میتوان با کمک ماشین انجام داد.
تحلیلهای ساختاریافته متنباز هم، یکی از کارهایی است که به کمک این موتورها انجام میشود؛ مثلاً بهعنوان نمونه، از نرمافزار Claude خواستم کلماتی از سوره واقعه را که ریشه غیرعربی دارند، فهرست کند و در یک جدول از جنبههای مختلف لغتپژوهی مورد تحلیل قرار بدهد. نرمافزار مزبور، این کار را انجام داد؛ امّا متأسّفانه چالش هوش مصنوعی در اینجا آن است که کلماتی که مشخّص کرده، با وجود ظاهر خیلی شکیل و محتوای دقیقی که بهازای هر کلمه مشخّص کرده، هیچکدام از این کلمات در سوره واقعه نیستند. البته اینگونه نقاط ضعف، با گفتوگوهای رفتوبرگشتی و کنترل انسانی، قابل حلّ است و به این معنا نیست که نباید به سمت استفاده از این ماشینها برویم؛ چون حقیقتاً در بسیاری از موارد، کمک شایانی به ما میکنند.
یکی دیگر از کارکردهای آن، مصوّرسازی نتایج است که مثلاً خروجی را به صورت نمودار، جدول، رابط کاربری، نرمافزار و شکلهای دیگر خروجی که قابل استفاده و ارائه در پایگاههای اینترنتی یا امثال آن باشد، ارائه میدهد. کارکرد دیگری که میتواند داشته باشد، دستهبندی و خلاصهسازی نتایج است؛ یعنی میتواند نتیجه را در قالب فهرست، درختواره چندسطحی و مشابه آن، ارائه نماید.
نکتهای که لازم است به آن اشاره کنم، بحث سوگیری تحلیلهای مدلهای هوش مصنوعی است. ممکن است به جهت سوگیریای که در داده اصلی وجود داشته، مدل در تحلیل خودش به یک سمت خاصّی کشانده شود. این سوگیریها، ممکن است در حوزههای مختلف اتّفاق بیفتد؛ البته اخیراً این مشکل را تا حدّی حلّ کردهاند. بهطورخاصّ، Chat GPT با یک مؤسّسه تحقیقاتی غیرانتفاعی مستقر در برکلی کالیفرنیا همکاری میکند. این مؤسّسه به منظور همسویی هوش مصنوعی پیشرفته با ارزشها و اولویتهای انسانی فعّالیت میکند و سعی مینماید مشکلاتی را که در پی تعامل انسانی با ماشینهای هوشمند پیدا میشود، حلّ کند. محتواهای مضرّ، نامجاز و حسّاس که البته هرکدام تعریف خودشان را دارند و ممکن است باعث آسیبزدن به خود یا دیگران شوند و یا باعث ترویج نژادپرستی و نفرتپراکنی شوند و امثال اینها، ماشین اینها را شناسایی میکند و به نحوی حلّ میکند. بنابراین، سوگیری به آن شکلی که پیش از این در خروجیها دیده میشد، دیگر کمتر شده است.
البته در راستای این رفع سوگیری، وارد یک چالش دیگری هم شده و آن، این است که سعی میکند میانهروی و نسبیتگرایی را رعایت کند؛ یعنی گاهی سعی دارد رویکرد میانه و متعادلی بگیرد؛ مثلاً وقتی درباره علّت شهادت حضرت زهرا (س) و روایاتی که از پیامبر اکرم (ص) درباره اذیّت و آزار فاطمه رسیده، از آن پرسیده شد، در پاسخ، رویکردی میانه داشت و اعلام موضعش در حدّ وسط بود؛ یعنی در نهایت، قضاوت نمیکند؛ با اینکه مدارک و شواهد هم دارد.»
مرحله چهارم: نگارش و انتشار مقاله
«هوش مصنوعی، در کارهای: تدوین مقاله، تدوین چکیده، ویرایش خطاها، توسعه محتوا، تدوین محتوا، تنظیم مقاله، سفارشیسازی قسمتهای مختلف محتوا و تنظیم ارجاعات هم کاربرد دارد. همه این موارد، مربوط به مرحله نگارش مقاله است که میتوانیم از آن استفاده کنیم. برای پیشنهاد مجلّه و کنفرانس جهت چاپ مقاله هم میتوان از مدلهای هوش مصنوعی استفاده نمود. این فنّاوری، برای پیشنهاد اشخاص و شخصیتهای برجسته در هر علم و معرّفی نخبگان و فعّالان در هر حوزه پژوهشی هم کارایی دارد. به تازگی، بهکارگیری اینگونه رباتها برای حوزههای علوم انسانی و اسلامی هم در دست انجام است که إن شاء الله به ثمر خواهد رسید.»