درآمد
از مجموعه وبینارهای هفته پژوهش، امروز با وبیناری با موضوع «کاربرد هوش مصنوعی در پژوهشهای علوم اسلامی» در خدمت شما هستیم. ابتداء در مرحله اول، تعریف و تاریخچهای از هوش مصنوعی را خدمت شما ارائه میدهم و سطوح مختلفی از هوش مصنوعی که میشود از آنها استفاده کرد را بیان مینمایم. در مرحله دوم، مراحل تولید محصولهای هوشمند دادهمحور را به طور خلاصه تبیین میکنم و مروری نیز بر ملاحظات اجرائی که در عمل با آنها روبهرو هستیم، خواهیم داشت. در مرحله سوم وبینار، سیر تکامل نرمافزارهای نور و سطوح مختلف کاربست هوش مصنوعی را در محصولات مرکز نور خدمت شما ارائه میدهم و به اهداف بهکارگیری فنّاوری هوش مصنوعی اشاره مینماییم و در مرحله بعد، نمونههایی از دستاوردهای متعدّد مرکز را در این زمینه که طیّ هشت دسته مرتّب شده است، معرّفی میکنیم.
تاریخچه و تعریف پردازش هوشمند متن
قریب به ده سال است که در مرکز تحقیقات کامپیوتری اسلامی و معاونت فنّی، بخشی تحت عنوان هوش مصنوعی و پردازش هوشمند تشکیل شده است. به طور دقیقتر، ابتداء بیشتر تمرّکز ما روی مباحث متنی بود که از آن به عنوان «متنکاوی» یاد میکنیم؛ ولی کمکم به فراخور نیازهایی که پیش رو داشتیم، به سوی پردازش تصویر و صوت نیز حرکت کردیم و اسم و عنوان این بخش، به بخش پردازش هوشمند تغییر پیدا کرد.
هوش مصنوعی، عبارت است از توانایی ماشین برای اینکه بتواند رفتاری معادل با رفتار انسان را در مسائل خاصّ از خودش نشان بدهد. از سال 1950م شخصی به نام «تورینگ» این اصطلاح را بر سر زبانها انداخت. هوش مصنوعی موفّق، کاربست تکنیکهایی است که شخص ناظر متوجّه نشود که این خروجی را از سوی انسان دریافت میکند یا از جانب ماشین. اگر چنین چیزی محقّق شود، میتوانیم بگوییم هوش مصنوعی، کار خودش را بهدرستی انجام داده است.
سطوح مختلف هوش مصنوعی
هوش مصنوعی، لایههای مختلفی دارد و در سطوح گوناگونی از پیچیدگی قابل بهکارگیری است. به طور کلّی، مسائل هوش مصنوعی را به دو دسته اصلی تقسیم میکنند:
یکی، مسائل قاعدهمند و قانونمحور است؛ یعنی مسائلی که قوانین حلّ آن مسئله از قبل توسط خبره شناسایی شده، به ماشین داده میشود و برنامه نیز طبق همان عمل میکند؛ به بیان دیگر، قوانینی در این برنامههای پیادهسازی میشوند و سیستم طبق این قوانین از پیش تعریفشده، به نتیجه مورد نظر میرسد.
دوم، سیستمهای هوش مصنوعی مبتنی بر یادگیری ماشین است. در این نوع، ماشین باید طبق ویژگیها و پارامترهای خاصّ فضای مسئله، تصمیم بگیرد؛ یعنی مثلاً یکسری ویژگیهای مشخّص را در اختیار سیستم قرار میدهیم و سیستم مبتنی بر تحلیل این ویژگیها و کشف رابطه آنها با خروجی مورد نظر، دانش خود را به نمونههای جدید تعمیم میدهد؛ به بیان دیگر، به جای اینکه ما بیاییم قوانین خاصّی را برای سیستم تعریف کنیم، خود سیستم از طریق پارامترهایی که از لابهلای دیتای آموزشی در اختیارش قرار گرفته، قوانین لازم را استخراج کند و جواب دهد. در واقع، ماشین در اینجا نوعی فرایند یادگیری را طیّ میکند و بهاصطلاح، هوشمند عمل مینماید.
برای دسته اوّل، به عنوان مثال، در پروژههای خودمان مانند پروژه تحلیل ساختواژی و صرفی کلمات که مبتنی بر یکسری قوانین زبانشناسی تعریفشده است، اطّلاعاتی را به سیستم آموزش دادیم که خودش یک کلمه را از جنبههای مختلف زبانی تحلیل کند و خروجی مناسب ارائه دهد.
در قسمت یادگیری ماشین، یک نسل پیشرفتهتری نیز هست تحت عنوان یادگیری عمیق یا Deep Learning. در این مبحث، ما حتّی آن ویژگیها را نیز به سیستم نمیدهیم؛ بلکه خود سیستم باید با تحلیل حجم انبوه نمونهها، ویژگیهای اثرگذار در خروجی را شناسایی کند. معمولاً تعیین این ویژگیهای اثرگذار، در بسیاری از مسائل، کار دشوار و پیچیدهای است؛ بهخصوص در مسائلی که با متن، محتوا، مباحث طبیعی و انسانی مواجه هستیم. با وجود این پیچیدگیها، ابزارهای فنّاورانه ما به حدّی پیشرفت داشته که میتوانیم بدون ارائه پارامترهای از پیشتعریفشده به سیستم، به نتیجه مطلوب خود برسیم. در واقع، یک داده حجیم به سیستم میدهیم و در آن داده تعیین میکنیم که مثلاً موضوع این حدیث، خمس است و موضوع فلان حدیث، صلات است؛ یعنی با ارائه نمونههایی چند، خودِ سیستم پشت صحنه آنها را تحلیل میکند و متوجّه میشود که مثلاً چه ویژگیهایی از متن میتواند در مورد یک خروجی خاصّ، اثرگذار باشد.
مراحل تولیدنرمافزار هوشمند دادهمحور
بهطور کلّی، اگر بخواهیم یک محصول هوشمند دادهمحور داشته باشیم، لازم است ابتداء مرحله دادهسازی را برای مسئله خودمان پیاده کنیم. یکی از مهمترین قسمتها در تولید نرمافزار و حلّ یک مسئله هوشمند که مبتنی بر محتواست، همین مرحله است.
بعد از آنکه وضعیت مسئله و دادههای لازم را از نظر حجم و کیفیت مورد نظر آماده کردیم، نوبت بررسی الگوریتمهای مختلف و انتخاب الگوریتم مناسب است. آنگاه باید الگوریتم مناسب را روی دیتای اصلی به دفعات متعدّد اجراء کرد. پس از این، نوبت به ارزیابی نتایج میرسد که مبحث خیلی مهمّی است. به منظور محک زدن خروجی کار، لازم است از پیش، دیتای شاهد داشته باشیم تا بتوان خروجی را از نظر دقّت یا جامعیت و مانعیت بررسی نمود.
در کنار این، مباحث مربوط به بسترسازی زیرساختِ پردازشی نیز میتواند به ما کمک کند که با پردازش خیلی سریعتر، الگوریتم بهتری را برگزینیم و کیفیت نتایج خودمان را اثبات کنیم. در نهایت، بعد از اینکه به یک خروجی مناسب دست یافتیم و ارزیابیهای قابل قبولی هم روی آنها انجام دادیم، آنگاه مرحله تولید محصول را خواهیم داشت.
مسائل هوش مصنوعی
برخی نکات در زمینه مفاهیم و مسائل مربوط به هوش مصنوعی وجود دارند که نتیجه تجربه چندینساله ما در مرکز نورند و خیلی مهم هستند. در اینجا به بخشی از آنها اشاره میکنیم. برای تولید محصولات تخصّصی مثل علوم اسلامی، با دو گروه از متخصّصان مواجه هستیم. یکی، متخصّصان توسعه فنّی و پردازش هوشمند و دوم، متخصّصان یک دانش خاصّ، همچون: قرآن، حدیث، فقه، تاریخ و... . به طور کلّی، پروژههایی موفّق هستند که در مراحل مختلف کار، ارتباط خیلی نزدیک و تنگاتنگی بین هر دو گروه از متخصّصان وجود داشته باشد و این مهمّ، در مسائل هوشمند که با حلّ مسئله محتوامحور روبهرو هستیم، به شدّت خودش را نشان میدهد و چه بسیار پروژههایی که به جهت فقدان این موضوع، به شکست انجامیدهاند.
ممکن است تولید یک پایگاه یا نرمافزارهای موبایلی با رعایت یکسری چهارچوبها و ویژگیها و داشتن حدّاقل ارتباط اهل خبره با یکدیگر، امکانپذیر باشد؛ امّا تحقّق پروژههای هوشمند در زمینه تحلیل محتوا و تهیه محصولاتی در این راستا، نیازمند ارتباط قویّ و نزدیک بین متخصّصان فنّی و علمی است.
نکته مهمّ دیگر اینکه هدفگذاری ما باید واقعگرایانه باشد. در سالهای اخیر، با توجّه به موفّقیّتهایی که در هوش مصنوعی با آن روبهرو بودیم، یک فضای تبلیغاتی شکل گرفت که باعث شد انتظارات دیگران از متخصّصان این حوزه، فراتر از حدّ متعارف بالا برود و ما از واقعگرایی فاصله بگیریم و در عمل، نتوانیم به نتیجه دلخواه برسیم و همین موجب شود در این حوزه، گاهی روح ناامیدی حاکم شود و به همین دلیل، با تصمیماتی هیجانی، خود و جامعه را از کاربردهای هوش مصنوعی محروم کنیم و حتّی جلوی پیشرفتهای بعدی را بگیریم. بنابراین، در مسیر توسعه هوش مصنوعی باید معقول و واقعگرایانه هدفگذاری کرد.
ابتداء باید دید هوش مصنوعی با توجّه به سرعتی که شاهد آنیم، چه آورده و دستاوردهایی را میتواند برای ما به ارمغان بیاورد. بعد از آن، به طراحی پروژه خودمان بپردازیم تا بتوانیم به صورت حدّاکثری از این وضعیتها استفاده کنیم و نیاز کاربران را به شکل مطلوبی پاسخ دهیم. بنابراین، در همان دو طراحی یک پروژه باید به مقوله هوش مصنوعی توجّه ویژه داشت.
سیر تکاملی نرمافزارهای نور
مرکز تحقیقات کامپیوتری علوم اسلامی، از سال 1368ش تأسیس شد و از آن سالها تاکنون، یکی از دستاوردهایی نور این بوده است که توانسته فنّاوری اطّلاعات و محتوای علوم اسلامی را با هم گره بزند و از تلفیق این دو دانش با همدیگر، محصولات نرمافزاری منحصربهفردی را در حوزه علوم اسلامی تولید کند.
این روند، ادامه پیدا کرد تا حدود ده سال پیش که ما با یک موضوع جدید و سومی روبهرو شدیم و آن، حوزه بهکارگیری تکنیکهای محاسبات ریاضی و محاسبات آماری و پردازشهای زبانی در کنار آن دو حوزه قبلی بود. با استفاده از این حوزه سوم، توانستیم مباحث مربوط به دستاوردهایی در زمینه Text Mining یا دادهکاوی و متنکاوی و پردازش زبانهای طبیعی یا Natural Language Processing و به طور کلّی هوشمندسازی فرایندها، قابلیتهایی را برای کاربران و محقّقان به ارمغان بیاوریم که قبل از آن وجود نداشته است؛ یعنی نسل جدیدی از نرمافزارهای نور را تولید کردیم که از قابلیتهای هوشمند بهرهمند هستند.
به طور کلّی، مراحل تولید نرمافزار در مرکز نور، در سه مرحله خلاصه میشود:
مرحله اول، تولید محتواست. تایپ و تبدیل محتوا و تصحیح متون و فرایندهایی از این دست، در این مرحله انجام میشود.
در مرحله بعد، فرآوری محتوا را داریم که برچسبگذاری محتوا، مثلاً برچسب: آیه، حدیث، ریشه و انواع و اقسام برچسبگذاریهای موضوعی، روی آن محتوای دیجیتالشده انجام میشود تا متن، خوانایی لازم را برای ماشین پیدا کند.
در مرحله سوم، محتوای فرآوریشده، تصحیحشده و برچسبخورده و غنیّسازیشده، در قالب نرمافزارهای رومیزی یا وبی به انتشار میرسد.
در مورد اینکه ما در کدامیک از این مراحل توانستیم هوش مصنوعی را به طور مناسب بهکار بگیریم، باید بگوییم که ما در هر سه مرحله، توانستهایم از هوش مصنوعی بهرمند شویم و کارهای خودمان را توسعه داده و پیش ببریم.
در مرحله اول، به طور نمونه، با تکنیکهایی مثل OCR دیتاهای تصویری خودمان را تحلیل میکنیم و متن را از آنها استخراج مینماییم و محتوا را توسعه میدهیم. همچنین، با تکنیکهایی تصحیح لازم را در متون انجام میدهیم و به صورت ماشینی، برچسبگذاریها و غنیّسازیهایی را روی متن اِعمال میکنیم. در مرحله سوم هم قابلیتهای هوشمند و جدیدی را به کار گرفتهایم که از جمله میتوانیم به انواع پیشنهاددهندهها در حوزه عرضه محتوا اشاره نماییم.
اهداف بهکارگیری هوش مصنوعی در محصولات نور
یکی از این اهداف، چابکسازی فرآیندهای جاری تولید و فرآوری محتوای خوب است که قبل از ورود هوش مصنوعی به این عرصه، بسیاری از پردازشها به صورت دستی انجام میشد که قاعدتاً زمان، هزینه و نیروی بسیاری صرف آن میشد؛ چنانکه برخی پروژهها به دلیل همین دستیبودن خیلی از مراحل، بیش از ده سال در صف توسعه محتوا باقی میماندند؛ مانند پروژه موضوعگذاری روی کتاب تفسیر المیزان یا بحار الأنوار و الغدیر. بدیهی است که ورود هوش مصنوعی به این حوزه، میتواند نقش مهمی در تسریع و پشبُردِ کمّیت کار داشته باشد.
هدف بعدی، ارتقاء سطح کیفی محتوا و خدمات ارائهشده است. با تکیه بر پردازشهای هوشمند و استفاده از تکنیکهای جدید میتوان سطح کیفی خدمات خود را ارتقاء داد و اشکالهایی را که ممکن بود در کار انسانی پیش بیاید، حلّ کنیم.
هدف دیگر اینکه با قابلیتهای برآمده از هوش مصنوعی، نیازهای پیچیدهای را میتوانیم برطرف کنیم که تا قبل از آن، اصلاً امکان آنها وجود نداشت؛ مثلاً در پروژه سمیم، فرایند مشابهیابی مقالات در سطح خیلی حجیم و وسیعی انجام میشود؛ یعنی این سامانه، یک مقاله را با تمام محتواهای موجود در پایگاه نورمگز و نورلایب و یا کتابها و منابع موجود، مشابهیابی میکند و بخشهای مشابه را کشف یا تقلبیابی مینماید. بدیهی است که این کار، اصلاً به شکل دستی و سنّتی، قابلیت انجام ندارد.
دستاوردهای نور در هوشمندسازی علوم اسلامی
مرکز تحقیقات کامپیوتری علوم اسلامی، تاکنون دستاوردهای بسیاری در زمینه هوشمندسازی فرایندها و ارائه قابلیتهای جدید در زمینه تحلیل هوشمند محتوا داشته است که در این مجال، به برخی از آنها اشاره میکنم.
ـ تجزیه صرفی و نحوی:
اولین دستاورد ما، ابزار تجزیه صرفی بود؛ بدین ترتیب که یک کلمه عربی را به سیستم میدهیم و سیستم آن را از حیث صرفی و ساختمان کلمه، تحلیل میکند که چه پیشوندها یا پسوندهایی میتواند داشته باشد. اصل یا هسته اصلی کلمه و یا پسوند و پیشوند آن، چه ویژگیهایی صرفی دارند؛ مثلاً ریشه این کلمه چیست، اِعراب آن چیست، جمع است یا مفرد، اسم است یا فعل، چه وزنی دارد و امثال آن. در واقع، اقسام ویژگیهایی که در تحلیل صرفی کلمه میتوانند برای ما مهمّ باشند، ماشین همه حالات ممکن در آن کلمه را تحلیل و بررسی میکند و حالتی را که به نظرش میتواند صحیح باشد، به عنوان خروجی ارائه میدهد. بدیهی است که چنین چیزی، کاربردهای خیلی متعدّدی خواهد داشت. دور از واقعیت نیست اگر بگوییم که هزاران قانون و قاعده در پشت صحنه این موتور پیادهسازی شده تا بتواند رفتار مناسب و صحیحی از خودش بروز دهد.
علاوه بر این، در لایه نحو هم وارد شدهایم و مثلاً در محتوای قرآنی، داده استانداردی آماده شده که در آن، ساختار یک جمله که مبتنی بر قواعد نحوی زبان عربی است، در قالبی قابل فهم برای ماشین آماده گردید؛ مثلاً این کلمه، مبتداست یا خبر، فاعل است یا مفعول و مانند آن. متن کامل قرآن کریم، در حال حاضر از صرفی و نحوی، برچسبگذاری شده و در پایگاه جامع قرآنی مرکز در اختیار مخاطبان قرار داده شده است.
همچنین، زیرساخت و رابط کاربری خاصّی آماده شده که کابران قادر باشند در این دیتای ارزشمند صرفی و نحوی قرآن به جستوجو بپردازند و به مطلب مورد نظرشان دست یابند.
ـ مدخلیابی کلمات:
استفاده دیگری که از این موتور صرفی هوشمند نمودهایم، مدخلیابی هوشمند کلمات است؛ یعنی ماشین، بهازای جستوجوی یک کلمه توسط کاربر، از میان انبوه مداخلی که وجود دارد، بر اساس تحلیل صرفی کلمه، نتایج را به صورت هوشمندانه توسعه داده و بهترین مدخلها را به کاربر پیشنهاد میدهد و پاسخهای غیرمرتبط و دور از هدف کاربر را از چرخه پاسخهای جستوجو خارج میکند و نتایج مطلوب را ارائه میدهد.
ـ مشابهیابی متون:
دستاورد دیگر ما، به بحث مشابهیابی متون مربوط میشود؛ به طور مثال، در متون عربی مثل احادیث، این قابلیت وجود دارد که روایات مشابه حدیث انتخابی کاربر را با درصد تشابه مورد نظر کاربر نمایش دهیم. برای اولینبار در نرمافزار جامع الأحادیث سهونیم از این قابلیت مفید رونمایی کردیم که برای کاربران، بهخصوص حدیثپژوهان بسیار کاربردی است. اینکه کسی بخواهد برای یافتن روایات مشابه به شکل سنّتی عمل کند و در منابع حدیثی جستوجو نماید، وقت و هزینه بسیاری از او میگیرد؛ ولی شما اکنون با یک کلیک میتوانید به فهرستی جامعی از روایات مشابه حدیث انتخابی خودتان دسترسی داشته باشید. گفتنی است که علاوه بر نرمافزار جامع الأحادیث سهونیم که به احادیث شیعه اختصاص دارد، در کتابخانه احادیث فریقین هم این ابزار به کار گرفته شده است تا علاقهمندان بتوانند در منابع اهلسنّت هم به مشابهیابی احادیث مبادرت ورزند.
همچنین، از این قابلیت، در پایگاه جامع الأحادیث نسخه جدید هم استفاده شده است. قبلاً اگر کاربر جستوجویی در پایگاه حدیث نور انجام میداد، معمولاً به نتایج متعدّد و تکراری منجر میشد؛ ولی در نسخه جدید پایگاه، احادیث را گروهبندی کردهایم و پاسخهای جستوجو بسیار دقیق و نزدیک به خواسته کاربر است و تنها با یک تیک، جلوی تکرار نتایج زاید گرفته میشود.
همان طور که اشاره کردم، قابلیت مشابهیابی در سامانه سمیم نور هم بهکار گرفته شده است. محقّق میتواند تمام اجزاء مقاله خود را در میان انبوهی از مقالات، کتابها و پایاننامههای حوزه علوم اسلامی و انسانی کاوش نماید و اصالت یک متن و میزان یا درصد مشابهت آن را با سایر متون بررسی نماید.
علاوه بر این، در زمینه مشابهیابی معنایی و فرالفظی نیز کارهای ارزشمندی انجام شده است؛ برای نمونه، در قسمت احادیث مرتبط پایگاه حدیث، روایات مرتبط با حدیث مدّ نظر کاربر، با استفاده از تکنیکهای تحلیل معنایی متون و مشابهیابی فرالفظی، پیادهسازی شده است.
در محتوای قرآنی نیز از تکنیکهای مشابهیابی استفاده شده و کاربر میتواند به آیات مشابه لفظی یا معنایی آیه مورد نظر خودش دسترسی داشته باشد؛ برای مثال، وقتی کاربر آیه مربوط به نیکی به پدر و مادر را به سیستم بدهد، ماشین تمام آیات مرتبط با این موضوع را برایش فهرست میکند؛ حتّی آیاتی که در آنها هیچ اشاره لفظی به این موضوع نشده باشد؛ امّا مفهوم و محتوای این موضوع مورد توجّه قرار گرفته است.
ـ برچسبگذاری آیات و روایات:
کار دیگر ما، برچسبگذاری آیات در متون است؛ به بیان دیگر، سیستم ما، محتوای خام را میگیرد و بعد مشخّص میکند کجای این محتوا، آیه است و نشانی آن چیست. این سیستم، رسمالخطّهای مختلف قرآن را نیز پوشش میدهد. همین کار، برای متون حدیثی هم پیادهسازی شده است و به شکل خودکار، عملیات برچسبگذاری احادیث در متون را انجام میدهیم.
ـ برچسبگذاری پاورقیها:
کار خوب دیگری که انجام شد، برچسبگذاری پاورقیهای متون است؛ اینکه این پاورقی، به چه کتاب، جلد یا صفحهای مربوط است و آن را به محتوای مربوطه لینک بدهد.
ـ برچسبگذاری اَعلام اشخاص:
در زمینه استخراج خودکار اَعلام اشخاص و بهاصطلاح موجودیتهای نامدار هم کار خوبی انجام شده است. إن شاء الله در آینده بتوانیم محصولاتی مبتنی بر این استخراجهای ماشینی داشته باشیم.
ـ استخراج هوشمند رویدادهای تاریخی:
در این زمینه، متون خام تاریخی را به سیستم میدهیم و آنگاه سیستم، رویدادهای تاریخی موجود در متن را شناسایی مینماید و تمامی اطّلاعاتی را که به آن مربوط هست، گزارش میکند. امیدواریم بتوانیم از این قابلیت، در پایگاه تاریخ رونمایی کنیم.
ـ ردبندیمتون:
در برخی متون تخصّصی مثل فقه، ما از قابلیت ردهبندی متون استفاده بردهایم؛ برای مثال، اگر کاربر یک متن فقهی یا حدیثی را به سیستم ارائه دهد، سیستم تعیین میکند که برچسب موضوعی آن متن چیست. بدیهی است که تعیین موضوع یک متن، کارایی بسیاری برای کاربر و محقّق دارد و از این طریق بهآسانی میتواند پژوهشهای خود را ساماندهی کند.
ـ با همآیی متون:
فیلد دیگری که به برکت هوش مصنوعی، آن را آماده کردیم، قابلیتهایی مبتنی بر تحلیل باهمآیی متون است؛ برای مثال، از این تکنیک در سیستم استخراج آیات مرتبط استفاده کردهایم؛ یعنی علاوه بر ارتباط لفظی و معنایی و موضوعی، میتوانیم گونه دیگری از آیات مرتبط با آیه کاربر را نیز برای او فهرست کنیم. این قابلیت، مبتنی بر این نظریه است که آیاتی که مفسّران متعدّد در کنار هم ذکر کردهاند، با یکدیگر ارتباط خواهد داشت. این تکنیک، در انبوه تفاسیر قرآنی اجراء شد و بدین ترتیب، کاربر میتواند بفهمد آیات مرتبط با آیه انتخابی او چه آیاتی هستند و دیدگاه مفسّران را هم ملاحظه کند.
افزون بر بهکارگیری این تکنیک در تحلیل آیات و ارائه آیات مرتبط در پایگاه جامع قرآنی، در خود موتور جستوجوی نور هم آن را به کار گرفتهایم؛ مثلاً در پایگاه مجلات تخصصی نور (نورمگز)، قابلیت پیشنهاد عبارت جستوجو راهاندازی شد؛ به طوری که مثلاً وقتی کاربر عبارت «بیداری اسلامی» را جستوجو میکند، سیستم علاوه بر عرضه پاسخهای مربوط به این واژه، عباراتی همچون «بهار عربی» و «اخوان المسلمین» را هم به کاربر پیشنهاد میدهد که کاملاً یک پیشنهاد هوشمندانه است؛ یعنی سیستم به شکل خودکار، عباراتی را که با متن مورد نظر کاربر، هماهنگی و ارتباط لفظی یا معنایی دارد، ارائه میکند.
ـ ترجمه ماشینی متون:
فیلد دیگری که خیلی جذّاب است و در سالهای اخیر به آن ورود پیدا کردهایم، بحث ترجمه ماشینی است. از این امکان، در دو جای اصلی استفاده نمودهایم. یکی از آنها، در بحث ترازبندی خودکار متن ترجمه است. خوب میدانید که خیلی از جاها متون منبع و مرجع در علوم اسلامی، دارای ترجمههای متعدّدی هستند. تاکنون ارتباط بین متن و ترجمه آن، توسط انسان انجام میشد؛ امّا حالا توسط تکنیک ترجمه ماشینی، صفحه یا پاراگراف متون را به متن ترجمه آن متّصل کردهایم و خود ماشین، به صورت هوشمند این فرایند را برای کاربر انجام میدهد.
علاوه بر این، از تکنیک ترجمه ماشینی در ترجمهیابی احادیث هم استفاده نمودهایم. خیلی از احادیث هستند که ممکن است تاکنون ترجمه مشخّصی برای آنها توسط انسان تحریر نشده باشد؛ امّا سیستم، از طریق بازیابی اطّلاعات ترجمه ماشینی آن، ترجمهیابی کرده و پس از یافتن ترجمه مناسب، آن را پیشنهاد میدهد. إن شاء الله، بهزودی این قابلیت را در پایگاه جامع الأحادیث به کار خواهیم گرفت.
ـ پردازش تصویر:
در گروه پردازش هوشمند نور، علاوه بر پردازش متن، به مقوله پردازش تصویر هم ورود پیدا کردهایم. در زمینه OCR و استخراج متن از تصاویر، خوشبختانه توانستیم محصولی را تولید کنیم و از آن در فرایندهای ورود اطّلاعات و دیجیتالیکردن متون استفاده کنیم. یکی از پُرهزینهترین مراحل تولید نرمافزارهای نور، بحث دیجیتالیکردن اطّلاعات است. بدیهی است که با داشتن یک چنین سیستمهایی، صرفاً با داشتن تصویر آن کتاب، میتوانیم به راحتی از مرحله دیجیتالیکردن اطّلاعات گذر نماییم و دیگر نیازی به تایپ تمامی متون نخواهیم داشت و با حدّاقل هزینه، این فرایند به انجام خواهد رسید.
از این قابلیت، در پایگاه نورمگز استفاده شده است. بدین ترتیب، صدها هزار صفحه از مقالاتی را که به دلیل نبودِ متن، امکان جستجو در آنها وجود نداشته و صرفاً تصویرشان در دسترس ما بوده است، به متن تبدیل کردهایم. بدیهی است که این نوع پردازش، دستاورد خیلی پُررنگ و چشمگیری به شمار میرود.
ـ پردازش صوت:
در جستجوی صوتی هم گامهای خوبی برداشتهایم. البته باید بگویم به جهت پُرهزینه بودن فیلد پردازش صوت و منابع کمی که داشتیم، بیشتر از منابع متنباز که در این حوزه موجود بودند، استفاده کردیم و با سفارشیسازی آنها توانستیم به یک سامانهای مطلوب برسیم که به وسیله آن، کاربر میتواند در محتوای صوتی مورد نظر خودش جستوجو کند. از این قابلیت، برای اوّلینبار به صورت آزمایشی در نرمافزار «کتابخانه مقتل الحسین(ع)» استفاده شد. این امکان نیز خیلی کاربردی و مفید به نظر میرسد.
پرسش و پاسخ
در پایان، کاربران حاضر در وبینار، به ارائه سؤالات خود پرداختند. در ادامه، برخی از این پرسش و پاسخها را جهت استفاده خوانندگان گرامی میآوریم.
1. آیا مرکز برنامهای برای ترجمه ماشینی متون اسلامی به زبانهای غیرفارسی دارد؟
فعلاً در چشمانداز کوتاهمدّت، برنامهای در این راستا در نظر گرفته نشده است؛ امّا با استفاده از ابزارهایی که در این حوزه وجود دارد، این قابلیت در فضای متون اسلامی قابل دستیابی است.
2. برای شناسایی و تعیین مرجع ضمایر موجود در قرآن یا احادیث، چه برنامهای دارید؟
در زمینه تعیین مرجع ضمیر، کارهای خوبی در مرکز به صورت دستی شده است. در سالهای گذشته، یک کار دستی در این زمینه انجام شده است؛ یعنی در نرمافزار قرآنی جامع تفاسیر. البته نمونه و مشابه این قابلیت، در نرمافزار نور السیره هم به صورت دستی انجام شده است که با استفاده از این دادگان و با پیشرفتهایی که در زمینه شناسایی خودکار مرجع ضمیر در سالها ی اخیر وجود داشته، در صورت لزوم، میتوان ابزارهای مناسبی در این زمینه تولید کرد و به فراخوار حال، در محصولات نرمافزاری از آنها استفاده نمود.
3. آیا در نرمافزارهای نور به امکان ترجمه هوشمند هم توجّه شده است؟
فعلاً در نرمافزارهای نور، این قابلیت عرضه نشده است؛ امّا در خصوص ترجمه ماشینی متون، ما به نتایجی رسیدهایم که إنشاءالله بتوانیم در نرمافزار جامع الأحادیث، از این ابزار یک خروجی بگیریم. امّا اینکه مستقیماً ابزار ترجمه هوشمند را برای کاربران و علاقهمندان ارائه کنیم، باید بگویم که احتمالاً در ماههای آتی، این قابلیت را در وبگاه متنکاوی مرکز نور قرار بدهیم.
4. آیا امکان استفاده از برنامه ترازبندی برای کاربران وجود دارد؟
اگر منظور شما ترازبندی متن و ترجمه یا متن و صوت است، فعلاً هیچکدام از آنها رونمایی نشده و بیشتر در قالب یک ابزار، به عنوان دستیار پژوهشگران داخلی مرکز، از آن استفاده میشود. اگر بدانیم که استفادهکننده از این ابزار زیاد است، آن را در وبگاه متنکاوی قرار خواهیم داد.
5. آیا در تولیدات نور، برای معرّفی مقاله مرتبط با متن، امکانی وجود دارد یا خیر؟
در پایگاه نورمگز، ذیل هر مقاله، مقالات مرتبطی پیشنهاد میدهیم. اگر مقاله مدّ نظر شما جزء مقالات پایگاه نور مگز باشد، از آن مقالات مرتبطی که توسط ماشین پیشنهاد داده میشود، میتوانید استفاده کنید.
البته باید بگویم که در پایگاه نوریاب نیز میتوانید متن یک جمله یا عبارت مدّنظر خودتان را مشابهیابی کرده و به کتابهای حاوی عبارات مشابه دسترسی داشته باشید.
پی نوشت: