تولید محتوای پایگاه‌های اسلامی به شکل خودکار

یکشنبه, 31 شهریور 1392 ساعت 15:32
    نویسنده: مصطفی علیمرادی
این مورد را ارزیابی کنید
(1 رای)

اشاره

از کارکردهای پردازش زبان طبیعی، استخراج خودکار ساختارها، موجودیت‌ها و اطلاعات متن به شکل هوشمند است. از این کارکرد می‌توان در تهیه محتوا برای پایگاه‌ها سود جست. افزایش اطلاعات و محتواهای رقمی در حوزه علوم اسلامی از یک سو و گسترش مباحث میان‌رشته‌ای در این حوزه از سوی دیگر، سرعت و دقت در عرضه محتوا به مخاطبان و پژوهشگران علوم اسلامی را ضروری ساخته است. استفاده از فناوری‌های استخراج خودکار متون، از راهکارهای مطرح برای تهیه سریع و دقیق محتوا برای این پایگاه‌ها به شمار می‌رود.

در این مقاله، به بررسی راه‌های گوناگون تهیه و عرضه محتوا در پایگاه‌های اسلامی و ضرورت توجه به شیوه‌های هوشمند و خودکار تهیه محتوا پرداخته خواهد شد.

 واژگان کلیدی: یکپارچه‌سازی محتوا، میان‌کنش‌پذیری، پردازش زبان طبیعی، دسته‌بندی خودکار، استخراج خودکار اطلاعات.

مقدمه

امروزه به سبب فزونی اطلاعات رقومی، صحت و دقت بازیابی و به‌سامان کردن محتوا ضرورت یافته است؛ به گونه‌ای که متخصصان گوناگون علم، از عالمان رایانه و حوزه علم اطلاعات و دانش‌شناسی گرفته تا زبان‌شناسی، فلسفه، ‌روان‌شناسی و متخصصان حوزه‌های موضوعی گوناگون برای سرعت، صحت و دقت اطلاعات بازیابی‌شده کاربران در پایگاه‌های رقومی تحت طرح کلی «پردازش زبان طبیعی» با هم در تعامل‌اند. هدف این طرح، فراهم آوردن زمینه‌هایی است که رایانه به جای شناخت مجموعه رمزها (کدها)، مفاهیم زبانی را مانند انسان بفهمد و پردازش کند. این طرح کلی، دربردارنده طرح‌های خاص بسیار است که یکی از آنها دسته‌بندی خودکار متون است. از کارکردهای مهم دسته‏بندی خودکار متون می‌توان به استخراج اطلاعات از متون اسناد گوناگون و عرضه در پایگاه‏ به شکل دسته‏بندی‌شده اشاره کرد. این فن، ابزار مناسبی برای عرضه محتوا در پایگاه‌های اسلامی است؛ زیرا از یک سو، محتواهای منابع معتبر در زمینه علوم اسلامی به شکل رقومی و ماشین‌خوان موجود است و می‌توان با استفاده از فنون دسته‏بندی خودکار، متون را پردازش و اطلاعات را استخراج کرد؛ به عبارت دیگر، برای تهیه محتوا برای پایگاه‏های اسلامی، نیاز به بازنویسی مطالب و گردآوری به شکل دستی نیست؛ بلکه این کار را می‌توان به کمک فنون پردازش زبان طبیعی انجام داد.

از سوی دیگر، اتصال مستقیم کاربران به متون دست اول و گردآوردن اطلاعات به گونه مستقیم از آن، برای ایشان یقین‌آورتر خواهد بود. از این گذشته، با استفاده از این کار، محتواها با سرعت بیشتر به کاربران عرضه می‌شود و فرایند بارگذاری اطلاعات در پایگاه بسیار کمتر می‌شود و از این رو، کاربران با فاصله بسیار کم با محتواهای به‌روز مواجه می‌شوند. این امر نیز برای افزایش آگاهی و دانشِ جویندگان اطلاعات در این حوزه‌ موضوعی سودمند است.

در این مقاله، به چگونگی پرداختن به دسته‌بندی خودکار متون برای استخراج اطلاعات از بانک‌های اطلاعاتی و عرضه در پایگاه‌ها و زمینه‌ها و ضرورت آن پرداخته خواهد شد.

شیوه‌های تهیه محتوا

شاید بتوان گفت تهیه محتوا برای کتابخانه‌ها و پایگاه‌های منابع علمی رقومی، از مهم‌ترین چالش‌های به شمار می‌رود؛ زیرا نوع و کیفیت محتوا است که کاربران را به استفاده از یک کتابخانه رقمی سوق می‌دهد. برای تهیه محتوا در کتابخانه‌های رقمی، راه‌های گوناگون وجود دارد:

  • رقمی‏ سازی؛
    گردآوری منابع رقمی‏ شده.

هر یک از این دو نیز خود دارای اقسام گوناگون است. رقمی‏سازی، یا از طریق رقمی کردن منابع چاپی ممکن است و یا از طریق تولید منبع رقمی از آغاز (به شکل تایپ متون).

تبدیل منابع و آثار گوناگون چاپی به شکل رقومی، هزینه‌های بسیار دارد. افزون بر این، گاه رقمی‌سازی منابع، تنها با یکبار هزینه کردن محقق نمی‌شود؛ بلکه نیاز به پشتیبانی مالی مدام دارد. در سال 2000 میلادی طرحی در کتابخانه‌ای در دانشگاه ییل با هدف سنجش زمان و هزینه صرف‌شده برای رقمی‌سازی مقاله‌ها اجرا شد. نتایج آن طرح این‌گونه بود: زمان صرف‌شده برای کپی، اسکن و دوباره‌خوانی و اصلاح، ثبت شد. متوسط هزینه به ازای هر صفحه، 12/4 دلار.

کارشناسان علت پرهزینه بودن رقمی‌سازی را نیازمند بودن مقاله‌ها دارای تصاویر زیاد به دقت و انجام مراحل بیشتر، و دچار مشکل شدن فرایند OCR به سبب پایین بودن کیفیت قلم‌های قدیمی می‌دانند. متوسط هزینه‌های رقمی‌سازی چنین آورده شده است:

فرآیندها

مجموعه‌های ترکیبی به ازای هر نمونه

اقلام منفرد به ازای هر صفحه

مجموعه عکس به ازای هر عکس

کتاب‌ها/ جزوه‌ها به ازای هر صفحه

رقمی‌سازی

35/9 دلار

30/5 دلار

60/7 دلار

30/4 دلار

تولید فراداده

60/10 دلار

40/10 دلار

85/5 دلار

60/5 دلار

موارد دیگر

40/11

20/17 دلار

45/13 دلار

55/3 دلار

مجموع

35/31 دلار

90/32 دلار

90/26 دلار

45/13 دلار

افزون بر هزینه رقمی‌سازی، هزینه‌های نگهداری نیز بسیار بالا است. (نبوی، 1384، ص 155)

استفاده از منابع رقمی‏ شده نیز خود اقسام گوناگون دارد که می‏توان آن را چنین بر شمرد: جستجوی هم‏زمان،(1) برداشت(2) و جمع‏آوری(3) (علیپورحافظی، 1389، ص 124).

گردآوری محتوا در ﻫﺮﯾﮏ از سه الگوی یادشده، ﻧﯿﺎزﻣﻨﺪ اﺳﺘﻔﺎده از ﺗﻔﺎﻫﻢﻧﺎﻣﻪﻫﺎ و ﻓﺮادادهﻫﺎیی اﺳﺖ ﮐﻪ ﻣﺘﻨﺎﺳﺐ ﺑﺎ هر یک از الگوهای پیش‏گفته ﻗﺎﺑﻞ اﺳﺘﻔﺎده‏اند. این سه الگو برای استفاده از منابع رقمی‏شده را که با تفاهم و همکاری پایگاه‏ها یا کتابخانه‏های رقمی گوناگون انجام می‏شود، یکپارچه‏سازی یا میان‏کنش‏پذیری(4) می‏نامند.

میان‌کنش‌پذیری، از شیوه‌های تهیه منابع برای کتابخانه‌ها است که در آن کتابخانه‌های گوناگون بر پایه قراردادی تفاهم می‌کنند که محتوای خود را به اشتراک بگذارند؛ به گونه‌ای که کاربرانی که وارد هر یک از کتابخانه‌ها می‌شوند، بتوانند از محتوای کتابخانه دیگر استفاده کنند. اطلاعات به اشتراک گذاشته‌شده ممکن است تنها محدود به فراداده‌ها شود؛ اما گاه متن کامل را نیز به اشتراک می‌گذارند. شرکت اوسی‌ال‌سی (5)، ورلدکت (6) را که نمونه‌ای از نظام میان‌کنش‌پذیر است، عرضه کرده است. ورلدکت، بیش از 25 سال پیش راه‌اندازی شده است  و نظامی را پایه گذارده که در آن کتابخانه‌ها در سراسر جهان اطلاعات کتاب‌شناسی خود را در بستر ورلدکت به اشتراک می‌گذارند.

چنان‌که پیش‌تر گفته شد، میان‌کنش‌پذیری بر پایه الگوهای ذیل انجام می‌گیرد:

  • ـ تعهدنامه؛
  • ـ برداشت؛
  • ـ گردآوری.

در الگوی تعهدنامه‌ای، گروهی از سازمان‌ها توافق می‌کنند که خدماتشان با ویژگی‌هایی مطابقت داشته ‌باشد که غالباً از استانداردهای رسمی انتخاب شده‌اند. تعهدنامه، در نمونه‌هایی است که کتابخانه رقمی موضوعات جستجو را به انبارهای جداگانه و دور از هم بفرستد و نتایج را جمع‌آوری، ترکیب و به کاربر نمایش دهد. دو نظام خدمات‌دهنده و خدمات‌گیرنده، در این الگو به کار می‌روند. خدمات‌دهنده متعهد می‌شود که محتوا را به‌روز نگهدارد و به پرس‌وجوها پاسخ دهد. خدمات گیرنده نیز متعهد می‌شود که به کاربران نهایی متصل شود و درخواست‌هایی از کاربران دریافت و ارسال نماید و درخواست‌های رسیده از خدمات‌دهنده را دریافت و ترکیب کند و سرانجام آنها را به کاربر نهایی نمایش دهد.

شیوه دیگر برای انجام این الگو، با نصب یک میان‌افزار صورت می‌گیرد. میان‌افزار، ارتباط با خدمات‌دهنده‌ها و کاربر را بر عهده می‌گیرد تا کاربر بتواند از طریق میان‌افزار و بدون نیاز به هر گونه ارتباط با خدمات‌دهنده، به منابع در مجموعه‌ای دیگر دسترس یابد.

بازیابی شخصی و خلاصه‌سازی تصاویر، فیلم‌ها و زبان منابع، طرحی است در دانشگاه کلمبیا که در یک الگوی تعهدنامه‌ای انجام می‌شود.

اما در خصوص الگوی برداشت باید گفت که دشواری ایجاد تعهدنامه‌های عظیم، انگیزه‌ای برای ایجاد گروهایی رهاتر از کتابخانه‌های رقمی شد. در الگوی برداشت، نیازی به هماهنگ‌کردن و نصب نرم‌افزار خاصی نیست؛ بلکه بر پایه توافقاتی که میان پایگاه‌های عرضه محتوا صورت می‌گیرد، یک پایگاه می‌تواند از محتوای پایگاه دیگر برداشت و به کاربران خود عرضه کند.

بر پایه الگوهای گردآوری از میان کنش‌پذیری، پایگاه‌ها می‌توانند محتوای دلخواه را از فضای وب گرد‌آوری و در پایگاه خود عرضه کنند. این الگو، مستلزم رعایت حقوق مالکیت معنوی است و رعایت نکردن این حقوق، سبب بروز مشکلات حقوقی خواهد شد.

ضرورت یکپارچه‌سازی خدمات در کتابخانه‌های رقمی

کارشناسان، ضرورت یکپارچه‌سازی خدمات عرضه محتوا را این گونه بیان می‌کنند:

امروزه، رفتار اطلاع‌جویی کاربران، در قیاس با گذشته تغییر بسیار محسوسی یافته‌ است؛ به گونه‌ای که کاربران برای دستیابی به اطلاعات بیشتر به سراغ وب می‌روند و برای نیازهای اطلاعاتی خود در این بستر، در پی پاسخ‌هایی می‌گردنند. از سویی نیز موتورهای جستجوگر و دیگر ابزارهای بازیابی اطلاعات در محیط وب سبب شده‌اند تا کاربرانی از یک مجرا به دنیایی از اطلاعات دسترسی داشته باشند. از این رو، ضروت ایجاب می‌کند که نظام‌های اطلاعاتی که برای پاسخگویی به نیازهای اطلاعاتی تخصصی کاربران ایجاد شده‌اند، بتوانند به صورت یکپارچه پاسخگوی نیازهای اطلاعاتی کاربران باشند؛ به این معنا که نظام‌های اطلاعاتی از هر نوعی که باشند، از نظام‌های اطلاعاتی نسخ ‌خطی گرفته تا نشریات تخصصی، طرح‌های پژوهشی سازمان‌ها و کتابخانه‌های رقمی، برای حفظ جایگاه اطلاعاتی خود در چرخه دانش باید یکپارچه شوند و به کابران خدمات ارائه کنند. در چنین شرایطی، جستجوی منفرد و مجزای این نظام‌های اطلاعاتی کاری بیهوده و زمان‌بر است که از حوصله انسان حاضر در عصر فناوری اطلاعات خارج است. ادغام برخی از پایگاه‌های اطلاعاتی بزرگ با یکدیگر، مانند ادغام پایگاه‌های اطلاعاتی ایبرری در پایگاه اطلاعاتی پروکویست و نیز ایجاد ابزراهایی برای ایجاد دستیابی یکپارچه به محتواهای اطلاعاتی پایگاه‌های اطلاعات علمی، مانند آتنز و شیبولیث، نشان از اهمیت یکپارچه‌سازی و دستیابی یکپارچه به نظام‌های اطلاعاتی علمی دارند (علیپور حافظی، 1391، ص 524).

بنابراین، یکپارچه‏سازی، هم برای کاربران در دستیاری آسان و سریع و در قالب درگاهی واحد و هم برای صاحبان پایگاه‏ها و کتابخانه‏های رقمی بسیار سودمند خواهد بود.

ناکارآمدی الگوهای یکپارچه‌سازی عرضه محتوا در پایگاه‌های اسلامی

تهیه منابع با استفاده از سه الگوی یکپارچه‏سازی، هم هزینه‏بر است و هم نیازمند هماهنگ کردن و پذیرش تفاهم‏نامه‏هایی میان پایگاه‏های گوناگون و استفاده از فراداده‏های ویژه هر یک از شیوه‏ها، و از سوی دیگر نیز در ایران این دست از یکپارچه‏سازی‏ها به گونه کامل اجرا نشده و امری کم‏سابقه شمرده می‏شود. از این رو، برای دستیابی به منابع و گردآوری منابع رقمی آماده در پایگاه‌های اسلامی، شاید راه‏های ساده‏تری نیز وجود داشته باشد. یکی از این راه‌ها، استخراج خودکار محتوا از پایگاه داده به شکل هوشمند است.

استخراج خودکار محتوای دسته‌بندی شده از منابع گوناگون

گسترش و تنوع محتواهای رقمی درباره علوم اسلامی از یک سو و نیز تعامل و تشریک موضوع‌ها و مسائل در علوم گوناگون و گسترش مطالعات و بررسی‌های میان‌رشته‌ای از سوی دیگر، سبب شده است فراهم‌آوری و تهیه محتوا برای پایگاه‌های اسلامی هم بسیار وقت‌گیر شود و هم نا کامل و غیر فراگیر.

بر این اساس، باید در پی راهی بود که از یک سو وقت‌ و هزینه کمتری برای آن صرف شود و از سوی دیگر، فراگیرنده تمام مباحث و رشته‌ها و رسته‌های موجود در علوم اسلامی باشد.

یکی از راه‌های گردآوری محتوا، استفاده از فنون داده‌کاوی است. «داده‌کاوی» یا فرایند کشف دانش در پایگاه داده، زمینه‌ای نسبتاً نوظهور است و پل ارتباطی میان علوم آمار، مهندسی کامپیوتر، هوش مصنوعی، شناسایی آماری الگو، یادگیری ماشین و محاسبات رایانشی نرم به شمار می‌رود. داده‌کاوی، فرآیند یا طرحی نسبتاً پیچیده برای شناسایی الگوها و مدل‌های صحیح، قابل استناد و مفید در حجم وسیعی از داده است؛ ‌به گونه‌ای که این الگوها و مدل‌ها برای انسان‌ها قابل درک باشند.

هدف نهایی متن‌کاوی، فراهم‌سازی امکان کشف دانش از محتواهای متنی، صوتی یا بصری است. متن‏کاوی زیرمجموعه تخصصی از کشف دانش از داده‌ها است که می‌توان آن را به منزله فرایند محاسبه‌ای استخراج اطلاعات سودمند از حجم عظیمی از داده‌های رقمی از طریق تبدیل داده‌های ساده و بی‌ساختار به داده‌های غنی‌تر و نیز از طریق شناسایی انگاره‌های معناداری که در داده‌های نهفته است، تعریف کرد.

مهم‌ترین مراحل داده‌کاوی یا همان کشف دانش از میان داده‌ها، عبارت‌اند از:

  1. استخراج و گردآوری داده‌ها از چندین منبع؛
  2. یکپارچه‌سازی و حذف داده‌های زاید (تصفیه)؛
  3. تشکیل انبار داده بر پایه داده‌های تصفیه‌شده؛
  4. اجرای عملیات داده‌کاوی؛
  5. تفسیر و نمایش نتایج (عابدینی & مینایی، 1390، ص 7).

هدف از پردازش هوشمند متون، ایجاد نرم‌افزارهایی است تا فرایند استخراج اطلاعات از متون را همانند فرایند درک انسان انجام و ذهن وی را یاری دهند. با وجود توانایی‌های درکی بسیار بالا در انسان، ذهن او در فرایند درک اطلاعات با حجم بسیار بالا که امروزه بسیار اتفاق می‌افتد، دارای محدودیت‌های جدی است. نخست اینکه به سبب محدودیت ظرفیتی «حافظه کوتاه‌مدت» انسان در پردازش اطلاعات دریافتی، ذهن وی توانایی کنار هم گذاشتن و درک درست این اطلاعات را ندارد. در مواردی هم که درک حجم بالای اطلاعات بین افراد تقسیم می‌شود، به جهت فردی و متفاوت بودن درک ایشان، نمی‌توان به درکی منسجم رسید. دوم اینکه به جهت محدودیت‌های سلول‌های عصبی، سرعت ذهن انسان در انتقال و پردازش حجم بالای اطلاعات، پایین است و این در حالی است که امروزه سرعت تولید اطلاعات بشری، بسیار بالا است.

درباره متون اسلامی، تربیت و دست‌یابی به افراد خبره به تعداد کافی برای درک حجم بسیار بالای این متون خیلی گران، زمان‌بر و گاهی غیر ممکن است. حال با استفاده از توانمندی‌های بسیار بالای رایانه در پردازش اطلاعات با حجم بسیار، نقاط ضعف ذهن انسان را می‌توان جبران کرد. (مینایی، 1390، ص 6).

استخراج خودکار اطلاعات از منابع ساختارنیافته با طراحی بر مبنای مفاهیم روشن دادگان ساختاریافته، مسیر تازه‌ای برای کاوش‌ها، سازمان‌دهی و تحلیل داده گشوده است. این حوزه از استخراج اطلاعات در پردازش زبان طبیعی ریشه دارد. استخراج اطلاعات، عبارت از تعیین خودکار و عرضه ساختاریافته اطلاعات مرتبط در اسناد یا استخراج بخش‌های خوب تعریف‌شده اطلاعات مرتبط با مجموعه‌هایی از اسناد است.

نظام استخراج اطلاعات، اسناد و مدارک زبان طبیعی را پردازش می‌کند و مجموعه‌ای از فقرات مرتبط را می‌یابد. میزان فزاینده‌ای از اطلاعات در شکل اسناد رقمی در دسترس است و نیاز به پرازش معقول و هوشمند چنین متونی استخراج اطلاعات را به حوزه‌ای سودمند از پردازش زبان طبیعی (ان ال‌ پی) بدل ساخته است.

نظام‌های استخراج اطلاعات، دارای وظایف ذیل‌اند:

  • ـ یافتن و فهمیدن روابط محدود بخش‌های متن؛
  • ـ گردآوری اطلاعات از قطعات گوناگون متن؛
  • ـ ایجاد نمایش‌های ساختاریافته از اطلاعات مرتبط.

استخراج اطلاعات، از بازیابی اطلاعات متفاوت است. یک نظام بازیابی، اطلاعات متون مرتبط را می‌یابد و آنها را به کاربر عرضه می‌کند؛ اما یک برنامه استخراج اطلاعات، متون را تحلیل و تنها اطلاعات خاص از آن متون را که مطلوب کاربر است، به او عرضه می‌نماید.

برای نمونه، یک کاربر نظام بازیابی اطلاعات که اطلاعاتی درباره تشکل‌های گروه تجاری در فروشگاه‌های کالاهای کشاورزی می‌خواهد، باید فهرستی از واژگان مرتبط را وارد کند و پس از آن، مجموعه‌ای از اسناد (مانند مقاله و روزنامه) را که دربردارنده محتوایی در این باره‌اند، دریافت می‌کند. کاربر باید این اسناد را بخواند و خودش اطلاعات درخواستی را از آنها استخراج کند. در مقابل، یک نظام استخراج اطلاعات، باید به شکل خودکار و مستقیم نام‌های مرتبط با شرکت‌ها و گروه‌های آنها را به کاربر عرضه کند. (Cunningham, 2004)

نمونه‌هایی از کاربرد استخراج اطلاعات در عرضه محتوا در پایگا‌ه‌ها

ـ پیگیری اخبار: از نمونه‌های استخراج اطلاعات است که به شکل خودکار نوع خاصی از وقایع را از منابع خبری رهگیری می‌کند. این برنامه مبتنی بر استخراج ساختار موجودیت‌ها مانند: مردم، شرکت‌ها، نام‌ها و روابط میان آنها است. از دیگر وظایف عمومی این‌گونه از برنامه‌ها، پیگیری شیوع بیماری‌ها و وقایع تروریستی، از منابع خبری است.

ـ مراقبت مشتری: هر بنگاه مشتری‌مدار، بسیاری از شکل‌های داده‌های ناساختاریافته از تعاملات مشتری را گرد می‌آورد. برای مدیریت مجموعه باید به شکل دقیق با پایگاه دادگان بنگاه و هستی‌شناسی تجارت یکپارچه باشد. این عامل، مسائل جالب استخراج اطلاعات مانند: تعیین نام محصول و اوصاف محصول از رایانامه مشتری، پیوند رایانامه مشتری به معامله خاص در بانک فروش، استخراج نام تاجر خاص از صورت حساب فروش، استخراج پیشینه‌های اصلاح‌شده از فرم‌های بیمه،  استخراج حالات مشتری از فحوای مکالمات تلفنی، و استخراج اوصاف محصولات هم‌ارزش از توصیفات متنی محصول را بر عهده دارد. (Sarawagi, 2007, pp. 264-265)

چگونگی استخراج محتوا برای پایگاه‌های اسلامی

برای استخراج اطلاعات از منابع رقمی در حوزه علوم اسلامی به منظور تهیه محتوای پایگاه‌های اسلامی عرضه‌کننده اطلاعات درباره موضوع‌های خاص، به ایجاد نظامی هوشمند نیاز است. نظام‌های هوشمند استخراج اطلاعات با استفاده از مکانیزم‌های یادگیری ماشینی (7)، امرزوه بیشتر مورد اقبال واقع شده است. یادگیری ماشین مجموعه­ای از نمونه اسناد را که به دسته­های خاص طبقه­بندی شده است (داده­های آموزشی)، برای آموزش به ماشین استفاده می­کنند و ماشین به گونه خودکار طبقه‏‌بندی‌کننده­‌هایی بر اساس این داده­های آموزشی ایجاد می­کند.

در این شیوه، ماشین با نمونه‌هایی که یک متخصص خبره در حوزه موضوعی به آن عرضه می‌کند، با طبقه‌بندی‌ها، موجودیت‌ها، روابط میان آنها و نیز ساختارهای اطلاعاتی آشنا می‌شود، به طوری که می‌تواند به شکل خودکار و هوشمند اطلاعات را از متون ساختارنیافته استخراج نموده و به کاربر عرضه کند.

با تعریف دقیق موضوعات دلخواه و آموزش نمونه‏هایی برای ماشین، می‏توان متون مرتبط با آن موضوع را در میان نرم‏افزارهای تولیده‌شده در حوزه علوم اسلامی یا دیگر منابع رقمی پیدا کرد.

پس از آنکه نمونه‌های یادگیری به ماشین عرضه شد و ماشین توانست بر پایه نمونه‌های عرضه‌شده اطلاعات مطلوب را  استخراج کند، یک شخص خبره کار ماشین را بررسی نموده و کاستی‌های کار ماشین را اصلاح می‌کند و به ماشین باز می‌گرداند تا این کاستی‌ها در کارش تکرار نشود. به این ترتیب، دقت کار ماشین به درصد بالایی خواهد رسید.

پس از این کار، نیاز به پایگاه دادگانی است که انباشتی از محتواها و متون ماشین‌خوان در موضوعات علوم اسلامی است. این متون را می‌توان از پایگاه‌های گوناگون که در این زمینه فعالیت می‌کنند، گرد آورد یا با ایجاد تفاهم‌نامه‌ای درگاهی ایجاد کرد که ماشین بتواند به همه دادگان آن پایگاه‌ها دسترسی داشته‌ باشد و محتوای مطلوب کاربران را به آنها عرضه کند.

یک توافق کلی برای عرضه دادگان در یک پایگاه جامع، بدون نیاز به انجام هیچ ‌تعهدنامه یا نصب برنامه‌ای خاص و یا تغییر در نظام‌های اطلاعاتی و حتی رابط کاربری پایگاه، می‌تواند زمینه‌ای فراهم سازد تا پایگاه‌های اسلامی از یک سو محتواهای خود را به شکل ساختارمند به کاربر عرضه کنند و از سوی دیگر، ظرفیت‌هایی که در محتواهای خود برای دانش‌های میان‌رشته‌ای وجود دارد، توسط ماشین هوشمند کشف نموده و به کاربران خود عرضه کنند. همچنین پایگاه‌های اسلامی با این‌کار می‌توانند از داده‌های دیگر پایگاه‌ها به شکل ساختاریافته و منظم سودجویند.

نتیجه‌گیری

در این مقاله، راه‌های گوناگون برای ورود اطلاعات و محتوای پایگاه‌های اسلامی بررسی شد. شیوه رقمی‌سازی، یعنی تایپ یا اسکن محتواهای چاپی، به سبب وقت‌گیر و پرهزینه بودن، مناسب و به صرفه دانسته نشد. استفاده از شیوه‌های میان‌کنش‌پذیری؛ یعنی الگوهای تعهدنامه، برداشت اطلاعات و گردآوری نیز به سبب نبود زیرساخت‌های مناسب در ایران و نیاز به متجانس بودن نظام‌های اطلاعاتی مورد استفاده در پایگاه‌های اسلامی، توان پیاده‌سازی در پایگاه های اسلامی را ندارد. به همین سبب، استفاده از شیوه‌های هوشمند مبتنی بر پردازش زبان طبیعی برای استخراج خودکار اطلاعات از پایگاه دادگان محتوای علوم اسلامی و عرضه اطلاعات به شکل دسته‌بندی‌شده به کاربر، مناسب‌ترین راه پیشنهاد می‌شود. این پیشنهاد با توجه به مطالعات و ایجاد راه‌کارهای فنی در گروه متن‌کاوی نور وابسته به مرکز تحقیقات کامپیوتری علوم اسلامی و وجود متون رقمی قابل توجه در پایگاه‌ها و مراکز اسلامی پیشنهادی، قابل مطالعه و پیاده‌سازی به نظر می‌رسد.

پی نوشت ها:

1. Co-Searching.
2. Harvesting.
3. Gathering.
4. Interoperablity.
5. OCLC.
6. Worldcat.
7. machine learning.

منابع:

اطلاعات تکميلي

  • تاریخ انتشار نسخه چاپی: دوشنبه, 25 شهریور 1392
  • صفحه در فصلنامه: صفحه 58
  • شماره فصلنامه: فصلنامه شماره 43
بازدید 35096 بار
شما اينجا هستيد:خانه فهرست موضوعی فصلنامه شماره 43 (تابستان 1392) تولید محتوای پایگاه‌های اسلامی به شکل خودکار