واژگان کلیدی: یکپارچهسازی محتوا، میانکنشپذیری، پردازش زبان طبیعی، دستهبندی خودکار، استخراج خودکار اطلاعات.
مقدمه
امروزه به سبب فزونی اطلاعات رقومی، صحت و دقت بازیابی و بهسامان کردن محتوا ضرورت یافته است؛ به گونهای که متخصصان گوناگون علم، از عالمان رایانه و حوزه علم اطلاعات و دانششناسی گرفته تا زبانشناسی، فلسفه، روانشناسی و متخصصان حوزههای موضوعی گوناگون برای سرعت، صحت و دقت اطلاعات بازیابیشده کاربران در پایگاههای رقومی تحت طرح کلی «پردازش زبان طبیعی» با هم در تعاملاند. هدف این طرح، فراهم آوردن زمینههایی است که رایانه به جای شناخت مجموعه رمزها (کدها)، مفاهیم زبانی را مانند انسان بفهمد و پردازش کند. این طرح کلی، دربردارنده طرحهای خاص بسیار است که یکی از آنها دستهبندی خودکار متون است. از کارکردهای مهم دستهبندی خودکار متون میتوان به استخراج اطلاعات از متون اسناد گوناگون و عرضه در پایگاه به شکل دستهبندیشده اشاره کرد. این فن، ابزار مناسبی برای عرضه محتوا در پایگاههای اسلامی است؛ زیرا از یک سو، محتواهای منابع معتبر در زمینه علوم اسلامی به شکل رقومی و ماشینخوان موجود است و میتوان با استفاده از فنون دستهبندی خودکار، متون را پردازش و اطلاعات را استخراج کرد؛ به عبارت دیگر، برای تهیه محتوا برای پایگاههای اسلامی، نیاز به بازنویسی مطالب و گردآوری به شکل دستی نیست؛ بلکه این کار را میتوان به کمک فنون پردازش زبان طبیعی انجام داد.
از سوی دیگر، اتصال مستقیم کاربران به متون دست اول و گردآوردن اطلاعات به گونه مستقیم از آن، برای ایشان یقینآورتر خواهد بود. از این گذشته، با استفاده از این کار، محتواها با سرعت بیشتر به کاربران عرضه میشود و فرایند بارگذاری اطلاعات در پایگاه بسیار کمتر میشود و از این رو، کاربران با فاصله بسیار کم با محتواهای بهروز مواجه میشوند. این امر نیز برای افزایش آگاهی و دانشِ جویندگان اطلاعات در این حوزه موضوعی سودمند است.
در این مقاله، به چگونگی پرداختن به دستهبندی خودکار متون برای استخراج اطلاعات از بانکهای اطلاعاتی و عرضه در پایگاهها و زمینهها و ضرورت آن پرداخته خواهد شد.
شیوههای تهیه محتوا
شاید بتوان گفت تهیه محتوا برای کتابخانهها و پایگاههای منابع علمی رقومی، از مهمترین چالشهای به شمار میرود؛ زیرا نوع و کیفیت محتوا است که کاربران را به استفاده از یک کتابخانه رقمی سوق میدهد. برای تهیه محتوا در کتابخانههای رقمی، راههای گوناگون وجود دارد:
- • رقمی سازی؛
• گردآوری منابع رقمی شده.
هر یک از این دو نیز خود دارای اقسام گوناگون است. رقمیسازی، یا از طریق رقمی کردن منابع چاپی ممکن است و یا از طریق تولید منبع رقمی از آغاز (به شکل تایپ متون).
تبدیل منابع و آثار گوناگون چاپی به شکل رقومی، هزینههای بسیار دارد. افزون بر این، گاه رقمیسازی منابع، تنها با یکبار هزینه کردن محقق نمیشود؛ بلکه نیاز به پشتیبانی مالی مدام دارد. در سال 2000 میلادی طرحی در کتابخانهای در دانشگاه ییل با هدف سنجش زمان و هزینه صرفشده برای رقمیسازی مقالهها اجرا شد. نتایج آن طرح اینگونه بود: زمان صرفشده برای کپی، اسکن و دوبارهخوانی و اصلاح، ثبت شد. متوسط هزینه به ازای هر صفحه، 12/4 دلار.
کارشناسان علت پرهزینه بودن رقمیسازی را نیازمند بودن مقالهها دارای تصاویر زیاد به دقت و انجام مراحل بیشتر، و دچار مشکل شدن فرایند OCR به سبب پایین بودن کیفیت قلمهای قدیمی میدانند. متوسط هزینههای رقمیسازی چنین آورده شده است:
فرآیندها |
مجموعههای ترکیبی به ازای هر نمونه |
اقلام منفرد به ازای هر صفحه |
مجموعه عکس به ازای هر عکس |
کتابها/ جزوهها به ازای هر صفحه |
رقمیسازی |
35/9 دلار |
30/5 دلار |
60/7 دلار |
30/4 دلار |
تولید فراداده |
60/10 دلار |
40/10 دلار |
85/5 دلار |
60/5 دلار |
موارد دیگر |
40/11 |
20/17 دلار |
45/13 دلار |
55/3 دلار |
مجموع |
35/31 دلار |
90/32 دلار |
90/26 دلار |
45/13 دلار |
افزون بر هزینه رقمیسازی، هزینههای نگهداری نیز بسیار بالا است. (نبوی، 1384، ص 155)
استفاده از منابع رقمی شده نیز خود اقسام گوناگون دارد که میتوان آن را چنین بر شمرد: جستجوی همزمان،(1) برداشت(2) و جمعآوری(3) (علیپورحافظی، 1389، ص 124).
گردآوری محتوا در ﻫﺮﯾﮏ از سه الگوی یادشده، ﻧﯿﺎزﻣﻨﺪ اﺳﺘﻔﺎده از ﺗﻔﺎﻫﻢﻧﺎﻣﻪﻫﺎ و ﻓﺮادادهﻫﺎیی اﺳﺖ ﮐﻪ ﻣﺘﻨﺎﺳﺐ ﺑﺎ هر یک از الگوهای پیشگفته ﻗﺎﺑﻞ اﺳﺘﻔﺎدهاند. این سه الگو برای استفاده از منابع رقمیشده را که با تفاهم و همکاری پایگاهها یا کتابخانههای رقمی گوناگون انجام میشود، یکپارچهسازی یا میانکنشپذیری(4) مینامند.
میانکنشپذیری، از شیوههای تهیه منابع برای کتابخانهها است که در آن کتابخانههای گوناگون بر پایه قراردادی تفاهم میکنند که محتوای خود را به اشتراک بگذارند؛ به گونهای که کاربرانی که وارد هر یک از کتابخانهها میشوند، بتوانند از محتوای کتابخانه دیگر استفاده کنند. اطلاعات به اشتراک گذاشتهشده ممکن است تنها محدود به فرادادهها شود؛ اما گاه متن کامل را نیز به اشتراک میگذارند. شرکت اوسیالسی (5)، ورلدکت (6) را که نمونهای از نظام میانکنشپذیر است، عرضه کرده است. ورلدکت، بیش از 25 سال پیش راهاندازی شده است و نظامی را پایه گذارده که در آن کتابخانهها در سراسر جهان اطلاعات کتابشناسی خود را در بستر ورلدکت به اشتراک میگذارند.
چنانکه پیشتر گفته شد، میانکنشپذیری بر پایه الگوهای ذیل انجام میگیرد:
- ـ تعهدنامه؛
- ـ برداشت؛
- ـ گردآوری.
در الگوی تعهدنامهای، گروهی از سازمانها توافق میکنند که خدماتشان با ویژگیهایی مطابقت داشته باشد که غالباً از استانداردهای رسمی انتخاب شدهاند. تعهدنامه، در نمونههایی است که کتابخانه رقمی موضوعات جستجو را به انبارهای جداگانه و دور از هم بفرستد و نتایج را جمعآوری، ترکیب و به کاربر نمایش دهد. دو نظام خدماتدهنده و خدماتگیرنده، در این الگو به کار میروند. خدماتدهنده متعهد میشود که محتوا را بهروز نگهدارد و به پرسوجوها پاسخ دهد. خدمات گیرنده نیز متعهد میشود که به کاربران نهایی متصل شود و درخواستهایی از کاربران دریافت و ارسال نماید و درخواستهای رسیده از خدماتدهنده را دریافت و ترکیب کند و سرانجام آنها را به کاربر نهایی نمایش دهد.
شیوه دیگر برای انجام این الگو، با نصب یک میانافزار صورت میگیرد. میانافزار، ارتباط با خدماتدهندهها و کاربر را بر عهده میگیرد تا کاربر بتواند از طریق میانافزار و بدون نیاز به هر گونه ارتباط با خدماتدهنده، به منابع در مجموعهای دیگر دسترس یابد.
بازیابی شخصی و خلاصهسازی تصاویر، فیلمها و زبان منابع، طرحی است در دانشگاه کلمبیا که در یک الگوی تعهدنامهای انجام میشود.
اما در خصوص الگوی برداشت باید گفت که دشواری ایجاد تعهدنامههای عظیم، انگیزهای برای ایجاد گروهایی رهاتر از کتابخانههای رقمی شد. در الگوی برداشت، نیازی به هماهنگکردن و نصب نرمافزار خاصی نیست؛ بلکه بر پایه توافقاتی که میان پایگاههای عرضه محتوا صورت میگیرد، یک پایگاه میتواند از محتوای پایگاه دیگر برداشت و به کاربران خود عرضه کند.
بر پایه الگوهای گردآوری از میان کنشپذیری، پایگاهها میتوانند محتوای دلخواه را از فضای وب گردآوری و در پایگاه خود عرضه کنند. این الگو، مستلزم رعایت حقوق مالکیت معنوی است و رعایت نکردن این حقوق، سبب بروز مشکلات حقوقی خواهد شد.
ضرورت یکپارچهسازی خدمات در کتابخانههای رقمی
کارشناسان، ضرورت یکپارچهسازی خدمات عرضه محتوا را این گونه بیان میکنند:
امروزه، رفتار اطلاعجویی کاربران، در قیاس با گذشته تغییر بسیار محسوسی یافته است؛ به گونهای که کاربران برای دستیابی به اطلاعات بیشتر به سراغ وب میروند و برای نیازهای اطلاعاتی خود در این بستر، در پی پاسخهایی میگردنند. از سویی نیز موتورهای جستجوگر و دیگر ابزارهای بازیابی اطلاعات در محیط وب سبب شدهاند تا کاربرانی از یک مجرا به دنیایی از اطلاعات دسترسی داشته باشند. از این رو، ضروت ایجاب میکند که نظامهای اطلاعاتی که برای پاسخگویی به نیازهای اطلاعاتی تخصصی کاربران ایجاد شدهاند، بتوانند به صورت یکپارچه پاسخگوی نیازهای اطلاعاتی کاربران باشند؛ به این معنا که نظامهای اطلاعاتی از هر نوعی که باشند، از نظامهای اطلاعاتی نسخ خطی گرفته تا نشریات تخصصی، طرحهای پژوهشی سازمانها و کتابخانههای رقمی، برای حفظ جایگاه اطلاعاتی خود در چرخه دانش باید یکپارچه شوند و به کابران خدمات ارائه کنند. در چنین شرایطی، جستجوی منفرد و مجزای این نظامهای اطلاعاتی کاری بیهوده و زمانبر است که از حوصله انسان حاضر در عصر فناوری اطلاعات خارج است. ادغام برخی از پایگاههای اطلاعاتی بزرگ با یکدیگر، مانند ادغام پایگاههای اطلاعاتی ایبرری در پایگاه اطلاعاتی پروکویست و نیز ایجاد ابزراهایی برای ایجاد دستیابی یکپارچه به محتواهای اطلاعاتی پایگاههای اطلاعات علمی، مانند آتنز و شیبولیث، نشان از اهمیت یکپارچهسازی و دستیابی یکپارچه به نظامهای اطلاعاتی علمی دارند (علیپور حافظی، 1391، ص 524).
بنابراین، یکپارچهسازی، هم برای کاربران در دستیاری آسان و سریع و در قالب درگاهی واحد و هم برای صاحبان پایگاهها و کتابخانههای رقمی بسیار سودمند خواهد بود.
ناکارآمدی الگوهای یکپارچهسازی عرضه محتوا در پایگاههای اسلامی
تهیه منابع با استفاده از سه الگوی یکپارچهسازی، هم هزینهبر است و هم نیازمند هماهنگ کردن و پذیرش تفاهمنامههایی میان پایگاههای گوناگون و استفاده از فرادادههای ویژه هر یک از شیوهها، و از سوی دیگر نیز در ایران این دست از یکپارچهسازیها به گونه کامل اجرا نشده و امری کمسابقه شمرده میشود. از این رو، برای دستیابی به منابع و گردآوری منابع رقمی آماده در پایگاههای اسلامی، شاید راههای سادهتری نیز وجود داشته باشد. یکی از این راهها، استخراج خودکار محتوا از پایگاه داده به شکل هوشمند است.
استخراج خودکار محتوای دستهبندی شده از منابع گوناگون
گسترش و تنوع محتواهای رقمی درباره علوم اسلامی از یک سو و نیز تعامل و تشریک موضوعها و مسائل در علوم گوناگون و گسترش مطالعات و بررسیهای میانرشتهای از سوی دیگر، سبب شده است فراهمآوری و تهیه محتوا برای پایگاههای اسلامی هم بسیار وقتگیر شود و هم نا کامل و غیر فراگیر.
بر این اساس، باید در پی راهی بود که از یک سو وقت و هزینه کمتری برای آن صرف شود و از سوی دیگر، فراگیرنده تمام مباحث و رشتهها و رستههای موجود در علوم اسلامی باشد.
یکی از راههای گردآوری محتوا، استفاده از فنون دادهکاوی است. «دادهکاوی» یا فرایند کشف دانش در پایگاه داده، زمینهای نسبتاً نوظهور است و پل ارتباطی میان علوم آمار، مهندسی کامپیوتر، هوش مصنوعی، شناسایی آماری الگو، یادگیری ماشین و محاسبات رایانشی نرم به شمار میرود. دادهکاوی، فرآیند یا طرحی نسبتاً پیچیده برای شناسایی الگوها و مدلهای صحیح، قابل استناد و مفید در حجم وسیعی از داده است؛ به گونهای که این الگوها و مدلها برای انسانها قابل درک باشند.
هدف نهایی متنکاوی، فراهمسازی امکان کشف دانش از محتواهای متنی، صوتی یا بصری است. متنکاوی زیرمجموعه تخصصی از کشف دانش از دادهها است که میتوان آن را به منزله فرایند محاسبهای استخراج اطلاعات سودمند از حجم عظیمی از دادههای رقمی از طریق تبدیل دادههای ساده و بیساختار به دادههای غنیتر و نیز از طریق شناسایی انگارههای معناداری که در دادههای نهفته است، تعریف کرد.
مهمترین مراحل دادهکاوی یا همان کشف دانش از میان دادهها، عبارتاند از:
- استخراج و گردآوری دادهها از چندین منبع؛
- یکپارچهسازی و حذف دادههای زاید (تصفیه)؛
- تشکیل انبار داده بر پایه دادههای تصفیهشده؛
- اجرای عملیات دادهکاوی؛
- تفسیر و نمایش نتایج (عابدینی & مینایی، 1390، ص 7).
هدف از پردازش هوشمند متون، ایجاد نرمافزارهایی است تا فرایند استخراج اطلاعات از متون را همانند فرایند درک انسان انجام و ذهن وی را یاری دهند. با وجود تواناییهای درکی بسیار بالا در انسان، ذهن او در فرایند درک اطلاعات با حجم بسیار بالا که امروزه بسیار اتفاق میافتد، دارای محدودیتهای جدی است. نخست اینکه به سبب محدودیت ظرفیتی «حافظه کوتاهمدت» انسان در پردازش اطلاعات دریافتی، ذهن وی توانایی کنار هم گذاشتن و درک درست این اطلاعات را ندارد. در مواردی هم که درک حجم بالای اطلاعات بین افراد تقسیم میشود، به جهت فردی و متفاوت بودن درک ایشان، نمیتوان به درکی منسجم رسید. دوم اینکه به جهت محدودیتهای سلولهای عصبی، سرعت ذهن انسان در انتقال و پردازش حجم بالای اطلاعات، پایین است و این در حالی است که امروزه سرعت تولید اطلاعات بشری، بسیار بالا است.
درباره متون اسلامی، تربیت و دستیابی به افراد خبره به تعداد کافی برای درک حجم بسیار بالای این متون خیلی گران، زمانبر و گاهی غیر ممکن است. حال با استفاده از توانمندیهای بسیار بالای رایانه در پردازش اطلاعات با حجم بسیار، نقاط ضعف ذهن انسان را میتوان جبران کرد. (مینایی، 1390، ص 6).
استخراج خودکار اطلاعات از منابع ساختارنیافته با طراحی بر مبنای مفاهیم روشن دادگان ساختاریافته، مسیر تازهای برای کاوشها، سازماندهی و تحلیل داده گشوده است. این حوزه از استخراج اطلاعات در پردازش زبان طبیعی ریشه دارد. استخراج اطلاعات، عبارت از تعیین خودکار و عرضه ساختاریافته اطلاعات مرتبط در اسناد یا استخراج بخشهای خوب تعریفشده اطلاعات مرتبط با مجموعههایی از اسناد است.
نظام استخراج اطلاعات، اسناد و مدارک زبان طبیعی را پردازش میکند و مجموعهای از فقرات مرتبط را مییابد. میزان فزایندهای از اطلاعات در شکل اسناد رقمی در دسترس است و نیاز به پرازش معقول و هوشمند چنین متونی استخراج اطلاعات را به حوزهای سودمند از پردازش زبان طبیعی (ان ال پی) بدل ساخته است.
نظامهای استخراج اطلاعات، دارای وظایف ذیلاند:
- ـ یافتن و فهمیدن روابط محدود بخشهای متن؛
- ـ گردآوری اطلاعات از قطعات گوناگون متن؛
- ـ ایجاد نمایشهای ساختاریافته از اطلاعات مرتبط.
استخراج اطلاعات، از بازیابی اطلاعات متفاوت است. یک نظام بازیابی، اطلاعات متون مرتبط را مییابد و آنها را به کاربر عرضه میکند؛ اما یک برنامه استخراج اطلاعات، متون را تحلیل و تنها اطلاعات خاص از آن متون را که مطلوب کاربر است، به او عرضه مینماید.
برای نمونه، یک کاربر نظام بازیابی اطلاعات که اطلاعاتی درباره تشکلهای گروه تجاری در فروشگاههای کالاهای کشاورزی میخواهد، باید فهرستی از واژگان مرتبط را وارد کند و پس از آن، مجموعهای از اسناد (مانند مقاله و روزنامه) را که دربردارنده محتوایی در این بارهاند، دریافت میکند. کاربر باید این اسناد را بخواند و خودش اطلاعات درخواستی را از آنها استخراج کند. در مقابل، یک نظام استخراج اطلاعات، باید به شکل خودکار و مستقیم نامهای مرتبط با شرکتها و گروههای آنها را به کاربر عرضه کند. (Cunningham, 2004)
نمونههایی از کاربرد استخراج اطلاعات در عرضه محتوا در پایگاهها
ـ پیگیری اخبار: از نمونههای استخراج اطلاعات است که به شکل خودکار نوع خاصی از وقایع را از منابع خبری رهگیری میکند. این برنامه مبتنی بر استخراج ساختار موجودیتها مانند: مردم، شرکتها، نامها و روابط میان آنها است. از دیگر وظایف عمومی اینگونه از برنامهها، پیگیری شیوع بیماریها و وقایع تروریستی، از منابع خبری است.
ـ مراقبت مشتری: هر بنگاه مشتریمدار، بسیاری از شکلهای دادههای ناساختاریافته از تعاملات مشتری را گرد میآورد. برای مدیریت مجموعه باید به شکل دقیق با پایگاه دادگان بنگاه و هستیشناسی تجارت یکپارچه باشد. این عامل، مسائل جالب استخراج اطلاعات مانند: تعیین نام محصول و اوصاف محصول از رایانامه مشتری، پیوند رایانامه مشتری به معامله خاص در بانک فروش، استخراج نام تاجر خاص از صورت حساب فروش، استخراج پیشینههای اصلاحشده از فرمهای بیمه، استخراج حالات مشتری از فحوای مکالمات تلفنی، و استخراج اوصاف محصولات همارزش از توصیفات متنی محصول را بر عهده دارد. (Sarawagi, 2007, pp. 264-265)
چگونگی استخراج محتوا برای پایگاههای اسلامی
برای استخراج اطلاعات از منابع رقمی در حوزه علوم اسلامی به منظور تهیه محتوای پایگاههای اسلامی عرضهکننده اطلاعات درباره موضوعهای خاص، به ایجاد نظامی هوشمند نیاز است. نظامهای هوشمند استخراج اطلاعات با استفاده از مکانیزمهای یادگیری ماشینی (7)، امرزوه بیشتر مورد اقبال واقع شده است. یادگیری ماشین مجموعهای از نمونه اسناد را که به دستههای خاص طبقهبندی شده است (دادههای آموزشی)، برای آموزش به ماشین استفاده میکنند و ماشین به گونه خودکار طبقهبندیکنندههایی بر اساس این دادههای آموزشی ایجاد میکند.
در این شیوه، ماشین با نمونههایی که یک متخصص خبره در حوزه موضوعی به آن عرضه میکند، با طبقهبندیها، موجودیتها، روابط میان آنها و نیز ساختارهای اطلاعاتی آشنا میشود، به طوری که میتواند به شکل خودکار و هوشمند اطلاعات را از متون ساختارنیافته استخراج نموده و به کاربر عرضه کند.
با تعریف دقیق موضوعات دلخواه و آموزش نمونههایی برای ماشین، میتوان متون مرتبط با آن موضوع را در میان نرمافزارهای تولیدهشده در حوزه علوم اسلامی یا دیگر منابع رقمی پیدا کرد.
پس از آنکه نمونههای یادگیری به ماشین عرضه شد و ماشین توانست بر پایه نمونههای عرضهشده اطلاعات مطلوب را استخراج کند، یک شخص خبره کار ماشین را بررسی نموده و کاستیهای کار ماشین را اصلاح میکند و به ماشین باز میگرداند تا این کاستیها در کارش تکرار نشود. به این ترتیب، دقت کار ماشین به درصد بالایی خواهد رسید.
پس از این کار، نیاز به پایگاه دادگانی است که انباشتی از محتواها و متون ماشینخوان در موضوعات علوم اسلامی است. این متون را میتوان از پایگاههای گوناگون که در این زمینه فعالیت میکنند، گرد آورد یا با ایجاد تفاهمنامهای درگاهی ایجاد کرد که ماشین بتواند به همه دادگان آن پایگاهها دسترسی داشته باشد و محتوای مطلوب کاربران را به آنها عرضه کند.
یک توافق کلی برای عرضه دادگان در یک پایگاه جامع، بدون نیاز به انجام هیچ تعهدنامه یا نصب برنامهای خاص و یا تغییر در نظامهای اطلاعاتی و حتی رابط کاربری پایگاه، میتواند زمینهای فراهم سازد تا پایگاههای اسلامی از یک سو محتواهای خود را به شکل ساختارمند به کاربر عرضه کنند و از سوی دیگر، ظرفیتهایی که در محتواهای خود برای دانشهای میانرشتهای وجود دارد، توسط ماشین هوشمند کشف نموده و به کاربران خود عرضه کنند. همچنین پایگاههای اسلامی با اینکار میتوانند از دادههای دیگر پایگاهها به شکل ساختاریافته و منظم سودجویند.
نتیجهگیری
در این مقاله، راههای گوناگون برای ورود اطلاعات و محتوای پایگاههای اسلامی بررسی شد. شیوه رقمیسازی، یعنی تایپ یا اسکن محتواهای چاپی، به سبب وقتگیر و پرهزینه بودن، مناسب و به صرفه دانسته نشد. استفاده از شیوههای میانکنشپذیری؛ یعنی الگوهای تعهدنامه، برداشت اطلاعات و گردآوری نیز به سبب نبود زیرساختهای مناسب در ایران و نیاز به متجانس بودن نظامهای اطلاعاتی مورد استفاده در پایگاههای اسلامی، توان پیادهسازی در پایگاه های اسلامی را ندارد. به همین سبب، استفاده از شیوههای هوشمند مبتنی بر پردازش زبان طبیعی برای استخراج خودکار اطلاعات از پایگاه دادگان محتوای علوم اسلامی و عرضه اطلاعات به شکل دستهبندیشده به کاربر، مناسبترین راه پیشنهاد میشود. این پیشنهاد با توجه به مطالعات و ایجاد راهکارهای فنی در گروه متنکاوی نور وابسته به مرکز تحقیقات کامپیوتری علوم اسلامی و وجود متون رقمی قابل توجه در پایگاهها و مراکز اسلامی پیشنهادی، قابل مطالعه و پیادهسازی به نظر میرسد.
پی نوشت ها:
منابع:
1. Cunningham, H. (2004). Information Extraction, Automatic. 1-22.2. Sarawagi, S. (2007). Information Extraction. Foundations and Trends in Databases, 261-377.3. عابدینی، ح. و مینایی، ب. (1390): «کاربردهای دادهکاوی در علوم اسلامی». رهآورد نور، ش 34، ص 7-12.4. علیپور حافظی، م. (1391): «بررسی هزینه سازگاری یکپارچهسازی سامانههای اطلاعاتی کتابخانههای دیجیتال». پردازش و مدیریت اطلاعات، دوره 28، ش 2، ص 523-543.5. همو. (1389): «مدلهای مبادله اطلاعات در کتابخانههای دیجیتال». مطالعات ایرانی کتابداری و اطلاعرسانی، دوره 26، ش 1، ص 122-133.6. مینایی، ب. (1390، خرداد): «فناوری پردازش هوشمند متون اسلامی، نتایج ارزشمندی را در عرصه تولید علم به دنبال دارد». رهآورد نور، ش 34، ص 5-6.7. نبوی، ف. (1384): کتابخانههای دیجیتالی؛ مبانی نظری، محتوا، ساختار، سازماندهی، استانداردها و هزینه ها. مشهد، سازمان کتابخانهها، موزهها و مرکز اسناد آستان قدس رضوی.