ره آورد نور

Skip to content

زمینه های ایجاد شبکه ای مفهومی از فراداده های تولیدشده در مرکز تحقیقات کامپیوتری علوم اسلامی

سه شنبه, 31 شهریور 1394 ساعت 14:56

نویسنده:

مصطفی علیمرادی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

اندازه قلم کاهش اندازه قلم افزایش اندازه قلم
چاپ
پست الکترونیکی

این مورد را ارزیابی کنید

1
2
3
4
5

(2 رای‌ها)

چکیده

اطلاعات، سبب برتری است و هر شخص یا گروهی که اطلاعات بیشتری داشته باشد، توانمندتر از دیگری خواهد بود. در میان مراکز اسلامی، مرکز تحقیقات کامپیوتری علوم اسلامی (نور)، با داشتن دادگان عظیم متنی در حوزه علوم اسلامی، و نیز فراداده های برگرفته از این متون، جایگاهی ویژه دارد که برای استفاده بهتر از آن، هماهنگ سازی و تقویت آن منابع مرجع، لازم به نظر می رسد. در این مقاله، گونه های فراداده های موجود در مرکز برشمرده شده، راهکارهای ایجاد شبکه ای مفهومی از آن بیان می شود.

کلیدواژگان: فراداده ها، اصطلاح نامه، هستی شناسی، شبکه مفهومی، پیوند دادگان، بازیابی هوشمند.

مقدمه

فراداده ها، اطلاعات ساختاریافته ای اند که برای یافتن، دسترسی، کاربرد و مدیریت منابع اطلاعاتی، به ویژه در یک محیط رقمی به کار می آید. یک فرانمای فراداده، متشکل از مجموعه ای از پیش تعریف شده از عناصری است که اطلاعات درباره یک منبع را دربردارد. مرکز تحقیقات کامپیوتری علوم اسلامی (نور)، در تولید منابع گوناگون، محدود به رقمی سازی و تولید شکل الکترونیک منابع اسلامی نبوده، بلکه پژوهشگران مرکز با تحلیل و پژوهش متن، اطلاعات گوناگون موجود در آن، از قبیل: نمایه های موضوعی، چکیده ها، اعلام مختلف و اطلاعات کتاب شناختی را نیز استخراج نموده، برای بازیابی آسان و سریع اطلاعات، به کاربر عرضه کرده اند. این اطلاعات استخراج شده از متون، اکنون به شمار قابل توجهی رسیده و دریغ است که آن همه اطلاعات که با مشقت و هزینه بسیار حاصل شده، در محدوده همان یک نرم افزار باقی بماند. از سوی دیگر، گردآوری و استفاده از این فراداده ها، کار آسانی نیست و به متخصصان موضوعی و کارشناسان علوم اسلامی و نیز متخصصان علوم رایانه یا کارشناسان فنی نیاز دارد. ازاین رو، شاید ایجاد و راه اندازی واحد یا بخشی لازم است تا سامان دادن این کار از وظایف آن باشد. ضرورت این امر، وقتی روشن خواهد شد که آشکار شود این فراداده ها اگر به خوبی اصلاح و تعدیل شود، می توان از آن ها برای سازمان دهی منابع مرکز به شیوه های نوین، سود جست. این فراداده ها قابلیت آن را دارد تا با استفاده از آن ها به استخراج دانش جدید از متون و محتواهای گوناگون دست یافت.

گونه های فراداده در برنامه های مرکز نور

اصطلاح ها

منظور از آن، فهرست اصطلاح ها و عبارات رایج و کلیدی علوم اسلامی و گونه های مختلف مرتبطات و مترادفات آن هاست؛ مانند آنچه از متون که به شیوه فرهنگ موضوعی، فرمت تخصصی و درختواره آمده است.

اصطلاح های استخراج شده از متون، از چند منظر، ارزشمندند: نخست اینکه آن ها پس از فرآوری متون (استخراج چکیده/موضوع) به دست آمده اند و با متن رابطه ای فرالفظی دارند. دوم اینکه میان اصطلاح های استخراج شده و واژگان همایندشان و نیز مترادفات و مرتبطاتشان، روابط تعریف شده ای وجود دارد. این ویژگی ها سبب می شود شبکه ای از روابط میان اصطلاح ها بتوان تصور کرد که هرچند در بدایت بسیار ساده است، اما می توان با استفاده از فراداده ها یا ابزارهای دیگر، مانند اصطلاح نامه ها، بر غنای آن افزود.

افزون بر اصطلاح هایی که در برنامه های معجم موضوعی، تخصصی و درختواره در دست است، در بسیاری از معاجم لفظی نیز فراداده هایی استخراج و عرضه شده اند که در ذیل به آن اشاره می شود:

- 62 باب فقهی با تعیین تعداد کاربرد آن ها در متون در نرم افزار جامع فقه اهل البیت(ع) 2؛
- 143 قاعده فقهی با تعداد کاربرد در متون در نرم افزار جامع فقه اهل البیت(ع) 2؛
- 13667 اصطلاح فقهی با نمایش ریشه و تعدادشان در متون و اتصال به متن در جامع فقه اهل البیت(ع) 2؛
- امکان تعیین معانی و مرادفات، واجبات و مستحبات، محرمات و مکروهات، حکم و آثار، احکام، شروط و اعتبارات، اقسام و انواع، تنازعات و سایر، در درختواره، در نرم افزار درختواره فقه؛
- عرضه فرهنگ نامه فلسفی در نرم افزار ابن سینا و حکمت اسلامی با امکان اتصال به متون؛
- عرضه گلاسوری (فرهنگ نامه) کلامی با 10351 واژه با امکان اتصال به متن در کتابخانه کلام اسلامی؛
- برچسب گذاری برخی اصطلاح ها و مفاهیم در متن، مانند برخی متون به کاررفته در نرم افزار نورالسیره 2؛
- دسته بندی منابع احادیث تفسیری در چهار گروه عمده و رده بندی هر یک از این گروه ها به گروه های خاص تر در نرم افزار کتابخانه احادیث تفسیری؛
- دسته بندی احادیث معصومان(ع) در کتب تفسیری درباره آیات قرآن در پنج دسته: فضایل، تفسیر واژه ها، آداب قرائت آیه یا سوره و همچنین، بیان اسباب نزول، تفسیری، موضوعی، مرتبط در جامع تفاسیر نور (نورالانوار 3)؛
- امکان نمایش آیات الاحکام با تعیین باب فقهی و نمایش آیات مرتبط با هر باب؛
- کاربرد واژگان یا مشتقات آن در: آیات، احادیث، شعرها و نیز مترادف، مَثَل، مجاز و معرب واژگان در قاموس النور 2 که برای 2032 واژه در بخش «پژوهش در لغت» در دسترس است؛
- فهرست احادیث (42 حدیث)، اشعار (15 بیت/ قطعه)، ادعیه (13 دعا)، امثال (202) با نمایش متنی که این فهرست ها در آن به کاررفته و فهرست مصادری (356 مصدر) که متن نهج البلاغه در آن به کاررفته است؛
- 49541 کلیدواژه گوناگون با اتصال به متن در نرم افزار سیره معصومان(ع).

آیات در کتب

- مشخص شدن «آیات در کتب» در همه منابع عرضه شده در نرم افزارها: ارزش این فراداده، برای استخراج اطلاعات بسیار است؛ برای نمونه، می توان همه متونی که آیه واحدی در آن ها به کاررفته، به هم مرتبط کرد. و مرتبط کردن تفاسیر و ترجمه ها با متونِ دربردارنده آیات نیز از جمله کارهای قابل اجراست.
- عرضه فهرستی از آیات با تعداد کاربرد در متن و نمایش متنی آیات به کاررفته در برنامه دانشنامه علوی (140 آیه)؛
- فهرستی از واژگان پیراسته و صحیح و گونه های مختلف املائی آن ها.

دسته بندی آثار

- دسته بندی کتب کلامی در 9 زیرموضوع در نرم افزار کتابخانه کلام اسلامی؛
- دسته بندی آثار در 14 زیرموضوع در نرم افزار تراث 2.

اعلام

- سیاهه ای از اَعلام گوناگون و با تعیین نوع آن ها، در برنامه هایی که با شیوه معجم موضوعی، فرمت تخصصی، دانشنامه (مانند دانشنامه علوی) و درختواره سامان یافته اند؛
- بانک اعلام اشخاص گاه با ثبت تبار و فرزندان و شجره خانوادگی، مانند آنچه در نور السیره و درایه النور آمده؛
- بانکی از جای نام ها با امکان وصل به نقشه و نام های قدیم و فعلی، مانند آنچه در نرم افزار جغرافیای جهان اسلام آمده؛
- عَلَم جای ها با وصل به متن و نقشه در نرم افزار جغرافیای جهان اسلام عرضه شده است؛
- عَلَم گوناگون با موضوعات: زمان، مکان و ترکیب های زمانی و مکانی با نمایش اعلام مرتبط و وصل به نقشه در نورالسیره؛
- عَلَم جای ها با نمایش عَلَم های مرتبط و وصل به نقشه در نورالسیره؛
- عنوان عَلَم مکان با نمایش اَعلام مرتبط و وصل به تصویر نقشه؛
- 925 عَلَم جای با قابلیت وصل به تصاویر نقشه در نورالسیره 2؛
- عَلَم اشخاص، در بخش «معجم رجال حدیث» با ارجاع نام های گوناگون اشخاص واحد و رفع اشتراک، در نرم افزار درایه النور؛
- عَلَم اشخاص با توصیف: نام، تقویم، لقب، کنیه، شهرت، تاریخ، ولادت و تاریخ وفات در برخی نمونه ها. مشخص کردن راویانی که از ایشان نقل کرده اند و راویانی که ایشان از آن ها نقل کرده اند، طبقه، ترجمه، سند، ترکیب، ارتباط و نظایر آن در بخش اسناد و قسمت راوی نرم افزار درایه النور؛
- عَلَم گوناگون با تعیین کتاب، جلد و صفحه ای که عَلَم در آن به کار رفته است، در نرم افزار تراجم و کتاب شناسی؛
- فهرست اَعلام با نُه گونه دسته بندی، یعنی: اشخاص، زمان ها، ستارگان، گروه ها، جای ها، گیاهان، کتاب ها، حیوانات و معادن، در برنامه دانشنامه علوی؛
- تعیین نوع تکواژه از جهت: امکنه، اشخاص، کتب، قواعد، آیات و سور، ادعیه، ازمنه، فرق، احادیث و غیراعلام بودن در بخش فهرست و ذیل تکواژه در نرم افزار درختواره فقه.

کتب مرجع رقمی شده در حوزه اَعلام

- رقمی سازی و ماشین خوان کردن منابع مرجع که برای شناخت ریخت شناسی و معناشناسی واژگان سودمندند؛ مانند: فرهنگ های لغت، فرهنگ اعلام، فرهنگ جای های جغرافیایی(گازترها)، اصطلاح نامه ها (تزاروس ها)، فرهنگ نامه ها و اصطلاح شناسی ها (گلاسوری ها) در نرم افزارهای گوناگون. این منابع اگر به گونه صحیح فرمت گذاری شوند، یعنی اجزای گوناگون آن به شکل تعریف شده برای ماشین درآید، از ابزارهای بسیار سودمند در ساماندهی و بازیابی اطلاعات خواهند بود؛
- بیش از 2 میلیارد منابع متنی شامل منابع نرم افزارها و پایگاه مجلات.

عناوین کتب و مقالات

فهرست عنوان های به کاررفته در کتاب ها و مقالات نیز از جمله فراداده های موجود در برنامه های مرکز است که سودمندی شان فراوان است؛ مثلاً می توان میان آن ها و موضوع ها/چکیده های استخراج شده در برنامه های موضوعی هماهنگ سازی ایجاد کرد و بر غنای آن ها افزود. در ذیل، بیشتر به این مسئله پرداخته می شود.

فهرست مطالب و بازیابی اطلاعات

از آنجا که ایجاد فراداده های گوناگون، مانند: نمایه، چکیده و حاشیه نویسی، بسیار پُرهزینه و زمان بر است، آسان ترین، سریع ترین و کم هزینه ترین راه برای دسترسی به داده، استفاده از اطلاعاتی است که در یک سند به شکل پیشینی موجود است. این اطلاعات شامل: عنوان کتاب، نویسنده، موضوع، فروست، سال نشر، ناشر، رده بندی کنگره، محل نشر، چکیده، کلیدواژگان و فهرست عناوین مندرج در اثر.

این اطلاعات، بدون نیاز به تحلیل و پژوهش و زحمت، در اختیار کارشناسان و متخصصان بازیابی اطلاعات قرار دارد که برای دسترسی به یک منبع، بسیار ارزشمندند. در این جا به نقش عنوان های مندرج در آثار در بازیابی اطلاعات خواهیم پرداخت.

عنوان های مندرج در یک کتاب یا مقاله یا هر اثر دیگر، چون توسط خود مؤلف تهیه شده است، به میزان فراوانی نشان دهنده محتوایند؛ زیرا شاید بتوان گفت هیچ کس به اندازه نویسنده یک اثر، به محتوای آن آگاه نیست. پس، یک عنوان، بیش از هر نمایه و اصطلاح دیگری، نشانگر و نماینده آن محتواست. ازاین رو، اصطلاح های به کاررفته در آن نیز نمایندگی محتوا را خواهند داشت. بنابراین، در کنار تکواژه ها، نمایه ها و چکیده های موجود در برنامه ها، می توان از عنوان های مندرج و نیز اصطلاح ها و واژگان آن در بازیابی اطلاعات سود جست.

از دیگر موارد استفاده عنوان های مندرج در کتاب ها، استفاده از این اطلاعات در جستوجوست. می توان از اصطلاح های موجود در عنوان های ارائه شده در کتاب ها، در ساخت موتور جست وجوی مفهومی بهره جست؛ به این گونه که با عرضه بانک اطلاعات عناوین مندرج به موتور جست وجو، همین که کاربر اصطلاحی را وارد نوار جست وجو کرد، بر اساس آن بانک اطلاعات عرضه شده، موتور جست وجو، اطلاعات درخواستی کاربر را بررسی نموده، محتوای مطلوب او را با ترتیبی خاص عرضه کند.

همچنین، با استفاده از عنوان های مندرج در آثار، می توان نظام مرتبطات را در نتایج جست وجو به کاربر عرضه کرد؛ در قالب هایی مانند: اصطلاح های مرتبط و همچنین بنگرید(see also).

عناوین مندرج، در دسته بندی منابع نیز بسیار سودمندند؛ به این گونه که منابعی که فهرست عنوان های به کاررفته در آن ها از دید لفظی یا معنایی مشابهت دارند، در یک دسته جای بگیرند. به این ترتیب، حتی منابعی که در موضوع های مختلف نوشته شده اند، اما درباره مسئله ای خاص به پژوهش پرداخته اند نیز در یک دسته قرار خواهند گرفت؛ درحالی که بر پایه دسته بندی های رایج آن ها، هیچ گاه در یک رده جای نمی گیرند؛ برای نمونه، اگر به مسئله پیوند اعضاء هم از دید پزشکی نگریسته شود و هم از دید اخلاقی و هم از دید فقهی، این پژوهش ها در سه طبقه پزشکی، اخلاقی و فقهی جای می گیرند؛ اما با ملاحظه فهرست مندرجات آن ها، شاید بتوان مشترکات و مشابهت هایی ملاحظه کرد و در دسته بندی به عناوین مندرج آن ها نیز توجه کرد.

راهکارهای استفاده از فهرست عنوان های مندرج

از آن جا که فهرست عناوین مندرج در کتاب ها به شکل ماشین خوان و آماده وجود دارد و هر یک از این عناوین به جایگاه خاص خود در متن متصل است، نیمی از راه رفته شده است. شاید عمده ترین کار معاونت پژوهش این باشد که اطلاعات مورد نیاز معاونت فنی برای استخراج نمایه از این عناوین را در اختیار ایشان قرار دهند و نیز در هماهنگی میان این اطلاعات و چکیده ها، نمایه ها و تکواژگان در کنار متخصصان فنی باشند.

دسته بندی فراداده های موجود در مرکز

* تکواژه:

* نمایه:

* فراداده های توصیفی (کتاب شناختی):

* دیگر فراداده ها:

امروزه بازیابی اطلاعات، حوزه ای گسترده است که در رشته های گوناگون علمی، از جمله: علوم رایانه، علوم شناختی، هوش مصنوعی، علوم اطلاعات و دانش شناسی، زبان شناسی و دیگر دانش ها به آن پرداخته می شود. در نظام های نوین بازیابی اطلاعات، از ابزارهای گوناگون برای یابش اطلاعات استفاده می شود. کارهایی مانند: نمایه سازی، چکیده نویسی، استفاده از اصطلاح نامه ها و نظام های رده بندی، از جمله ابزارهایی است که از گذشته به شکل های گوناگون در بازیابی اطلاعات، بسیار به کار گرفته می شدند. در این روزگار نیز از فنون گوناگون و به شکل خودکار و هوشمند، مانند متن کاوی و پردازش زبان طبیعی، برای بازیابی اطلاعات سود می جویند.

کارکرد اصلاح و هماهنگ سازی و تکمیل اصطلاح ها

اصلاح و هماهنگ سازی و نیز تکمیل اصطلاح ها و واژگان موجود در برنامه های مرکز با استفاده از منابع مرجع موجود، کارکردهایی سودمند و موثر در جست و جو و هوشمندسازی بازیابی دارد که در ادامه به آن پرداخته خواهد شد.

1. تأثیر اصلاح ریشه و چگونگی آن در نظام جست وجو و هوشمندسازی بازیابی اطلاعات

کاربرد واژگان به منزله واحد زبانی، مشکلات و ابهام بسیاری در تحلیل ریخت شناستی در پی دارد. شاید این واقعیت قابل انکار نباشد که زبان عربی، برخلاف زبان لاتین، زبان منعطفی است و ترکیبات، حروف تعریف، حروف اضافه و ضمایری که به صفات، اسم ها و فعل ها می چسبد، به ندرت قابل تشخیص است. برای حل این ابهام، تجزیه پیش پردازش، روش بسیار سودمندی است که شامل یافتن ریشه هر واژه است که میان پیشوند و پسوند جدایی می افکند تا ریشه واژگان معین شود. این پیشوند و پسوند، در فرهنگ واژگان دسته بندی شده است. ازآن جاکه بسیاری از واژگان عربی یک ریشه سه یا چهارحرفی دارند، حفظ واژه دست کم سه حرف به ما اجازه می دهد تا یکپارچگی معنا را حفظ کنیم. بنابراین، تجزیه ساده را برای معین کردن پسوند و پیشوندی که به واژه افزوده می شود، انجام می دهند.

یکی از مقدمات ایجاد نظام های معنایی و هوشمند، مشخص کردن نوع رابطه و میزان نزدیکی معنایی میان واژگان و اصطلاحات است. ریشه و بن واژگان و اصطلاح ها، نقشی اساسی در یافتن معنای دقیق آن ایفا می کند؛ به گونه ای که بیشتر قاموس ها و فرهنگ های لغت، برای تعریف و تعیین معنای یک واژه، نخست ریشه آن را بیان می کنند و سپس، به تعریف آن می پردازند. همچنین، با دانستن ریشه واژگان، همه اصطلاح های هم ریشه که دارای معانی نزدیک به هم اند، بازشناخته می شود و از این طریق، می توان به رابطه ترادفی میان واژگان گوناگون پی برد.

داشتن ریشه واژگان، در جست وجوی ریشه یاب بسیار سودمند است. اگر موتور جست وجو از فناوری ریشه یابی استفاده کند، می تواند حیطه جست وجو را گسترش دهد و دیگر کلمات هم ریشه را نیز کاوش کند.

2. تأثیر اصلاح اَعلام و چگونگی آن در نظام جست وجو و هوشمندسازی بازیابی اطلاعات

یکی از وظایف مهم در استخراج اطلاعات، تشخیص موجودیت اَعلام (Named Entity) و طبقه بندی آن است. اَعلام، از مهم ترین واحدهای اطلاعاتی در متن است که با شناخت کامل آن می توان به بیشترین اطلاعات متن دست یافت؛ زیرا شخص به همراه خود، اطلاعاتی مانند: مکان تولد، منصب، قرن، دوران، حکومت یا رژیم خاص، کتاب یا آثار و ابنیه را دارد.

با مشخص شدن اَعلام در یک متن، می توان روابطی چون شغل، تابعیت، مکان (شامل: مکان تولد، مرگ، تحصیل، کار، رخدادهایی که توسط آن علم به وجود آمده) و زمان (شامل زمان: تولد، مرگ، خلق اثر و...) او را تعیین کرد.

بر همین اساس، شاید بتوان گفت، اَعلام در متن مانند یک حلقه زنجیرند که با استخراج یا تعیین آن در متن، اطلاعات دیگر نیز مانند حلقه های دیگر زنجیر به همراه آن استخراج خواهند شد.

با توجه به این اطلاعات که اَعلام در متن به همراه دارند، موجودیت اعلام و دسته بندی آن، شاید نخستین گام در شکل دهی شبکه های معنایی و نظام های هوشمند بازیابی اطلاعات باشد.

با تعیین اَعلام و اطلاعات مرتبط با آن در یک متن، کاربر با جست وجوی یکی از حلقه های زنجیر به اطلاعات دیگر نیز دست خواهد یافت؛ یعنی اگر در یک متن، برای نمونه، درباره «حرکت جوهری» سخن به میان رفته و کاربر از کلیدواژه «ملاصدرا» برای یافتن اطلاعات استفاده کند، این متن نیز به او عرضه خواهد شد: «به سبب ملازمت حرکت جوهری با ملاصدرا». این امر، خود جست وجو را مفهومی تر و ریزش اطلاعات را به حداقل خواهد رساند.

3. تأثیر اصلاح اصطلاحات و چگونگی آن در نظام جست وجو و هوشمندسازی بازیابی اطلاعات

اصطلاح های هر علم، نشانگر حضور آن علم در یک متن به شمار می رود؛ به این معنا که اگر در یک متن، سخن از «خرده فرهنگ» رود، در واقع، این اصطلاح نماینده حوزه «علوم اجتماعی» است. یا اگر سخن از «حرام» به کار رود، آن متن وارد حوزه «فقه» شده است. بر این اساس، توجه به این اصطلاح ها و مشخص کردن راجح و مرجوح هر اصطلاح، توان تشخیص موضوع متن را بهتر و آسان تر می کند و توان تشخیص موضوع متن، از یک سو بازیابی اطلاعات را آسان تر خواهد کرد و از سوی دیگر، دسته بندی متن با شیوه های خودکار و ماشینی با سرعت بیشتر و هزینه کمتر فراهم خواهد کرد.

با اصلاح و هماهنگ کردن اصطلاح ها با استفاده از یک اصطلاح نامه استاندارد، می توان افزون بر دریافت اصطلاح های راحج و مرجوح، اطلاعات دیگری مانند اصطلاح: رأس، اعم، اخص، وابسته و اصطلاح هم بسته را نیز دریافت کرد. این اطلاعات، علاوه بر روشن کردن جایگاه معنایی یک اصطلاح، سلسله ای از اصطلاح های دیگر را که ارتباطی با آن دارند نیز قابل استخراج خواهد نمود و این اطلاعات، هم در جست وجوی مفهومی و هم در ایجاد شبکه های عصبی هوشمند (شبکه های درهم تنیده و مرتبط) به کار خواهد آمد.

4. تأثیر کامل کردن نظام ها (سیستم های مترادف، متضاد، مرتبط و مشترک) و چگونگی آن در جست وجو و هوشمندسازی بازیابی اطلاعات

نظام های مترادفات، متضادات و مرتبطات که در کنار فرهنگ لغات یا به شکل مستقل عرضه می شود، از منابع بسیار باارزش در شناخت اصطلاح ها و رفع ابهام از آن هاست. یکی از بزرگ ترین مشکلات در بازیابی اطلاعات، وجود ابهام در برخی اصطلاح ها به سبب اشتراکات لفظی و معنوی است. با استفاده از نظام های مرتبطات، متضادها و مرتبطات، می توان برخی از این ابهامات را رفع کرد.

همچنین، نظام های مزبور، در ساخت یک شبکه به هم پیوسته از اصطلاح ها، نیز بسیار به کار خواهد آمد. در واقع، از نخستین گام ها در ایجاد یک شبکه مفهومی از اصطلاح ها یافتن مترادفات، متضادها و مرتبطات است.

همچنین، امروزه بسیاری از موتورهای جست وجو، برحسب این مترادفات و مرتبطات، نظام پیشنهاددهنده (recommender system) ترتیب داده اند که متناسب با جست وجوی کاربر، نتایج مرتبط و مشابه را نیز به کاربر پیشنهاد می کنند. این امر خود سبب جامعیت نتایج جست وجو برای کاربر خواهد بود.

5. تأثیر اصلاح رده بندی و چگونگی آن در جست و جو و هوشمندسازی بازیابی اطلاعات

رده بندی ها، پیشینه ای بسیار طولانی در سامان بخشی به اطلاعات بشر دارد. این رده بندی ها در روزگار کنونی که حجم اطلاعات بسیار بزرگ شده و به تعبیری به حد انفجار اطلاعات رسیده است، ضرورتی بیشتر خواهد داشت. حداقل کارکرد رده بندی ها، تقسیم اطلاعات به اندازه های کوچک تر و قابل جست وجوتر است. این تقسیم باید مبنایی داشته باشد که همه دانشمندان و پژوهندگان آن را بپذیرند. در غیر این صورت، امکان بازیابی اطلاعات برای همه مقدور نخواهد شد. همچنین، رده بندی ها باید پویایی نیز داشته باشند تا حوزه های نوپدید از دانش را نیز در بربگیرند.

به این منظور، باید رده بندی اطلاعات در وهله نخست دارای معیار پذیرفته باشد و در وهله دوم، باید به شکل دائم دسته بندی های نوبه نو بر متون انجام شود تا دربرگیرنده حوزه های جدید دانش و مطالعات میان رشته ای نیز باشد.

تأثیر این رده بندی، در ایجاد نظام های هوشمند سازمان دهی و بازیابی اطلاعات روشن است؛ زیرا برای استخراج اطلاعات یک متن، نخست باید حوزه موضوعی (رده موضوعی) آن مشخص شود و در گام های بعدی بتوان زیرموضوعات و اصطلاح های خاص آن را نیز استخراج کرد.

جست وجو نیز زمانی دقیق تر و جامع و مانع خواهد بود که کاربر یا موتور جست وجو بتواند حوزه و دامنه موضوعی جست وجوی خود را تشخیص دهد. در این صورت، دیگر نتایج نامرتبط به کاربر عرضه نخواهد شد.

مشکلات پیش رو در کاربرد فراداده های توصیفی موجود در مرکز

فراداده های گوناگونی که در مرکز در دست است، باوجود تنوع و فراوانی، برای کاربرد در یک نظام جامع سازمان دهی محتوا و ایجاد زمینه ای برای ایجاد شبکه معنایی در زمینه مفاهیم و اصطلاح های علوم اسلامی، با استفاده از آن فراداده ها موانع و مشکلات بسیار وجود دارد.

برخی از این مشکلات را می توان این گونه برشمرد:

- نبود مبنایی واحد برای استخراج و دسته بندی اصطلاح ها در نرم افزارهای گوناگون به سبب متفاوت بودن پژوهشگران در آن ها: برخی فراداده های استخراج شده از متون به سبب اینکه پژوهشگران بر پایه مبانی گوناگون و با سلایق متفاوت به تحلیل متون پرداخته اند، دارای کیفیت و کمیت گوناگون است. ازاین رو، شاید این فراداده ها به شکل یکسان حکایتگر و توصیف کننده متون و منابع نباشند.
- کامل نبودن ارتباط میان اصطلاح های گوناگون: ارتباطات اصطلاح ها به یکدیگر به سبب آنکه در محدوده منابع خاص بود و بنابراین، در میان اصطلاح های محدود صورت گرفته است، همه اصطلاح های مرتبط با اصطلاح خاص را بیان نمی کند. از سوی دیگر، ارتباط میان اصطلاح ها در محدوده همین منابع و مفاهیم مطرح در آن، کامل و جامع به نظر نمی رسد.
- معیّن نبودن نوع ارتباطات میان اصطلاح های گوناگون: در بیان ارتباط میان اصطلاح ها، هیچ گونه تصریحی بر نوع ارتباط وجود ندارد؛ به عبارت دیگر، وجه ارتباط میان اصطلاح ها فقط در ذهن و اندیشه پژوهشگرانی است که اصطلاح ها را به هم مرتبط دانسته اند و کاربر نمی تواند به آن پی ببرد.
- ذوقی و بومی بودن برخی دسته بندی ها و مجموعه سازی های صورت گرفته در واژگان: تبویب و دسته بندی واژگان در ذیل عنوان های کلی تر، در نمونه هایی ذوقی یا محدود به متن یا علم خاص است. ازاین رو، برخی از همین اصطلاح ها در دانش ها یا منبع های دیگر، توسط پژوهشگر دیگر ذیل عنوان و باب متفاوتی آمده اند.
- قابل استخراج نبودن برخی اصطلاح ها و عبارت های هم سنخ یا همسان از حیث طبقه، نوع و یا معنا به شکل خودکار به سبب فرمت نخوردن آن ها: بسیار از منابع مرجع، مانند فرهنگ های لغت، اصطلاح شناسی ها، فرهنگ اصطلاح ها و دانشنامه های مکتوب، به سبب آنکه مداخل و تعاریف آن ها فرمت مدخل یا تعریف نخوردند، باوجود ماشین خوان و رقمی شدنشان، به سرعت و به شکل ماشینی قابل استخراج نیستد؛ درحالی که این منابع، سودمندترین دستمایه برای ایجاد هستی شناسی ها و شبکه های معنایی اند.
- دشواربودن هماهنگی برخی از گونه های اصطلاح ها، مانند تکواژه ها، نمایه ها و اَعلام به سبب ناهمسان بودن کاربردشان و رعایت نشدن روشی واحد در کاربرد آن ها در نرم افزارهای گوناگون: اگر شیوه های تحلیل محتوا و پژوهش متن در مرکز تحقیقات کامپیوتری علوم اسلامی را عبارت از معجم موضوعی، معجم تخصصی (فرمت تخصصی)، درختواره و دانشنامه بدانیم، اصطلاح های مشابه به کاررفته در هر یک از این شیوه ها، به سادگی و به گونه دقیق، منطبق بر هم نیستند.

برای نمونه، مقایسه اصطلاح «الصوم» در برنامه «معجم موضوعی بحار الأنوار» با «درختواره فقه» این گونه است:

راه های برون رفت از مشکلات کاربرد فراداده های مرکز

- گردآوری کامل فراداده ها و دسته بندی آن ها بر اساس نوع، موضوع و پروژه: شاید نخستین گام برای استفاده از فراداده های غنی که حاصل تلاش چندین ساله پژوهشگران است، گردآوری آن در یک مجموعه واحد و دسته بندی آن تحت مقوله های عامل و حوزه های گوناگون علوم اسلامی باشد. با این کار، هم می توان به میزان فراداده ها در هر حوزه پی برد و کاستی ها را با استفاده از منابع و اصطلاح نامه ها تکمیل کرد و هم استفاده و کاربرد آن در پروژه ها و طرح های گوناگون آسان می شود.
- یکسان سازی فراداده ها از دید ریخت شناسی (شکل نگارش): به سبب آنکه استخراج برخی از اصطلاح ها بر پایه متون گوناگون است، شکل نگارش آن ها نیز در هر برنامه، متفاوت بوده است. ازاین رو، با گردآوری این فراداده ها در یک مجموعه، این اصطلاح های یکسان، تکرار خواهند شد. بنابراین، لازم می نماید که همه این شکل های واژگان به یک شکل واحد پذیرفته بازگردانده شود.
- پالایش و پیراستن فراداده ها از تکرارها، واژگان خنثا و دیگر خطاهای موجود: برخی اصطلاح های مطرح در نرم افزارها، ارزش نمایه های ندارند؛ برای نمونه، واژگانی چون فعل ها و ادات، در بسیاری از زبان ها نمایه به شمار نمی روند.
- اصلاح برخی لغزش ها در دسته بندی های واژگان: در بانک فراداده ها باید بر پایه استانداردهای پذیرفته و معتبر اصطلاح ها را دسته بندی کرد و دسته بندی های پیشین را، اگر مبتنی بر این استانداردها نیستند، در نظر نگرفت.
- هماهنگ و یکدست کردن اصطلاح ها و نیز رفع کاستی ها در فهرست اصطلاح ها با استفاده از اصطلاح نامه های چندزبانه و نیز اصطلاح نامه های تولیدی مرکز اطلاعات و مدارک اسلامی (اسلامیک داک): اصطلاح نامه های تولیدشده در هر حوزه، مهم ترین و معتبرترین اسناد برای ساخت نمایه ها و انواع شبکه های معنایی از اصطلاح هایند. ازاین رو، استفاده از اصطلاح نامه ها در سامان مندکردن فراداده ها، بسیار سودمند است و نیز سبب سرعت بخشیِ کاربرد این فراداده ها در برنامه های گوناگون و نیز ساخت هستی شناسی های موضوعی می شود.
- روشن کردن ارتباط میان فراداده هایی که مرتبط دانسته شده اند: با توجه به استخراج حجم بسیار چکیده ها و برگرفتن کلیدواژگان و نمایه ها از آن، بسیار مناسب است هر یک از این فراداده ها به گونه چندبعدی ارتباطشان با دیگر اصطلاحات و عبارت ها معیّن شود. برای این منظور، شاید مناسب ترین شیوه آن باشد که با استفاده از اصطلاح نامه ها و فهرست واژگان هر شاخه از علوم اسلامی، فراوانی واژگان استاندارد، واژگان مرجوح و نیز رده یا طبقه هر اصطلاح مشخص شود. افزون بر طبقه (کلاس)، اوصاف، ویژگی ها و افراد، آن اصطلاح نیز باید ذکر گردد.
به این ترتیب، شبکه ای درهم تنیده از اصطلاحات شکل می گیرد که درنتیجه آن جست وجوها مفهومی و امکان تولید دانش و موضوعات تازه از محتوا و اطلاعات عرضه شده با آسانی میسر می شود.
- همارایی کلیدواژگان و برساختن نمایگان: مانند بر ساختن نمایه «الحرکة الجوهری» با همارایی واژگان «الحرکة» و « الجوهر» برای استفاده استخراج مفاهیم و کلیدواژگان، تعیین همانندی (Co-occurrence) واژگان.
- دسته بندی موضوعی کتاب ها: برای دسته بندی خودکار.
- تعیین ویژگی های اصطلاح ها و عبارت ها در هر متن: برای برچسب گذاری خودکار متون، دسته بندی و خوشه بندی خودکار، تعیین ارتباط میان مفاهیم و اَعلام.
- برقراری ارتباط میان واژگان و نمایگان گوناگون: برای دسته بندی و خوشه بندی خودکار، ایجاد شبکه های مفهومی از اصطلاح ها و جست وجو.
- درختواره دانش: برای دسته بندی خودکار متون، شبکه های معنایی و جست وجو.

تکمیل اطلاعات موجود در مرکز با استفاده از منابع دیگر

- استفاده از اصطلاح نامه های چندزبانه و نیز اصطلاح نامه های تولیدی مرکز اطلاعات و مدارک اسلامی (اسلامیک داک)؛ مرکز اطلاعات و مدارک اسلامی با هدف تکمیل اصطلاح نامه علوم اسلامی و فرهنگ های مستند علوم، به مثابه چارچوب و پایه اساسی اطلاع رسانی نوین دینی، به تدوین اصطلاح نامه ها پرداخته و برای انجام این کار از متخصصان بسیار بهره برده است. از این روی، محصول کار این مرکز به ویژه در تدوین اصطلاح نامه ها، بسیار برای تکمیل اطلاعات فراداده ای مرکز سودمند خواهد بود.
- استفاده از فرهنگ لغت ها: از ابزارهای بسیار مهم در ایجاد شبکه های به هم پیوسته از مفاهیم، توجه به ریشه، مترادفات، متضادات و مشتقات اصطلاح ها و واژگان است. اصل و ریشه یک واژه، معنای دقیق آن را به دست می دهد و با علم به آن، می توان اصطلاح های مشتق شده از آن را نیز دریافت. مترادفات و متضادها نیز نقش عمده در فهم منظومه معنایی اصطلاح ها ایفا می کنند؛ به گونه ای که با شناخت مترادفات و متضادهای اصطلاح ها، واژگانی که معانی مشترک با یکدیگر دارند، به یکدیگر بازگرداند. گاه نیز با شناخت ضد یک اصطلاح، معنای دقیق آن روشن می شود. شاید اطمینان بخش ترین سند و منبع برای شناخت ریشه، مترادف و متضاد اصطلاح ها فرهنگ های لغت و قاموس ها باشند. با توجه به اینکه بسیاری از فرهنگ های لغت معتبر در نرم افزار قاموس 2 موجود است، شاید با کمترین صرف زمان و هزینه بتوان ریشه، مترادف و متضادهای واژگان و اصطلاح های موجود در مرکز را استخراج کرد و در یک مجموعه گردآورد.
- استفاده از فرهنگ اعلام جغرافیایی (گازترها): نام های جغرافیایی، از اطلاعات بسیار مهم در بازیابی اطلاعات شمرده می شوند؛ به گونه ای که بسیاری از اصطلاح ها و واژه های موجود در مرکز نور را همین نام ها تشکیل داده اند. با توجه به منابع بسیار در حوزه اَعلام جغرافیایی در نرم افزار جغرافیا و تراث 2 و برخی دیگر از برنامه ها و نیز بعضی فرهنگ های جدید و اطلس های جغرافیایی دیگر، می توان اَعلام جغرافیایی موجود در مرکز نور را تکمیل و به روز کرد.
- استفاده از فرهنگ اَعلام گوناگون در حوزه علوم اسلامی: اَعلام اشخاص، از مهم ترین واحدهای اطلاعاتی در متن است که با شناخت کامل آن، می توان به بیشترین اطلاعات متن دست یافت؛ زیرا شخص به همراه خود، اطلاعاتی مانند: مکان تولد، منصب، قرن، دوران حکومت یا رژیم خاص، کتاب یا آثار و ابنیه را دارد.
برنامه هایی چون: معجم رجالی، گنجینه روایات نور و یا جامع الاحادیث، اَعلام فراوان به دست می دهند که می توان با استفاده از فرهنگ های اَعلام اشخاص، آن را تکمیل کرد.
- استفاده از سرعنوان های موضوعی، فرهنگ های واژگان مترادف و متضاد، دائرة المعارف ها و فرهنگ های واژگان گوناگون: اساس نظام نوین سازمان دهی دانش، بر روابط مفاهیم و اصطلاح هاست. روابطی که در برنامه هایی مانند معجم موضوعی و درختواره عرضه شده، به شکل کلی و بدون تصریح به نوع رابطه است که شاید همه کاربران نتوانند به رابطه میان اصطلاح ها پی ببرند. ازاین رو، برای تکمیل روابط میان اصطلاح ها و تصریح به آن ها، می توان از طریق اصطلاح نامه ها، فرهنگ های لغت و منابعی ازاین دست سود جست.

کاربردهای فراداده های موجود در مرکز

چنان که پیش تر بیان شد، فراداده های استخراج شده از سوی پژوهشگران مرکز، تنها در محدوده یک برنامه خاص قابل استفاده نیستند، بلکه خارج از آن ها نیز بسیار سودمند خواهند بود. در این بخش از مقاله، کاربردهای این فراداده ها در دو شکل آنی و غیرآنی بیان خواهد شد.

الف ـ کاربردهای آنی

- استفاده از موضوع ها برای استفاده در خلاصه سازی خودکار: موضوع هایی که پژوهشگران از متون گوناگون استخراج کرده اند، خلاصه هایی استخراجی به شمار می روند و از این روی از آن ها می توان به منزله نمونه هایی آموزشی در یادگیری ماشین خلاصه ساز استفاده کرد.
- استفاده از فراداده ها در بهبود و تقویت نظام های بازیابی اطلاعات (جست وجو، مرور یا دسته بندی): برای کتابخانه های رقمی بزرگ یا کتابخانه هایی که محتوای آن ها محدود به موضوع های خاص است، نظام های جست وجوی ساده کافی نیست. امروزه، بیشتر چنین کتابخانه هایی نظام های جست وجو دارند که برای اصلاح و بهبود نظام جست وجوی ساده تلاش می کند. در اینجا راه هایی که چنین نظام هایی را ممکن است تعدیل و اصلاح کند تا بدون تغییر کل نظام، بهتر به کار آیند، وجود دارد. کتابخانه های رقمی بزرگ و برخی کتابخانه های با موضوع های خاص، چنین نظام هایی دارند. آن ها کمک های مصور (مانند: نقشه، طبقه بندی یا داده) فراهم و نتایج را بر پایه ارتباط به پرس وجوها مرتب می کنند. برخی دیگر شیوه ها که کتابخانه های رقمی ممکن است برای اصلاح نظام جست وجو به کار برند، عبارت اند از: ایجاد فراداده های گسترش پذیر، ابزارهایی برای باز صورت بندی پرس وجو، مرتب کردن نتایج منطبق با تجربه کاربران پیشین، یا دیگر دادگان و نمایه سازی پایگاه دادگان خارجی؛ اگر جست وجو به شبکه ها یا پایگاه دادگان دیگر بسط داده شده باشد.
با فراهم کردن طبقه بندی های داده که قابل جست وجو یا فهرست کردن عنوان هاست، کاربر می تواند آنچه را جست وجو می کند، ملاحظه کند تا به ایشان در صورت بندی انطباق بهتر پرس وجوها با نظام جست وجو کمک کند. مرتب کردن نتایج عرضه شده، به کاربران در مرور اطلاعات مرتبط تر در وهله نخست، کمک می کند. این کارها به گونه معمول، با مقایسه شماری از کلیدواژگان منطبق شده یا عرضه نتایج اغلب منطبق شده در وهله نخست، انجام می شود. دیگر شیوه که به واسطه آنها جست وجوهای ساده ممکن است اصلاح شود، ایجاد فراداده های اضافه شده به پایگاه دادگان به هنگام افزوده شدن بخشی از داده است. این فراداده ها به کاربر در فهم و تشخیص بهتر داده ها با استفاده از کلیدواژگانی که ممکن است توسط مؤلف حذف یا فراموش شده باشند، کمک می کند. این فراداده ها با اجرای کنترل املای واژگان پرس وجو و گذراندن آن از طریق اصطلاح نامه ها و اجرای جست وجوی مشابهت ها با پرس وجوی مشابه و مقایسه نتایج به دست آمده است.
سرانجام، برای کتابخانه هایی که محتوا و دادگان بسیار دارند، جست وجو از طریق پایگاه دادگان جانبی، مانند نمایه سازی درونی، ممکن است جست وجو را سریع تر کند. مطالعات نشان داده اند که کاربران به شکل تصاعدی هنگامی که پرس وجویشان در عرض سه دقیقه به نتیجه نمی رسد، ناشکیبایی می کنند. بنابراین، کتابخانه های رقمی نیاز به نگهداری روگرفتی از فراداده های پایگاه دادگان خارجی را دارند. وقتی چنین روگرفت های محلی جست وجو می شوند، محتوای آن ها تنها نیاز به غربال شدن برای محتواهای تکراری و غیرمرتبط دارد و بنابراین، نتایج ممکن است سریع تر از جست وجوی پایگاه دادگان خارجی به کاربر عرضه شود. معمولاً داده در کتابخانه های رقمی دو چیز به مثابه فراداده دارد، توصیف چکیده و فهرستی از کلیدواژگان. نظام پیشنهادی افزون بر این دو فهرستی از سرعنوان ها و واژگان پرکاربرد را ایجاد خواهد کرد. این کار، برای اطمینان از اینکه فراداده ها دربردارنده اطلاعات کافی برای توصیف کامل دادگان اند و اعتمادنکردن بر اینکه مؤلف آن داده ها کار دقیقی صورت داده است، انجام می شود.
- استفاده از فراداده ها برای استخراج فراداده های تازه با استفاده از الگوریتم ها متن کاوی (به شکل هوشمند و ماشینی): یکی از کارهای بسیار مهم در متن کاوی، استخراج اطلاعات گوناگون از متن به شکل خودکار است. استخراج اطلاعات، شامل: استخراج کلیدواژگان، استخراج چکیده، استخراج موجودیت اَعلام و یا استخراج مفاهیم گوناگون است. این کار بر پایه اصول و قواعد فنی گوناگون قابل انجام است. یکی شیوه های استخراج اطلاعات، بر پایه یادگیری ماشینی است؛ به این گونه که باعرضه نمونه هایی از مفاهیم کلیدواژگان به ماشین، آن را با مفاهیم و کلیدواژگان آشنا و آزموده می کنند. این نمونه های یادگیری را می توان تا آن اندازه به ماشین عرضه کرد که بتواند به شکل خودکار، از متون جدید، مفاهیم و کلیدواژگان مطلوب را استخراج کند.
- استخراج نمایه های متون گوناگون با استفاده از نمایه های استخراج شده از متون هم موضوع؛
- استخراج نمایه ها به گونه خودکار از متون با استفاده از فنون یادگیری ماشینی و وزن دهی و بسامد واژگان؛
- استفاده از فرهنگ لغات به کاررفته در نرم افزارها، به ویژه قاموس برای تعیین ریشه، مشتقات، مترادفات و متضادهای واژگان.

ب ـ کاربردهای غیرآنی

- استفاده از فراداده برای انجام کارهای مبتنی بر متن کاوی، مانند: دسته بندی خودکار متون، استخراج نمایه، خلاصه سازی و ایجاد نظام موجودیت نام؛
- استفاده از فراداده ها برای ایجاد شبکه معنایی: شاید بتوان گفت معنای یک مفهوم، از طریق ارتباط آن با دیگر مفاهیم تعیین می شود. ازاین رو، شبکه های معنایی در تعیین دقیق معانی مفاهیم بسیار مفیدند. معمولاً شبکه معنایی را این گونه تعریف می کنند: شبکه ای متشکل از مجموعه گره ها که با خطوط برچسب خورده به هم متصل اند. این گره ها، مفاهیم و خطوط روابط میان آن مفاهیم را نشان می دهند. شبکه های معنایی، نه تنها اطلاعات میان مفاهیم را نمایش می دهند، بلکه بازیابی وقایع مرتبط را نیز آسان می کنند.
برخی روابط استاندارد برای شبکه های معنایی عبارت اند از:

- رابطه نمونهٔ: الف، نمونه ای از ب است؛ اگر الف از مصادیق خاص مفهوم کلی ج باشد؛ مثلاً حسن، نمونه ای از انسان است.
- رابطه یک ... است: الف، یک ب است؛ اگر الف زیرمجموعه ای از مفهوم کلی تر ج باشد؛ مثلاً گنجشک، یک پرنده است.
- رابطه بخشی از ... است: الف، بخشی از ب را دارد؛ اگر مفهوم الف جزئی از مفهوم ب باشد؛ مثلاً گنجشک، دُم دارد.

- استفاده از فراداده ها برای ایجاد نظام هستی شناسی علوم اسلامی: هستی شناسی/هستی نگاری/هستان شناسی، از شیوه های نوین در سامان دهی دانش برای بازیابی اطلاعات و تولید دانش به شمار می رود که به سبب توجه به همه اقسام روابط میان مفاهیم، در حوزه بازیابی، هم دقیق و هم کامل عمل می کند و در حوزه تولید دانش و مطالعات میان رشته ای، بسیار سودمند است.

فراداده هایی که در مرکز تحقیقات کامپیوتری علوم اسلامی در دست است، برای آنکه به یک هستی شناسی علوم اسلامی یا برخی از حوزه های آن تبدیل شود، نیاز به تکمیل و اصلاح هایی دارد که در ذیل به برخی از آن ها اشاره می شود:

* بازنگری و بررسی دقیق داشته های مرکز از اطلاعات و داده هایی که از متون گوناگون استخراج شده یا امکان استخراج آن وجود دارد؛
* مجتمع کردن همه اطلاعات استخراج شده از متون و هماهنگ سازی میان آن ها و اعمال ربط و نسبت ها؛
* مرتبط کردن دیگر اصطلاح ها و واژگان مرتبط افزون بر مرتبطات و مترادفات موجود در نرم افزارهای گوناگون؛
* الزام مدیران طرح ها به استفاده و غنی ترکردن این مجموعه و افزودن بر اطلاعات و روابط و معانی آن، با توجه به موضوع طرح؛
* توجه به خودکارسازی در استخراج اطلاعات در برخی نمونه ها به جای/ در کنار کار انسانی؛
* اجرایی کردن طرح های پردازش متون که برخی نمونه های آزمایشی آن در معاونت فنی یا گروه متن کاوی نور صورت گرفته است؛
* اعمال نتیجه پژوهش ها و تحلیل هایِ متن در بهبود موتور جست وجوی نرم افزارها و پایگاه ها؛
* نظرخواهی از کاربران برای برگزیدن مرتبط ترین جست وجوها و اعمال آن برای جست وجوهای کاربران دیگر؛
* استفاده از پرس وجوهای کاربران در هر نشست در دسته بندی اطلاعات و غنی ترکردن مجموعه های استخراج شده از سوی محققان مرکز؛
* توجه به فهرست عنوان های مندرج در متون، به منزله نقطه های بازیابی تعیین شده مؤلف برای بازیابی آسان محتوا و برقراری ربط و نسبت ها میان عنوان های یکسان و مشابه؛
* استفاده بیشتر از اطلاعات آماده که در کتاب ها و مقالات عرضه شده، مانند موضوع، فروست کتاب ها و کلیدواژگان مقالات.