ره آورد نور

Skip to content

جایگاه جستجو در بازیابی اطلاعات در کتابخانه‏ های رقمی

یکشنبه, 27 اسفند 1391 ساعت 15:55

نویسنده:

مصطفی علیمرادی

اندازه قلم کاهش اندازه قلم افزایش اندازه قلم
چاپ
پست الکترونیکی

این مورد را ارزیابی کنید

1
2
3
4
5

(1 رای)

چکیده

کتابخانه‌های رقمی، به سبب دسترس‌پذیر کردن محتوا، فارغ از زمان و مکان، و به دست دادن راهکارهایی برای بازیابی سریع و آسان اطلاعات از میان انبوه منابع، به پژوهشگران و جویندگان اطلاعات بسیار کمک می‌کند. بی‌نیازی از فضای واقعی و نیاز کم به فضای مجازی سبب شده کتاب‌های فراوانی در کتابخانه‌های دیجیتال عرضه شود. حجم گسترده اطلاعات در این کتابخانه‌ها، مستلزم دسته‌بندی‌ها و سامان‌دهی محتوا است تا از یک سو بازیابی اطلاعات دقیق و کامل باشد و از سوی دیگر، نتایج ناخواسته عرضه نگردد.

یکی از راه‌های دست‌یابی به اطلاعات بدون ریزش کاذب و نتایج ناخواسته، جستجوی مناسب است. جستجو، سریع‌ترین و گاه دقیق‌ترین راه در رسیدن به مطلوب است.

کلیدواژگان: بازیابی اطلاعات، کلونی مورچگان، جستجوی مفهومی، جستجوی فازی، جستجوی نمونه‌مبنا، ورودی کاربران.

اشاره

جستجو، مشاهده نظام‌وار اطلاعات در یک پایگاه داده، با هدف مشخص کردن اصطلاحات یا اشیاء، و با معیارهای از پیش‌تعیین شده است. جستجو، به معنای عمل یافتن اشیای خاص در یک زنجیره معین از n واژه است.

همچنین شاید بتوان جستجو را عبارت از رفتارهای هدفمند کاربران برای یافتن اطلاعات مناسب یا مفید در تعامل با نظام‏های بازیابی اطلاعات (آی‏آر) (1) دانست. جستجوی اطلاعات، به سطح خردی از رفتار اشاره دارد که در تعامل با نظام‏های گوناگون بازیابی اطلاعات صورت می‏گیرد.

قابلیت‏های جستجو

جستجوی ساده: این شیوه از جستجو، اغلب از یک نوار جستجو تشکیل شده که در همه بخش‌های کتابخانه جستجو می‌کند. گاه یک یا چند دامنه می‌توان به آن افزود.

جستجوی پیشرفته: در روش پیشرفته، زمینه‌های جستجو متعدد می‌شوند و کاربر می‌تواند جستجوی خود را در زمینه‌هایی چون: عنوان، متن، نوع، نویسنده، موضوع، تاریخ و ناشر، محدود کند. کاربر می‌تواند این زمینه‌ها را با یکی از علائم بولی (و، یا، و نه) به هم مرتبط کند.

جستجوی عبارت: جستجوی عبارت به این معنا است که واژگان باید با همدیگر در یک نظم خاص یافته شود.

مجاوریابی: جستجو مجاور یا مجاوریابی، جایی است که پیوند ضعیف میان عبارت‏ها تعیین شده است؛ به گونه‌ای که کمتر بلافاصله با هم می‌آیند. برای نمونه، اصطلاح‏ها باید درون n واژه از یکدیگر ظاهر شوند.

کوتاه‏سازی واژه: کوتاه‏سازی، وقتی است که املای کامل یک عبارت یا واژه را نمی‏دانیم، برای جستجو آنچه از واژه که به آن علم داریم، وارد می‏کنیم و به ازای هر حرف که نمی‏دانیم، علامت «؟» می‏گذاریم: «مش؟ت» یا «مضاع؟». در برخی از موتورهای جستجو، به ازای بیش از یک حرف، علامت ستاره «*» گذاشته می‏ شود.

استفاده از عملگرهای بولی (و، یا، و نه): استفاده از عملگرهای بولی، تاریخی طولانی در خدمات جستجو دارد. عملگرهای بولی در نظام‏های گوناگون جستجو در شکل‏های مختلف ظاهر می‏شوند. برای درخواست این‌که همه اصطلاح‏های واردشده در فقره بازیابی‌شده حاضر باشد، از عملگر «و» و برای این‌که دست کم برخی از اصطلاح‏های وارد‌شده حاضر باشد، از عملگر«یا» استفاده می‌شود.

هنگامی که اصطلاح با علامت «+» علامت‏گذاری می‏شود، به این معنا است که اصطلاح باید حاضر باشد؛ معادل «و»، و هنگامی که با «–» علامت گذاری می‏شود، معنایش آن است که اصطلاح نباید حاضر باشد؛ معادل «نه».

در برخی از موتورهای جستجو، برای عرضه عملگرهای بولی، نوار گفتگو که در آن اصطلاح باید وارد شود، محتواهایی از پنجره با و، یا، نه به هم مرتبط می‏شوند؛ به طوری که عملگرهای خاص ثابت شده است یا با منوی آبشاری قابل تعیین‏ اند.

گاه نیز یک حالت دستوری که عملگرها توسط کاربر در نوار جستجو نوشته می‏شوند، انعطاف‏پذیرترین حالت است؛ اما کاربر باید با آن آشنا باشد.

جستجوی زمینه‏ ای (فیلدی): ساختار زمینه‏ای، این‌گونه است که جستجو ممکن است در زمینه‏های پدیدآور، عنوان، موضوع، توصیفگر و .... باشد.

امکان مرور نمایه: فهرستی از نمایه‌های موجود در متن که با استفاده از اصطلاح‌نامه‌ها استخراج شده است، به کاربر عرضه می‌شود. این قابلیت، مناسب کاربرانی است که اصطلاح‌های یک علم یا املای صحیح واژگان را نمی‌دانند.

رتبه‏ بندی نتایج بازیابی‌شده: نتایج یافته‌شده موتورهای جستجو ممکن است بر پایه ربط به عبارت جستجوشده، تاریخ، بیشتر دیده‌شده و... رتبه‌بندی و عرضه شود.

گونه‏ های جستجو

جستجوی اطلاعات ممکن است در چهار سطح گوناگون مشخص گردد: تاکتیک/مشی (2)، راهبرد (3)، الگوی کاربری (4) و مدل‏ها (5). تاکتیک‏ها، سطح خرد رفتارهایی است که کاربر در فرایند جستجو انجام می‏دهد؛ به‏ویژه، تاکتیک، مشیی است که فرایند جستجو را گسترش می‏دهد. در برخی از مطالعات، محقق ممکن است مشی را به گونه‏ای محدود تعریف کرده باشد؛ برای نمونه، یک مشی ممکن است به مثابه هر نوع تغییر که در پرس‌وجوی اطلاعات ایجاد می‏شود، نام گیرد.

راهبرد جستجو، ترکیبی از تاکتیک و مشی است. بر پایه نظر بیتس، (6) راهبرد جستجو طرحی است برای کل جستجو؛ در حالی که یک تاکتیک، مشیی است که برای بیشتر کردن جستجو انجام می‌شود. راهبرد جستجو شامل ابعاد گوناگون مانند: مقاصد، منابع، روش‏ها و نظایر آن است. الگوهای رایج، قالب‏های صورت‏بندی و بازصورت‏بندی پرس‌وجو مبتنی بر تحلیلِ تبادل ورودی‏های عرضه‌شده به نظام بازیابی اطلاعات (آی‏آر) را مشخص می‏کند. الگوهای جستجو، پرتوهایی از قالب‏های جستجوی اطلاعات‏ و فرایند جستجویند. برخی از الگوها همچنین عامل‏هایی را که بر فرایند جستجو تأثیر می‏گذارند، معین می‏کنند.

کاربران و نظام‏ های آی‏آر الگوهایی در فرایند جستجوی اطلاعات‏ اند. کاربران به گونه عمومی، اطلاعات را از چهار نوع از نظام‏ های برخط آی‏آر جستجو می‏کنند: پایگاه داده‏های برخط، فهرست‏های دسترسی عمومی برخط (اُپک)، موتورهای جستجوی وب و کتابخانه‏های رقمی. جستجوی اطلاعات ممکن است در جایگاه حالت میانی جستجوی اطلاعات و کاربران نهایی جستجوی اطلاعات قرار گرفته باشد. (Xie, no date, p3)

ویژگی‌های جستجوی کارآمد

جستجو آن‌گاه ممکن است کارامد باشد که کاربر از نتایج حاصل از آن راضی باشد؛ به این معنا که هر آنچه از کاوش آن اصطلاح در پی‌اش بود و از آن کتابخانه توقع داشت، به او عرضه شده باشد؛ به عبارت دیگر، جستجوی خوب باید از یک سو همه اسناد وابسته را به کاربر عرضه کند و از سوی دیگر، دقیقاً همان سندی که کاربر آن را می‌خواهد، به او نشان دهد. (Reginald Ferber and Ulrich Thiel)

برای آن‌که یک جستجو ویژگی‌های پیش‌گفته را داشته باشد، باید با استفاده از شیوه‌هایی آن را توانمند کرد.

امروزه، با توجه به گستردگی کتابخانه‌های رقمی و نیز حجم و تنوع بسیار منابع رقمی، نیاز به جستجویی که جامع و مانع باشد، بیشتر شده است. مباحث جدید در جستجو، از یک سو به پشتوانه بهره‌گیری از اصطلاح‌نامه‌ها و فرهنگ لغات و از سوی دیگر، با استفاده از الگوریتم‌های خاص و ورود به موضوع داده‌کاوی (7) میسر گردیده است. چنانچه اطلاعات اصطلاح‌نامه‌ها یا فرهنگ واژگان در هنگام جستجو مورد استفاده قرار گیرند، می‌توان به گونه‌ای مؤثر از آن‌ها در جستجو و بازیابی اطلاعات استفاده کرد. برای نمونه، اگر یک نرم‌افزار کتابخانه رقمی مجهز به اصطلاح‌نامه‌ای چند زبانه (مثلاً اصطلاح‌نامه سه‌زبانه اصفا) باشد، چنانچه کاربری عبارت «امانت‌دهی» را جستجو کند، نرم‌افزار می‌تواند با مراجعه به اصطلاح‌نامه، اعم آن مانند «خدمات اطلاع‌رسانی کتابخانه» در زبان فارسی و "Library Information Services" را در زبان انگلیسی و «خدمات الاعلام للمکتبات» را در زبان عربی و همچنین اخص آن مانند «امانت بین کتابخانه‌ای» را در زبان فارسی و "Interlibrary Loans" را در زبان انگلیسی و «الامانة بین المکتبات» را در زبان عربی، به کاربر خود پیشنهاد دهد. این‌گونه پیشنهادها به کاربر، مانند پیشنهاد کلمات: مترادف، اعم، اخص و مشابه آن، همگی به نوعی نمایانگر گسترش حیطه جستجویند.

فنون گوناگون جستجو

جستجو با اصطلاح‌نامه

پشتیبانی از یک جستجو به همراه واژگان مترادف، نیازمند آن است که فرآیند جستجو مجهز به طیف گستردهای از اصطلاح‌نامه‌ها در حوزه-‌های گوناگون باشد.

چنانچه کاربر مایل باشد که یک جستجو به ‌همراه واژگان مترادف انجام دهد، آن‌گاه کلمه مورد جستجو نخست به فرهنگ واژگان ارسال، و واژه مترادف با آن استخراج می‌شود و سپس تمام کلمات مترادف استخراج، و تحت یک پیغام به کاربر عرضه می‌گردد. در این حالت، می‌توان از وی پرسید که مایل است کدام‌یک از کلمات مترادف به همراه کلمه مورد جستجو، به موتور جستجو فرستاده شود. کاربر می‌تواند همه یا تعدادی از کلمات مترادف را انتخاب کند. در این نوع جستجو، کلمه مورد جستجو به همراه مترادف‌هایش به موتور جستجو ارسال می‌شوند و نتیجه جستجو شامل کلمه مورد جستجو و لغات مترادف آن خواهد بود.

برای نمونه، اگر کاربر کلمه thyrotoxicosis را که معادل فارسی آن «پرکاری غده ترویید» است، جستجو کند، چنانچه اصطلاح‌نامه پزشکی در کنار فرآیند جستجو وجود داشته باشد، برنامه به کاربر پیشنهاد میدهد که آیا مایلید جستجو به همراه کلمه مترادف که لغت hyperthyroidism است، انجام پذیرد؟

در صورتیکه کاربر گزینه بالا را انتخاب کند، آن‌گاه هر دو کلمه thyrotoxicosis و hyperthyroidism به منظور جستجو به موتور جستجو ارسال می‌گردند. (پارسآذرخش، 2009)

جستجو بر اساس منطق فازی (8)

مجموعه های فازی، برای بازیابی اطلاعات مفیدند؛ زیرا این مجموعه-ها میتوانند «موضوع» مدرک را توصیف کنند. افزون بر آن، از آن‌جا که در منطق فازی «زبان طبیعی» به جای متغیرهای عددی برای تشریح رفتار و عملکرد سیستم به کار میرود، میتوان برای بازیابی اطلاعات در بانک‌های اطلاعاتی، به گونه مؤثری از آن سود جست.

مجموعهای از عناصر که در آن، هر عنصری محدوده مدرک را توصیف کند، ذاتاً مجموعهای فازی است. مدرکی که درباره «کتاب‌های کودکان و نوجوانان» است، ممکن است درباره «روان‌شناسی کودک و نوجوان» نیز گفتگو کند. از این رو، ممکن است موضوع این مدرک تا حدودی درباره «روان‌شناسی کودک و نوجوان» باشد. قرار دادن روانشناسی کودک و نوجوان به عنوان عنصری از مجموعه، صحیح نیست؛ اما نادیده گرفتن آن نیز ما را از دقت لازم دور می کند.

مفهوم ربط به دلیل نامعین بودنش، میتواند به‌راحتی به وسیله مدل‌های مجموعه فازی مدلسازی شود. بنابراین، نظام‌های بازیابی فازی به این صورت عمل میکنند: وقتی مدارک به سیستم اضافه می-شوند، یک سلسله اصطلاحات به مدرک اختصاص یافته و به هر اصطلاحی وزنی داده میشود که درجه وابستگی آن اصطلاح به مدرک را نشان میدهد. نمایه‌ساز، آزاد است تعیین کند که یک اصطلاح فقط تا حدودی به یک مدرک مرتبط است؛ بدون این‌که ناگزیر باشد در خصوص مرتبط بودن یا نبودن آن اصطلاح، تصمیم قطعی بگیرد. در یک نظام بازیابی اطلاعات فازی، بازیابی بیشتر بر مبنای منطق مجموعه‌های فازی است تا مجموعه های جبری بولی. در نظام فازی، همان عملگرهای بولی (و، یا، نه) مورد استفاده قرار میگیرند؛ اما متکی بر «اجتماعِ» فازی، «اشتراک» فازی، و «به جز» فازی.

این رویکرد به بازیابی اطلاعات، جنبههای نظری بسیاری دارد؛ زیرا به مثابه الگویی که در فرایند انتخاب منابع مرتبط توسط کاربران به مراتب مفیدتر است، ظاهر میشود. این الگو همچنین به نوعی جرح و تعدیل در نظام سنتی مکانیزم‌های بازیابی بولی است؛ در حالی که قسمت عمدهای از مکانیزم‌ها و زیرساخت‌های موجود در بازیابی اطلاعات، همچنان مفید هستند. به علاوه، بازیابی اطلاعات فازی در تخصیص اصطلاحات نمایه با استفاده از اصطلاحات مرتبط به قدر اصطلاحات کاملاً مرتبط، انعطافپذیر است.
جستجوی فازی هنگامی که برای پژوهش و بررسی به کار می‌رود، قدرتمندتر از جستجوی دقیق است. این گونه جستجو، به‌ویژه هنگام پژوهش در حوزه‌های ناشناخته، زبان بیگانه، یا اصطلاح‌های ساختگی و یافتن املای صحیح آنچه به گونه معمول شناخته شده نیست، بسیار سودمند است. جستجوی فازی را می‌توان همچنین برای یافتن افراد با اطلاعات هویتی ناکافی یا غلط به کار برد.

اصلاح املای اصطلاحات در جستجو

اگر کاربر املای لغتی را که می‌خواهد جستجو کند، نداند یا به شکل نادرست وارد کند، چنانچه جستجو مجهز به بررسی املا(9) باشد، آن‌گاه برنامه این خطا را تشخیص داده و به کاربر نزدیک‌ترین کلمه به کلمه مورد جستجو را پیشنهاد می‌دهد.

در بسیاری موارد ممکن است که کاربر لغتی را که می‌خواهد جستجو کند، فقط شنیده باشد و املای صحیح آن را نداند. در این هنگام، وجود یک ابزار بررسی و اصلاح واژگان در جستجو، کمک فراوانی را به کاربر در جهت یافتن سریع‌تر عبارت مورد نظرش خواهد کرد؛ زیرا او دیگر لازم نیست به دنبال املای صحیح کلمه مورد نظرش بگردد؛ بلکه خود برنامه املای صحیح را به او نشان خواهد داد.

برای نمونه، فرض کنید کاربر املای صحیح کلمه hyperthyroidism را نمی‌داند و کلمه را با املای نادرست به شکل hyperthiroidism وارد می‌‎کند. در این جستجو، چنانچه برنامه مجهز به بررسی املا باشد، می‌تواند املای درست کلمه جستجو شده را به کاربر پیشنهاد دهد. نمونه ذیل نیز به این نکته اشاره دارد:

چنانچه کاربر کلمه پیشنهاد شده را تأیید کند، آن‌گاه این کلمه پیشنهادی به موتور جستجو ارسال گردیده و در حقیقت، جستجو با این کلمه جدید انجام می‌گیرد.

جستجوی ریشه‌یاب

با استفاده از تجزیه و تحلیل‌های زبان‌شناختی و بهره‌گیری از الگوریتم‌هایی خاص امکان استخراج ریشه لغات (البته با درصدی خطا) وجود دارد. اگر موتور جستجو از فناوری ریشه‌یابی استفاده کند، می‌تواند حیطه جستجو را گسترش دهد و دیگر کلمات هم‌ریشه را نیز جستجو کند. برای نمونه، هنگامیکه کاربر لغت analyzeرا جستجو می‌کند، ممکن است مایل باشد مدارکی را که شامل لغات: analyzed، analyzes، analyzer، analyzing و analysis است نیز در نتایج جستجو مشاهده کند.

جستجوی مفهومی (10)

جستجوی مفهومی، عبارت است از توانایی بازیابی اطلاعات مرتبط، بدون نیاز به وجود کلمات مورد جستجو در متن یا در فیلدهای مورد جستجو. برای نمونه، فرض کنید کاربری عبارت زیر را جستجو می‌کند:

«نزدیک‌ترین فرودگاه به تهران»

در حالت عادی، موتور جستجو به دنبال کلمات: «نزدیکترین»، «فرودگاه» و «تهران» و یا ترکیب آن‌ها می‌گردد. به این نوع جستجو، لفظی یا کلیدواژهای گفته می‌شود. در مقابلِ جستجوی کلیدواژهای، جستجوی مفهومی مطرح است. در جستجوی مفهومی موتور جستجو، بر اساس یک مجموعه قوانین و الگوریتم‌های معنایی، همچنین پردازش لغات جستجوشده و بهره‌گیری از یک مجموعه روابط خاص، درپی استخراج معنا و مفهوم عبارت مورد جستجو، از اطلاعات موجود در خود سیستم است؛ مثلاً اگر از پیش در سیستم، مهرآباد به منزله یک فرودگاه معرفی شده باشد، یا این‌که تهران یک شهر است، یا تهران چند تا فرودگاه دارد، مسافت‌های فرودگاه‌ها تا هر شهر و اطلاعاتی از این دست در سیستم ثبت شده باشد. آنچه در این‌جا مطرح است، آن است که موتور جستجو بتواند به کمک ابزارهای جستجوی مفهومی، فرآیندی را طی کند که در انتها قادر باشد پاسخی مانند «مهرآباد» را به کاربر ارائه دهد. همان‌گونه که مشاهده می‌شود، در این پاسخ، هیچ اثری از کلمات «نزدیک‌ترین»، «فرودگاه» و «تهران» دیده نمیشود و در حقیقت، موتور جستجو به دنبال مفهوم مورد نظر کاربر است و نه خود کلمات مورد جستجو. البته همیشه این امکان وجود دارد که به دلیل عدم وجود اطلاعات مرتبط و کافی در سیستم، موتور جستجو نتواند پاسخ مناسب را ارائه کند.

آنچه در بالا ارائه گردید، تعریفی آرمانی از یک جستجوی مفهومی است؛ اما به گونه کلی، اگر یک جستجو بتواند نتایج مرتبطی را ارائه کند که شامل کلمات مورد جستجو نباشد، به نوعی به سوی جستجوی مفهومی حرکت کرده است. همان‌گونه که پیش‌تر اشاره گردید، میتوان از نمایه‌سازی به نوعی برای رسیدن به این هدف استفاده کرد. برای نمونه، در یک زمینه یا جمله‌ا‌‌‌ی از یک متن برای عبارت «گروه‌بندی موضوعی نتایج جستجو»، نمایه «خوشه‌سازی» زده شده است. در صورتی که کاربر واژه «خوشه‌سازی» را جستجو کند، مدرکی که حاوی عبارت «گروه‌بندی موضوعی نتایج جستجو» است نیز به منزله یکی از نتایج جستجو، به کاربر نمایش داده خواهد شد. (پارسآذرخش، 2009)

الگوی جستجوی کلونی مورچگان

این شیوه، از رفتار جستجوی گونه‌هایی از مورچگان الهام گرفته است که در آن، مورچگان، فارمونی (گونه‌ای اسید) در زمین فرو می‌گذارند تا مسیری مطلوب که باید برای دیگر مورچگان این کلونی دنبال شود، نشانه‌گذاری کرده باشند. با گذر زمان، این فارمون‌ها در مسیر کوتاه‌تر از لانه تا منبع غذا تقویت شود و زودتر از مسیر طولانی‌تر پیموده شود. بنابراین، بیشتر مورچگان می‌توانند کوتاه‌ترین مسیر را بیابند؛ زیرا کوتاه‌ترین مسیر با فارمون‌های بیشتر مشخص شده است. (D. Ślęzak et al. (Eds.), 2009, p. 240)

از الگوی کلونی مورچگان استفاده‌های بسیار می‌شود و در فروشگاه‌ها و انواع فعالیت‌های تجاری و بازرگانی از آن بهره برده می‌شود. یکی دیگر از فعالیت‌ها که می توان از این الگو سود برد، جستجو در کتابخانه‌های رقمی است.

اگر از داده‏ های واردشده کاربران، به گونه خودکار، یک الگوی دامنه سازگار بسازیم، کاری مشابه مورچگان کرده‌ایم. در این شیوه، با استفاده از خرد جمعی کاربران، محتوای کتابخانه‌ها دسته‌بندی می‌شود و جستجوی تازه کاربران جدید، با ره‌گیری جستجوهایی که کاربران دیگر صورت داده‌اند، انجام می‌گیرد.

جستجو بر پایه دسته‌بندی محتوا با استفاده از ورودی کاربران

بر خلاف این واقعیت که کلیدواژگان همواره توصیف‌گر خوبی از محتوا نیستند، بسیاری از موتورهای جستجو هنوز تنها بر کلیدواژگانی که در اسناد وجود دارند و کاوش‌های مشابه‌شان را محاسبه می‌کنند، متکی‌اند. این موضوع، بیانگر این واقعیت است که باید برای دقت موتورهای جستجو کوشش شود. در نمونه‌های بسیار، پاسخ‌هایی که این موتورهای جستجو به کاوش‌ها عرضه می‌کنند، مرتبط به اطلاعاتی که کابر نیاز دارد، نیست؛ هرچند آن‌ها شامل همان کلیدواژگانی‌اند که در کاوش وجود داشته است.

مواجهه با این نیاز روزافزون برای دقیق‌تر بودن اطلاعات بازیابی‌شده، سبب شده راهکارهایی تازه برای این نیاز طراحی گردد. یکی از این رهیافت‌ها، استفاده از ورودی (لاگ) کاوش کاربران است.

ورودی کاوش کاربران، فرصتی مناسب برای به دست‌ آوردن بصیرتی برای این‌که موتور جستجو چگونه به کار می‌رود و علایق کاربر کدام است؛ زیرا این ورودی‌ها رکوردهای کاملی از آنچه کاربران در زمانی معین جستجو کرده‌اند، می‌سازد. این مجموعه ورودی‌ها بدون آن‌که مزاحمتی برای کاربر در حین کار با موتور جستجو ایجاد کنند، دسته‌بندی می‌شود. بسته به این‌که ویژگی‌های کدام داده دسته‌بندی شده، این ورودی‌ها ممکن است دربردارنده مکان (آدرس آی‌پی)، یا نتایجی که در پاسخ به هر کاوش کلیک‌شده، باشد که به آن، ورودی کلیک‌شده یا داده کلیک‌شده گویند.

اطلاعاتی که در کاوش‌های ورودی مشتمل است، به شیوه‌های گوناگون به کار می رود؛ مثلاً برای: به دست آوردن متن حین جستجو، طبقه‌بندی کاوش‌ها، استنباط نیت جستجو، آسان کردن شخصی‌سازی، آشکار کردن اطلاعات از ورودی کاوش‌ها، یادگیری درباره فرایند جستجو و برای اصلاح موتور جستجو. (Katja Hofmann and et al)

در بررسی ورودی کاربران، بر این فرض تأکید می‌شود که یک رابطه بین کاوش کاربران و سند انتخاب‌شده (یا سندی که بر روی آن کلیک می‌شود)، مستحکم‌تر از رابطه کاوش با دیگر اسناد (اسنادی که کاربر روی آن‌ها کلیک نمی‌کند) است. رویکرد خوشه‌بندی کاوش‌ها، مبتنی بر این اصول است:

ـ اگر کاربرانی با کاوش‌های گوناگون بر یک سند مشابه کلیک کنند، پس، این کاوش‌ها مشابه‌اند؛
ـ اگر یک مجموعه از اسناد اغلب برای کاوش‌های مشابه برگزیده شوند، پس این اصطلاحات در این اسناد وجود دارند که تاحدی به اصطلاحات موجود در کاورش مرتبط‌اند.(JI-RONG WEN; JIAN-YUN NIE; and HONG-JIANG ZHANG, 2002, p. 60)

جستجوی نمونه‌مبنا

آن‌گاه که کاربر یک نشر نمونه را برای یافتن نشریات همانند فراهم می‌کند، جستجوی نمونه‌مبنا (11) انجام داده است. راهیافت‌های گوناگونی برای ارزیابی شباهت میان نشریات وجود دارد: یکی، نگار‌مبنا (12) که روابط استنادی نشریات برای محاسبه شباهت به کار می‌رود و دیگری، متن‌مبنا که مشاهده اصطلاحات مشترک میان نشریات به مثابه نماینده شباهت شمرده می‌شود.

شیوه‌های مختلف برای به‌کارگیری رهیافت متن‌مبنا در مشخص کردن شباهت نشریافت استفاده می‌شود که از آن جمله می‌توان به ارزیابی شباهت نشریات از طریق کاربرد اطلاعات در اهمیت اصطلاحات اشاره کرد.

بسامد اصطلاحات، نخستین چیزی است که برای مشخص کردن اهمیت یک اصطلاح به کار می‌رود. (SULIEMAN BANI-AHMAD, 2010)

عوامل تأثیرگذار بر جستجوی اطلاعات

جستجوی اطلاعات، با انواع گوناگون عوامل متأثر می‌شود که در 4 نوع عمده انتخاب شده و اجرای راهبردهای گوناگون جستجو را تعیین می‌‌کند:

1. هدف و وظیفه کاربر: مراحل وظیفه، مانند: قصد، انتخاب، تبیین، صورت‌بندی، مجموعه‌سازی و عرضه، از یک سو، اعمال فیزیکی، اندیشه‌های شناختی، احساس‌های تأثیرگذار و وظایف مناسب را متأثر می‌کند و از سوی دیگر مراحل وظایف، مانند: پیش‌تمرکز، صور‌بندی و پس‌تمرکز، تغییرات را در تاکتیک‌های جستجو، انتخاب اصطلاح‌ها، گونه‌هایی اطلاعات و معیاهای وابسته تعیین می‌کند.

2. ساختار دانش کاربر: سه گونه از دانش برای متأثر ساختن جستجوی اطلاعات نیاز است: 1. دانش آی‌آر؛ 2. دانش دامنه موضوعی؛ 3. دانش نظام. در حالی که دانش دامنه موضوعی، کاربران را برای بسط یک فهم عمیق از وظایف جستجو و آنچه آن‌ها می‌خواهند کمک می‌کند، دانش آی‌آر کاربران را در بسط راهبردهای مفهومی و روشی یاری می‌رساند.

3. طراحی نظام‌های آی‌آر: مطالعات بسیار در نشست‌های بازیابی متن، نظام‌های آی‌آر را با طراحی‌های گوناگون مقایسه کرده و این نتایج اثبات می‌کند که طراحی نظام‌های آی‌ار تفاوت‌های عمده در اجرای راهبردهای جستجوی کاربر و انجام جستجو ایجاد می‌کند.

4. زمینه سازمانی و اجتماعی: متن اجتماعی سازمانی نیز محیطی را که تعامل کاربر با نظام در آن رخ می‌دهد، تعیین می‌کنند. به گونه عمده، این محیط کار تعیین می‌کند که کاربران چگونه راهبرد جستجوی خود را در فرایند جستجو تعیین می‌کنند. ابعاد مکان کار، مانند اهداف و محدودیت‌ها، ترجیح‌ها، کارکردهای کلی، پردازش کار و اشیای فیزیکی، به‌ویژه اولویت‌ها، محدودیت‌ها و دوره‌های کار/تجارت، بر انتخاب راهبردهای جستجوی کاربر تأثیر می‌گذارد. افزون بر آن، ابعاد فرهنگی چگونگی تعامل کاربر با نظام‌های آی‌آر را متأثر می‌کند. (Xie, no date. P11)

نقش جستجو در محصولات مرکز تحقیقات کامپیوتری علوم اسلامی

محصولات برخط و برون‌خط عرضه‌شده مرکز تحقیقات کامپیوتری علوم اسلامی به گونه معمول دارای حجم گسترده‏ای است؛ به گونه‌ای که مجموع منابع متنی در مرکز، 1824026760 کلمه است. (مینایی و بهنیافر، 1391، ص 14) از این رو، کاربران به صرف مرور فهرست کتاب‏ها، واژگان، نمایه‏ها، چکیده‏ ها (موضوع‏های) عرضه‌شده و جستجوی ساده نمی‏توانند کل مطلب دلخواه را بیابند. بر پایه پژوهشی با عنوان «ارزیابی قابلیت‌های بازیابی اطلاعات در 10 نرم‌افزار علوم اسلامی مرکز تحقیقات کامپیوتری علوم اسلامی توسط کاربران»، 3/64% کاربران، از جستجو در متن آزاد، 2/49% از جستجوی کلیدواژه‏ای، 2/33% از جستجو در فهرست، 6/29% از جستجوی پیشرفته، و 1/29% از جستجوی ترکیبی برای دسترسی به محتوای دلخواه استفاده کرده‏اند.

با توجه به این‌که یکی از معیارهای طراحی پایگاه داده، توجه به رفتار اطلاع‌یابی کاربران است (Ibid, p6)، شاید مناسب باشد جستجو و تقویت آن با استفاده از شیوه‌های پیش‌گفته بیشتر مورد همت تولیدکنندگان و طراحان نرم‌افزار و پایگاه‌ها قرار گیرد.

شاید بتوان گفت یکی از پرمحتواترین پایگاه‌ها در زمینه علوم انسانی، پایگاه مجلات تخصصی نور (نورمگز) است. این پایگاه، از دسته‌بندی‌های محتوایی حداقلی برخوردار است؛ به گونه‌ای که تنها یک دسته‌بندی موضوعی مجلات عرضه کرده است و یک دسته‌بندی بر پایه رتبه و تاریخ نشریات. از سوی دیگر، عرضه فهرست نمایه‌های موضوعی در این پایگاه، با توجه به حجم بالا (تعداد کل مقالات: 739831، تعداد کل صفحات: 6428887) (پایگاه مجلات تخصصی، 1391) هزینه و زمان بسیار نیاز دارد. بنابراین، شاید بهترین راه برای دستیابی به محتوای دلخواه جستجو باشد.

با توجه به اهمیت اجتماعی، فیزیکی، فرهنگی، دانش و سواد اطلاعاتی کاربر در امر جستجو و نیز نظر به اهمیت جستجو در کتابخانه‌های رقمی برخط و برون‌خط، ساخت موتورهای جستجوی کارآمد و استفاده از فنون نو در امر بازیابی اطلاعات، برای مرکز تحقیقات کامپیوتری علوم اسلامی بسیار اهمیت دارد؛ زیرا عرضه نمایه‌ها یا فراداده‌های گوناگون برای جستجو و دسته‌بندی آن‌ها به گونه خاص، بدون توجه به سطح دانش کاربر، برداشت او از دسته‌بندی‌های اعمال‌شده، نتیجه دقیقی برای او در پی نخواهد داشت. پس، شاید تنها ابزار بازیابی اطلاعات که همه کاربران با آن آشنایی دارند و می‌توانند از آن استفاده کنند، جستجو است. بنابراین، معطوف کردن توجه به جستجویی که محتوای دلخواه کاربران را ـ در صورت وجود در پایگاه ـ به ایشان عرضه کند، مهم‌تر از فهرست کردن عناوین و موضوعات در پایگاه است.

پی نوشت ها:

منابع:

1. D. Ślęzak et al. (Eds.). (2009). An Ant Colony Optimization Approach for the Preference-Based Shortest Path Search. CCIS, 539–546.
2. JI-RONG WEN; JIAN-YUN NIE; and HONG-JIANG ZHANG. (2002). Query Clustering Using User Logs. ACM Transactions on Information Systems, 59–81.
3. Katja Hofmann and et al. (n.d.). A Semantic Perspective on Query Log Analysis. ISLA, University of Amsterdam.
4. Reginald Ferber and Ulrich Thiel. (n.d.). Digital Libraries and Information Retrieval.
5. SULIEMAN BANI-AHMAD, G. A.-D. (2010). ON IMPROVED EXAMPLE-BASED SEARCH IN DIGITAL LIBRARIES VIA TERM RANKING. Journal of Theoretical and Applied Information Technology , 45-54.
6. Xie, I.(no date) INFORMATION SEARCHING AND SEARCH MODELS. University of Wisconsin-Milwaukee.

7. پارس آذرخش. (2009). بازیابی در 2012، از http://www.parslib.com/web/guest/349
8. پارس آذرخش. (2009). الگوی جستجو با مشابهت اسمی. بازیابی در 2012، از پرتال پارس آذرخش: http://www.parslib.com/web/guest/346
9. پارس آذرخش. (2009). جستجو با واژگان مترادف. بازیابی در 2012، از پرتال پارس‏ آذرخش: http://www.parslib.com/web/guest/345
10. پایگاه مجلات تخصصی. (1391، آبان 20). آمار کلی پایگاه. بازیابی در آبان 20، 1391، از پایگاه مجلات تخصصی: http://www.noormags.com/view/fa/statistics
11.مینایی، بهروز؛ بهنیافر، مهدی (1390). ملاحظاتی در باب تأسیس یک نهاد پژوهش میان‏ رشته‏ ای. ره ‏آورد نور، 13-17.