راهبرد جستجو
جستجو و بازيابي اطلاعات، يكي از مقولههاي اساسي علم اطلاعرساني و از مهمترين عرصههاي پژوهش و سنجش كارايي نظامهاي اطلاعرساني، بهخصوص کتابخانههای دیجیتال و نرمافزارهای متنی، به شمار ميرود.
طراحی نظاممند مراحل انجام یك جستجو را «راهبرد جستجو» میگویند. به نظر پائو: «راهبرد جستجو عبارت است از فرایندی كه از طریق آن فایلی مورد جستجو قرار میگیرد تا مدارك متناسب با نیاز كاربر شناسایی شود. این مدارك بر اساس مجموعهای از معیارهایی كه شخص متقاضی مطرح میكند، بازیابی میشود».(1) هر فرایند جستجو میتواند به مراحل ارائه درخواست دقیق، انتخاب منابع اطلاعاتی مناسب، آماده كردن جستجو و اجرای جستجو تقسیم شود. کاربران و محققان برای رسیدن به یک نتیجه مناسب و سریع لازم است که فرایند جستجو را رعایت نمایند تا جستجوی موفق و کارآمدی داشته و مشکلات جستجوی لفظی مانع فعالیت آنان نگردد.
کاستى هاى مهم در جستجوهای لفظى
1.ارائه انبوهى از اطلاعات پراكنده در نتيجه جستجو:
جستجوى لفظى متن، هر اندازه كه هوشمند طراحى شود، دچار اين مشكل است. چه بسا لفظى كه در متن تكرار مىشود، يك واژه محاورهاى يا نوشتارى باشد؛ مثلا اگر در، نرم افزار كتابخانه جامع اهل بيت(ع) كه حاوى حدود 6000 كتاب اسلامى است، واژه «المهدى» را جستجو كنيم،44881 مورد از 3087 كتاب را براى ما آدرس می دهد و به همين تعداد، كلمه «مهدى» بدون الف و لام نيز تكرار شده است. و يا نرم افزار جامع تفاسير نور واژه «المهدى» 1011 مرتبه، و «مهدى» 668 مورد آمده است.
بررسى همه اين موارد، وقت زيادى را از محقق مىگيرد؛ زيرا بسيارى از اين الفاظ، معمولاً ارتباطى به بحث نداشته، تأثيرى در موضوع تحقيق ندارند. علاوه بر اين، اگر محقق براى فرار از اين مشكل، بخواهد از تركيب دو كلمه استفاده كند، جستجوی او جامع تمامى الفاظ و مانع اغيار نخواهد بود.
2.تكرار جستجو به تكرار تعابير مختلف و كلمات مشابه:
در علوم حقيقى و اعتبارى، بهخصوص علوم اسلامى، تنوع تعابير و اصطلاحات، بسيار است و اگر مشتقات هر كلمه را به آن اضافه كنيم، تعداد آن فوق العاده زياد مىگردد. اين تنوع عبارت و كلمات، بسيار مشكل آفرين است؛ خاصه اگر نياز باشد كه به تعداد آن جستجو كنيم.
براى مثال، فلاسفه «وجود» را با 100 تعبير به كار بردهاند؛(2) يا اگر بخواهيم در باره جايگاه و اهميت پدر در قرآن شريف جستجو كنيم، مى بينيم كه واژه «أب» داراى 45 واژه مشتق و مشابه است، مانند: آباء، آبائكم، آباءنا، آباءهم، آباؤكم، آباؤنا، آبائنا، أباه، و... و در مجموع 117 مورد تكرار شده است.
دانستن همه اين تعابير و مشتقات، براى محققان مشكل است و به زمان فراوانی براى جستجو و بررسى نياز دارد. ضمن اینکه بسيارى از آنها نيز در نتيجه تحقيق تأثيرى ندارد.
3. الفاظ فقط قسمتى از موضوع تحقيق است:
نويسندگان مقالات و كتب، مفاهيم يكسان را با واژههاى مختلف تعريف مىكنند و كاربران هنگام جستجوى اطلاعات، ممكن است مفهومى را به كار برند كه عيناً در مدرك مورد نظر ذكر نشده باشد، يا موضوعات و مطالبى كه در متن ارائه شدهاند، با الفاظ و عبارتهاى ظاهرى متن القا نشوند.
آيت اللّه استادى طى مصاحبهاى، با بيان اين مشكل فرمودند: محقق مى خواهد مثلاً در مسأله خاتميت تحقيق كند. در نظر او همه آنچه در مورد موضوع تحقيق او وجود دارد، همين مواردى است كه از طريق جستجو در اين نرمافزارها، به آن دست يافته است؛ غافل از اينكه اين الفاظ تنها قسمتى از مطالبى است كه ما درباره پيامبر(ص) و خاتم پيامبران آمده است. بنابراين، همه كارهايى كه انجام مىدهيم، بايد فراگيرتر از لفظ و واژه باشد. (3)
4. تنوع در املا يا رسم الخط فارسی و عربی:
اشكال و نقصي كه در همه خطوط نوشتاری جهان است، دو علت دارد: يكي ناشی از اصل خط است و ديگري بر اثر تغيير و تحول زبان ايجاد ميشود. دقت فراوان در ثبت همه دقايق تلفظ، اغلب موجب دشواري شيوه خط است و اين دقت، زماني ضرورت مييابد كه زباني توسعه بسيار بيابد و در كشورهاي ديگري كه به آن زبان سخن نميگويند، رايج شود؛ به عنوان مثال، در خط عربي نقطه و علامتهاي حركات وقتي به وجود آمد كه زبان عربي نزد ملتهاي غير عرب معمول شد. در خط يوناني نيز نشانههاي آهنگ و تكيه، پس از رواج آن زبان در مصر ايجاد شد تا كساني كه زبان مادريشان يوناني نبود و با تلفظ آن مأنوس نبودند، بتوانند كلمات و عبارات يوناني را هر چه درستتر ادا كنند. با اين حال، هيچ خطي هر قدر دقيق و شماره علامات آن فراوان باشد، ممكن نيست كه كاملاً نشانه شيوه تلفظ باشد. با كمك علامات متعدد علم حروف نيز تا كسي چگونگي تلفظ زباني را نشنود، نميتواند عبارت و كلمات آن را مانند اهل آن زبان ادا كند.
اما نقصي كه بر اثر تحول زبان و بهتدريج در خط حاصل ميشود، مشكلي است كه همه ملتها با آن رو به رو هستند. بعضي از حروف و اصوات زبان، در طي زمان تغيير ميپذيرند و اين تغيير، در گفتار حاصل ميشود؛ اما خط هميشه صورت كهن تلفظ را حفظ ميكند و از اينجا ميان «گفتار» و «نوشتار» اختلاف روي ميدهد. ديگر آنكه هر زباني ناگزير لغاتي از زبانهاي ديگر به عاريت ميگيرد و اگر علائم خط در اين دو زبان يكي باشد، كلمه خارجي به همان املاي اصلي در نوشتن به كار ميرود كه اغلب با املاي كلمه مشابه در زبان ثانوي تفاوت دارد و از اينجا براي اصوات واحد، علائم خطي متعدد پديد ميآيد. در خط فارسي نمونه همه اين موارد را ميتوان يافت. چون خط عربي براي نوشتن فارسي به كار رفت، كلماتي كه از آن زبان اخذ شده بود، به همان صورت اصلي نوشته شد؛ حال آنكه بهيقين در هيچ دورهاي حروف خاص عربي را فارسي زبانها درست مثل اصل تلفظ نكردهاند. در زبانهاي ديگر نيز اين گونه موارد نمونههاي متعدد دارد. به طور كلي،کاستیها و عيوبي را كه در رسم الخط و املایی فارسی و عربی است، میتوان به طریق زیر طبقه بندی کرد:
- در این دو زبان، حرفهايي هستند كه در كلمات خاصي از نوشتن حذف ميشود، مانند: «الف» در كلمات «اسحق» و «اسمعيل» که بیشتر نویسندگان به این مسأله توجهی نداشته و در کتب متعدد به رسم الخطهای متفاوت نوشته میشود.
- پيوستهنويسي و جدانويسي كلمات مركب كه در بیشتر موارد به صورت سليقهاي عمل ميشود، مانند: تنوع استفاده از «مي» چسبان و غير چسبان، تنوع چگونگی به كار بردن علامتهاي جمع (ها، ان، جات)، هم، هيچ، كه، ضماير شخصي متصل (مان، تان، شان)، شناسي، را، چه، چون، تر، ترين، بي (پيشوند نفي)، به، اي (نشانه ندا)، آن و اين. در كلمات به صورت پيوسته و يا جداگانه: «آنچه، آن چه؛ همچنانكه، همچنانكه؛ جنابعالي، جنابعالي؛ هيچكس، هيچكس؛ ميتواند، ميتواند؛ آنها، آنها». در اين مورد، كلماتي كه پيشوند و يا پسوند دارند نيز در شكلهاي مختلف نوشته ميشوند. برخي از كلمات در دو شكل متصلنويسي و منفصلنويسي به دو شكل مختلف ظاهر ميشوند، مانند: «علاقمند و علاقهمند؛ انديشمند و انديشهمند. مصدرها و فعلهاي مركب و اسمهاي مشتق از آنها نيز به دو صورت متصل و منفصل نوشته ميشوند، مانند: «نگهداشتن و نگهداشتن».
تفاوت واژهها، در جستجوي مطالب از اينترنت توليد اشكال ميكند؛ چنانكه جستجوي «هيچكس» نتايج متفاوتي را با جستجوي «هيچكس» ميآورد و يا جستجوي «كتابشناسي» و «كتابشناسي» در موتور جستجوي گوگل، نتايج متفاوتي را ارائه ميكند. اين گونه كلمات، با اينكه در خواندن متن اشكال كمي به وجود ميآورند و هر آشناي به زبان فارسي بهراحتي ميتواند آن را بخواند، اما در فناوري امروزه تجزيه و تحليل كلمات به كمك رايانه اشكال اساسي توليد ميكند. شايد اگر قاعدهاي جامع و مانع براي آن وضع گردد، بتوان گفت بزرگترين مشكل خط فارسي و عربی حل شده است؛ براي مثال، خواندن سه كلمه: «بيحوصلگي، بيحوصلگي، بيحوصلهگي» مشكلي ايجاد نميكند. اما در محيط الكترونيكي براي بازيابي اين كلمه، بايد تمام شكلهای اين كلمه را مورد جستجو قرار دهیم؛ به شرط اینکه از تمام صورتهای نوشتاري آن آگاهی داشته باشيم. - بهكار بردن همزه در صورتهاي مختلف، مانند «مسأله، مسئله» و؛ «مسئول، مسؤول».
و همچنین همزه حروف (أ، إ و ؤ) در کلماتی که باید این حمزه وجود داشته باشد. - استفاده يا عدم استفاده از «ء» براي كلمات مختوم بههاي بيان حركت در حالت مضاف، مانند: خانه مسكوني، خانهء مسكوني و يا خانهي مسكوني.
- انواع مختلف جمع براي يك واژه مفرد؛ به عنوان مثال، جمع بستن يك واژه با علائم جمع فارسي و علائم جمع عربي و نيز جمع بستن بيقاعده (جمع مكسر)، استفاده از جمع جمع، مانند: معلم، معلمين، معلمان، معلمها.
- تبدیل تاء تانیث بههاء در بعضی از کلمات؛ بهخصوص در زبان عربی، مانند: «فاطمه و فاطمة» و «علامه و علامة».
- یکی دیگر از مشکلات جستجو در زبان فارسی و عربی، اعراب داخل متون میباشد. بعضی از نویسندگان مقید هستند که بعضی از کلمات را با اعراب بیاورند و در متون دیجیتال نیز با اعراب آورده میشود؛ ولی محقق و نویسنده دیگر همین کلمه را بدون اعراب میآورد که لازمهاش تکرار جستجو و یا نیافتن نتیجه مطلوب است.
بررسی راهکارهای جستجوي دقيق و مفيد
جستجو در نرمافزارها آسان است؛ اما يافتن اطلاعات مفيد و مناسب، دشوار است. با وجود قابليتهايي كه موتورهاي جستجو در امر بازيابي اطلاعات دارند، انجام فرايند جستجو در آنها نيز نيازمند رعايت اصول و نكتهها و نیز مهارتهاي خاصي است كه بدون توجه به آنها انجام عمل جستجوي موفق تقريباً امكانناپذير و در بعضي موارد ناممكن ميباشد. همانطور که در فرایند جستجو اشاره شد، هر فرایند جستجو میتواند به مراحل: «ارائه درخواست دقیق» و «انتخاب منابع اطلاعاتی مناسب» تقسیم شود. کاربران و محققان برای رسیدن به یک نتیجه مناسب و سریع، لازم است که فرایند جستجو را رعایت نمایند تا کاوشی موفق و کارآمد داشته باشند. در ادامه، اصول و رهنمودهايي براي جستجوي موفق و مفيد در موتورهاي جستجو ارائه مي گردد.
* ارائه درخواست دقیق: يكي از كاراترين و مقتدرترين روشهاي جستجوي اطلاعات در دنياي وب، استفاده از واژههايي است كه اصطلاحاً كلمات كليدي یا کلیدواژه ناميده ميشوند. بیشتر كاربران حرفهاي و جستجوگران ورزيده ميتوانند با طرح بهترين كلمات كليدي و بهكار بستن قوانين تركيب آنها با هم، براي نيازهاي اطلاعاتي خود پاسخي در خور بيابند. در اين روش، توصيههاي زير براي انتخاب کلمات كليدي و نيز جستجوي دقيق و مفيد پيشنهاد ميشود كه به شرح ذيل است:
- حتيالمقدور سعي شود كلمات كليدي از ميان اصطلاحات منحصر به فرد و اسامي خاص انتخاب شود و از آوردن كلمات عمومي كه عناوين بسياري را در زيرمجموعه خود شامل ميشوند، خودداري كنيد.
- هميشه اسم شخص يا نام شیء يا هر چيز ديگري را كه مد نظر داريد، به طور كامل وارد كنيد.
- دقت كنيد كه اگر موتور جستجو ميان حروف بزرگ و كوچك تفاوتي ميگذارد، اين مسأله را در طرح كلمات كليدي خود مد نظر داشته باشيد.
- اگر نتيجه جستجو صفر بود، به احتمال زياد ميتواند از يك اشتباه تايپي باشد و یا در دامنه و یا کتاب انتخابشده، دقت لازم نشده است.
- اگر املاي صحيح و كامل كلمهاي را نميدانيد، روش جستجو را تغییر داده و با توجه به نوع نرمافزاری که استفاده میکنید، از فهرست کلمات یا فهرست لغات و یا از فهرست کلمات همخانواده.
- کلمه و یا کلمات مورد نظر را انتخاب نمایید و سپس جستجو کنید. باید توجه داشت که در بعضی از نرمافزارها میتوان از علامت جانشين كه اغلب * و يا ؟ است، استفاده كرد.
- استفاده از امکانات ویژه هر برنامه که برنامهنویسان آن را در موتور جستجو قرار دادهاند، مانند: جستجوی مشابه، جستجوی دقیق، جستجوی اعراب و جستجو انواع حالتهای «أن» و «إن» و همچنین استفاده از گزینه شروط.
- استفاده از عملگرهای جستجو بهخصوص علمگرهای بولی، یعنی:«NOT»، «OR» و «AND» که در نرمافزارهای فارسی به آن جستجوی ترکیبی، عطفی و نفی نیز گفته میشود، میتواند کمک فراوانی به سرعت جستجو و رسیدن به جستجوی مطلوب نماید. با كمك عملگرهاي جستجو (جستجوي تركيبي) و امكان فهرستسازي از فهرست و متن كتابها با استفاده از علائم عمومي يا Wildcard، يعني: علامت سؤال (؟) و ستاره (*) میتوان جستجوهای گستردهتر و دقیقتری را ساماندهی کرد.
مثال: در نرمافزار جامع تفاسير نور محصول مرکز تحقیقات کامپیوتری علوم اسلامی نور در بخش كتابخانه، چنانچه در قسمت جستجو در متن برگه گروه 1 را فعال كنيد و سپس مثلاً واژه «شهادت» را به همراه علامت ستاره (*) جستجو كنيد، 43 كلمه فهرست ميشوند كه شامل واژه شهادت و كلماتي است كه با كلمه شهادت شروع شدهاند و بعد از آن نيز حروف ديگري آمده و كلمات جديدي ساخته شدهاند، مانند: شهادت، شهادت دهندگان، شهادتگاه، شهادتطلبي، شهادتين و شهادتگونه. در اين حالت، ميتوانيد تمام يا برخي از اين كلمات را انتخاب كنيد و محدوده پژوهش خودتان را گسترش دهيد و يا آن را به واژگان مورد نظر خويش محدود نماييد. (4)
گفتنی است که این عملگرها در تمامی نرمافزارها یکسان نبوده و عملکرد آنها با توجه به موتور جستجوی تعریفشده تغییر مییابد.
* انتخاب منابع اطلاعاتی مناسب: در تحقيقات رايانهای، وسيع بودن عرصه پژوهش هميشه به سود محقق نيست و گاهي امر تحقيق را با دشواريهايی چند روبهرو میکند. از اين رو، وجود ابزاری كارآمد برای محدود کردن دامنه تحقيق، لازم است. به همین منظور، بیشتر نرمافزارها و کتابخانههای دیجیتال برای آسانسازي امر پژوهش، گزینهای را با عنوان «دامنه» در نرمافزارهای خود گنجاندهاند. کاربر میتواند با انتخاب این گزینه، دامنه تحقیق خود را محدود سازد تا سریعتر به مطلب مورد نظر دست یابد.
اين قابليت در برخي نرمافزارها، تفاوتهايي از نظر تنوع با ديگر نرمافزارها دارد که کاربر با مراجعه به راهنمای هر نرمافزار با قابلیتهای گزینه دامنه آشنا میشود. در بعضی از نرم افزارها علاوه بر دامنه نمايشي و جستجو، دامنه موضوعي و كتابي نيز قابل دسترسي است.
پی نوشت ها: