راهبرد‌های جستجو در نرم‌افزارهای اسلامی

پنج شنبه, 26 اسفند 1389 ساعت 14:48
    نویسنده: علی روح الهی خراسانی
این مورد را ارزیابی کنید
(0 رای‌ها)

مقدمه

امروزه با گسترش وسايل اطلاع‏ رسانى، پيشرفت سريع فناورى اطلاعات و تشكيل مؤسسات در حوزه فناوری‌های جديد،  اطلاعات ارزشمند فراواني در قالب كتابخانه‌هاي الکترونیکی و نرم‌افزارهای متنی ارائه شده و کتابخانه‌های دیجیتال با شتابي فراوان به يك منبع اطلاعاتي ممتاز تبديل شده‌اند. برای دستیابی پژوهشگر به اطلاعات و منابع دیجیتالی، دو روش عمده وجود دارد: نخست، دستیابی به اطلاعات از طریق کلمات‌، فهارس و الفاظ. روش دوم که اساسی ترین و بیشترین درخواست کننده را  به خود اختصاص داده است، استفاده از نمایه‌ها و موضوعات جستجو برای رسیدن به محتوای مورد نظر می‌باشد. در این نوشتار، سعی شده است تا با بررسی روش‌های جستجو و اشاره به موارد مختلفی که می‌تواند در جستجو و بازیابی اطلاعات سرعت، دقت، جامعیت و مانعیت جستجو را بالا ببرد، اشاره شود.

 راهبرد جستجو

جستجو و بازيابي اطلاعات، يكي از مقوله‌هاي اساسي علم اطلاع‌رساني و از مهم‌ترين عرصه‌هاي پژوهش و سنجش كارايي نظام‌هاي اطلاع‌رساني، به‌خصوص کتابخانه‌های دیجیتال و نرم‌افزارهای متنی، به شمار مي‌رود.

طراحی نظام‌مند مراحل انجام یك جستجو را «راهبرد جستجو» می‌گویند. به نظر پائو: «راهبرد جستجو عبارت است از فرایندی كه از طریق آن فایلی مورد جستجو قرار می‌گیرد تا مدارك متناسب با نیاز كاربر شناسایی شود. این مدارك بر اساس مجموعه‌ای از معیارهایی كه شخص متقاضی مطرح می‌كند، بازیابی می‌شود».(1) هر فرایند جستجو می‌تواند به مراحل ارائه درخواست دقیق، انتخاب منابع اطلاعاتی مناسب، آماده كردن جستجو و اجرای جستجو تقسیم شود. کاربران و محققان برای رسیدن به یک نتیجه مناسب و سریع لازم است که فرایند جستجو را رعایت نمایند تا جستجوی موفق و کارآمدی داشته و مشکلات جستجوی لفظی مانع فعالیت آنان نگردد.

کاستى‏ هاى مهم در جستجوهای لفظى

1.ارائه انبوهى از اطلاعات پراكنده در نتيجه جستجو:

جستجوى لفظى متن، هر اندازه كه هوشمند طراحى شود، دچار اين مشكل است. چه بسا لفظى كه در متن تكرار مى‌شود، يك واژه محاوره‏اى يا نوشتارى باشد؛ مثلا اگر در، نرم افزار كتابخانه جامع اهل بيت(ع) كه حاوى حدود 6000 كتاب اسلامى است، واژه «المهدى» را جستجو كنيم،44881 مورد از 3087 كتاب را براى ما آدرس می دهد و به همين تعداد، كلمه «مهدى» بدون الف و لام نيز تكرار شده است. و يا نرم افزار جامع تفاسير نور واژه «المهدى» 1011 مرتبه، و «مهدى» 668 مورد آمده است.

بررسى همه اين موارد، وقت زيادى را از محقق مى‏گيرد؛ زيرا بسيارى از اين الفاظ، معمولاً ارتباطى به بحث نداشته، تأثيرى در موضوع تحقيق ندارند. علاوه بر اين، اگر محقق براى فرار از اين مشكل، بخواهد از تركيب دو كلمه استفاده كند، جستجوی او جامع تمامى الفاظ و مانع اغيار نخواهد بود.

2.تكرار جستجو به تكرار تعابير مختلف و كلمات مشابه:

در علوم حقيقى و اعتبارى، به‌خصوص علوم اسلامى، تنوع تعابير و اصطلاحات، بسيار است و اگر مشتقات هر كلمه را به آن اضافه كنيم، تعداد آن فوق العاده زياد مى‏گردد. اين تنوع عبارت و كلمات، بسيار مشكل آفرين است؛ خاصه اگر نياز باشد كه به تعداد آن جستجو كنيم.

براى مثال، فلاسفه «وجود» را با 100 تعبير به كار برده‏اند؛(2) يا اگر بخواهيم در باره جايگاه و اهميت پدر در قرآن شريف جستجو كنيم، مى ‏بينيم كه واژه «أب» داراى 45 واژه مشتق و مشابه است، مانند: آباء، آبائكم، آباءنا، آباءهم، آباؤكم، آباؤنا، آبائنا، أباه، و... و در مجموع 117 مورد تكرار شده است.

دانستن همه اين تعابير و مشتقات، براى محققان مشكل است و به زمان فراوانی براى جستجو و بررسى نياز دارد. ضمن اینکه بسيارى از آنها نيز در نتيجه تحقيق تأثيرى ندارد.

3. الفاظ فقط قسمتى از موضوع تحقيق است:

نويسندگان مقالات و كتب، مفاهيم يكسان را با واژه‏هاى مختلف تعريف مى‏كنند و كاربران هنگام جستجوى اطلاعات، ممكن است مفهومى را به كار برند كه عيناً در مدرك مورد نظر ذكر نشده باشد، يا موضوعات و مطالبى كه در متن ارائه شده‏اند، با الفاظ و عبارت‏هاى ظاهرى متن القا نشوند.

آيت اللّه استادى طى مصاحبه‏اى، با بيان اين مشكل فرمودند: محقق مى‏ خواهد مثلاً در مسأله خاتميت تحقيق كند. در نظر او همه آنچه در مورد موضوع تحقيق او وجود دارد، همين مواردى است كه از طريق جستجو در اين نرم‏افزارها، به آن دست يافته است؛ غافل از اينكه اين الفاظ تنها قسمتى از مطالبى است كه ما درباره پيامبر(ص) و خاتم پيامبران آمده است. بنابراين، همه كارهايى كه انجام مى‏دهيم، بايد فراگيرتر از لفظ و واژه باشد. (3)

4. تنوع در املا يا رسم الخط فارسی و عربی:

اشكال و نقصي كه در همه خطوط نوشتاری جهان است، دو علت دارد: يكي ناشی از اصل خط است و ديگري بر اثر تغيير و تحول زبان ايجاد مي‌شود. دقت فراوان در ثبت همه دقايق تلفظ، اغلب موجب دشواري شيوه خط است و اين دقت، زماني ضرورت مي‌يابد كه زباني توسعه بسيار بيابد و در كشورهاي ديگري كه به آن زبان سخن نمي‌گويند، رايج شود؛ به عنوان مثال، در خط عربي نقطه و علامت‌هاي حركات وقتي به وجود آمد كه زبان عربي نزد ملت‌هاي غير عرب معمول شد. در خط يوناني نيز نشانه‌هاي آهنگ و تكيه، پس از رواج آن زبان در مصر ايجاد شد تا كساني كه زبان مادري‌شان يوناني نبود و با تلفظ آن مأنوس نبودند، بتوانند كلمات و عبارات يوناني را هر چه درست‌تر ادا كنند. با اين حال، هيچ خطي هر قدر دقيق و شماره علامات آن فراوان باشد، ممكن نيست كه كاملاً نشانه شيوه تلفظ باشد. با كمك علامات متعدد علم حروف نيز تا كسي چگونگي تلفظ زباني را نشنود، نمي‌تواند عبارت و كلمات آن را مانند اهل آن زبان ادا كند.

اما نقصي كه بر اثر تحول زبان و به‌تدريج در خط حاصل مي‌شود، مشكلي است كه همه ملت‌ها با آن رو به رو هستند. بعضي از حروف و اصوات زبان، در طي زمان تغيير مي‌پذيرند و اين تغيير، در گفتار حاصل مي‌شود؛ اما خط هميشه صورت كهن تلفظ را حفظ مي‌كند و از اينجا ميان «گفتار» و «نوشتار» اختلاف روي مي‌دهد. ديگر آنكه هر زباني ناگزير لغاتي از زبان‌هاي ديگر به عاريت مي‌گيرد و اگر علائم خط در اين دو زبان يكي باشد، كلمه خارجي به همان املاي اصلي در نوشتن به كار مي‌رود كه اغلب با املاي كلمه مشابه در زبان ثانوي تفاوت دارد و از اينجا براي اصوات واحد، علائم خطي متعدد پديد مي‌آيد. در خط فارسي نمونه همه اين موارد را مي‌توان يافت. چون خط عربي براي نوشتن فارسي به كار رفت، كلماتي كه از آن زبان اخذ شده بود، به همان صورت اصلي نوشته شد؛ حال آنكه به‌يقين در هيچ دوره‌اي حروف خاص عربي را فارسي زبان‌ها درست مثل اصل تلفظ نكرده‌اند. در زبان‌هاي ديگر نيز اين گونه موارد نمونه‌هاي متعدد دارد. به طور كلي،کاستی‌ها و عيوبي را كه در رسم الخط و املایی فارسی و عربی است، می‌توان به طریق زیر طبقه بندی کرد:

  1. در این دو زبان، حرف‌هايي هستند كه در كلمات خاصي از نوشتن حذف مي‌شود، مانند: «الف» در كلمات «اسحق» و «اسمعيل» که بیشتر نویسندگان به این مسأله توجهی نداشته و در کتب متعدد به رسم الخط‌های متفاوت نوشته می‌شود.
  2. پيوسته‌نويسي و جدا‌نويسي كلمات مركب كه در بیشتر موارد به صورت سليقه‌اي عمل مي‌شود، مانند: تنوع استفاده از «مي» چسبان و غير چسبان، تنوع چگونگی به كار بردن علامت‌هاي جمع (ها، ان، جات)‌، هم، هيچ، كه، ضماير شخصي متصل (مان، تان، شان)، شناسي، را، چه، چون، تر، ترين، بي (پيشوند نفي)، به، اي (نشانه ندا)، آن و اين. در كلمات به صورت پيوسته و يا جداگانه: «آنچه‌، آن چه؛ همچنانكه، همچنان‌كه؛ جنابعالي، جناب‌عالي؛ هيچكس، هيچ‌كس‏‎؛ ميتواند، مي‌تواند؛ آن‌ها، آنها».  در اين مورد، كلماتي كه پيشوند و يا پسوند دارند نيز در شكل‌هاي مختلف نوشته مي‌شوند. برخي از كلمات در دو شكل متصل‌نويسي و منفصل‌نويسي به دو شكل مختلف ظاهر مي‌شوند، مانند: «علاقمند و علاقه‌مند؛ انديشمند و انديشه‌مند. مصدرها و فعل‌هاي مركب و اسم‌هاي مشتق از آنها نيز به دو صورت متصل و منفصل نوشته مي‌شوند، مانند: «نگه‌داشتن و نگهداشتن».
    تفاوت واژه‌ها، در جستجوي مطالب از اينترنت توليد اشكال مي‌كند؛ چنانكه جستجوي «هيچ‌كس» نتايج متفاوتي را با جستجوي «هيچكس» مي‌آورد و يا جستجوي «كتاب‌شناسي» و «كتابشناسي» در موتور جستجوي گوگل، نتايج متفاوتي را ارائه مي‌كند. اين گونه كلمات، با اينكه در خواندن متن اشكال كمي به وجود مي‌آورند و هر آشناي به زبان فارسي به‌راحتي مي‌تواند آن را بخواند، اما در فناوري امروزه تجزيه و تحليل كلمات به كمك رايانه اشكال اساسي توليد مي‌كند. شايد اگر قاعده‌اي جامع و مانع براي آن وضع گردد، بتوان گفت بزرگ‌ترين مشكل خط فارسي و عربی حل شده است؛ براي مثال، خواندن سه كلمه: «بي‌حوصلگي، بيحوصلگي، بي‌حوصله‌گي» مشكلي ايجاد نمي‌كند. اما در محيط الكترونيكي براي بازيابي اين كلمه، بايد تمام شكل‌های اين كلمه را مورد جستجو قرار دهیم؛ به شرط اینکه از تمام صورت‌های نوشتاري آن آگاهی داشته باشيم.
  3. به‌كار بردن همزه در صورت‌هاي مختلف، مانند «مسأله، مسئله» و؛ «مسئول، مسؤول».
    و همچنین همزه حروف (أ، إ و ؤ) در کلماتی که باید این حمزه وجود داشته باشد.
  4. استفاده يا عدم استفاده از «ء» براي كلمات مختوم به‌هاي بيان حركت در حالت مضاف، مانند: خانه مسكوني، خانهء مسكوني و يا خانه‌ي مسكوني.
  5. انواع مختلف جمع براي يك واژه مفرد؛ به عنوان مثال، جمع بستن يك واژه با علائم جمع فارسي و علائم جمع عربي و نيز جمع بستن بي‌قاعده (جمع مكسر)، استفاده از جمع جمع، مانند: معلم، معلمين، معلمان، معلم‌ها.
  6. تبدیل تاء تانیث به‌هاء در بعضی از کلمات؛ به‌خصوص در زبان عربی، مانند: «فاطمه و فاطمة» و «علامه و علامة».
  7. یکی دیگر از مشکلات جستجو در زبان فارسی و عربی، اعراب داخل متون می‌باشد. بعضی از نویسندگان مقید هستند که بعضی از کلمات را با اعراب بیاورند و در متون دیجیتال نیز با اعراب آورده می‌شود؛ ولی محقق و نویسنده دیگر همین کلمه را بدون اعراب می‌آورد که لازمه‌اش تکرار جستجو  و یا نیافتن نتیجه مطلوب است.

بررسی راهکارهای جستجوي دقيق و مفيد

جستجو در نرم‌افزار‌ها آسان است؛ اما يافتن اطلاعات مفيد و مناسب، دشوار است. با وجود قابليت‌هايي كه موتورهاي جستجو در امر بازيابي اطلاعات دارند، انجام فرايند جستجو در آنها نيز نيازمند رعايت اصول و نكته‌ها و نیز مهارت‌هاي خاصي است كه بدون توجه به آنها انجام عمل جستجوي موفق تقريباً امكان‌ناپذير و در بعضي موارد ناممكن مي‌باشد. همان‌طور که در فرایند جستجو اشاره شد، هر فرایند جستجو می‌تواند به مراحل: «ارائه درخواست دقیق» و «انتخاب منابع اطلاعاتی مناسب» تقسیم شود. کاربران و محققان برای رسیدن به یک نتیجه مناسب و سریع، لازم است که فرایند جستجو را رعایت نمایند تا کاوشی موفق و کارآمد داشته باشند. در ادامه، اصول و رهنمودهايي براي جستجوي موفق و مفيد در موتورهاي جستجو ارائه مي گردد.

* ارائه درخواست دقیق: يكي از كاراترين و مقتدرترين روش‌هاي جستجوي اطلاعات در دنياي وب، استفاده از واژه‌هايي است كه اصطلاحاً كلمات كليدي یا کلیدواژه ناميده مي‌شوند. بیشتر كاربران حرفه‌اي و جستجوگران ورزيده مي‌توانند با طرح بهترين كلمات كليدي و به‌كار بستن قوانين تركيب آن‌ها با هم، براي نيازهاي اطلاعاتي خود پاسخي در خور بيابند. در اين روش، توصيه‌هاي زير براي انتخاب کلمات كليدي و نيز جستجوي دقيق و مفيد پيشنهاد مي‌شود كه به شرح ذيل است:

  1. حتي‌المقدور سعي شود كلمات كليدي از ميان اصطلاحات منحصر به فرد و اسامي خاص انتخاب شود و از آوردن كلمات عمومي كه عناوين بسياري را در زيرمجموعه خود شامل مي‌شوند، خودداري كنيد.
  2. هميشه اسم شخص يا نام شیء يا هر چيز ديگري را كه مد نظر داريد، به ‌طور كامل وارد كنيد.
  3. دقت كنيد كه اگر موتور جستجو ميان حروف بزرگ و كوچك تفاوتي مي‌گذارد، اين مسأله را در طرح كلمات كليدي خود مد نظر داشته باشيد.
  4. اگر نتيجه جستجو صفر بود، به احتمال زياد مي‌تواند از يك اشتباه تايپي باشد و یا در دامنه و یا کتاب انتخاب‌شده، دقت لازم نشده است.
  5. اگر املاي صحيح و كامل كلمه‌اي را نمي‌دانيد، روش جستجو را تغییر داده و با توجه به نوع نرم‌افزاری که استفاده می‌کنید، از فهرست کلمات یا  فهرست لغات و یا از فهرست کلمات هم‌خانواده.
  6. کلمه و یا کلمات مورد نظر را انتخاب نمایید و سپس جستجو کنید. باید توجه داشت که در بعضی از نرم‌افزار‌ها می‌توان از علامت جانشين كه اغلب * و يا ؟ است، استفاده كرد.
  7. استفاده از امکانات ویژه هر برنامه که برنامه‌نویسان آن را در موتور جستجو قرار داده‌اند، مانند: جستجوی مشابه، جستجوی دقیق‌، جستجوی اعراب و جستجو انواع حالت‌های «أن» و «إن» و همچنین استفاده از گزینه شروط.
  8. استفاده از عملگرهای جستجو به‌خصوص علمگرهای بولی، یعنی:«NOT»، «OR» و «AND» که در نرم‌افزار‌های فارسی به آن جستجوی ترکیبی‌، عطفی و نفی نیز گفته می‌شود، می‌تواند کمک فراوانی به سرعت جستجو و رسیدن به جستجوی مطلوب نماید. با كمك عملگرهاي جستجو (جستجوي تركيبي) و امكان فهرست‌سازي از فهرست و متن كتاب‌ها با استفاده از علائم عمومي يا Wildcard، يعني: علامت سؤال (؟) و ستاره (*) می‌توان جستجوهای گسترده‌تر و دقیق‌تری را سامان‌دهی کرد.
    مثال: در نرم‌افزار جامع تفاسير نور محصول مرکز تحقیقات کامپیوتری علوم اسلامی نور در بخش كتابخانه، چنانچه در قسمت جستجو در متن برگه گروه 1 را فعال كنيد و سپس مثلاً واژه «شهادت» را به همراه علامت ستاره (*) جستجو كنيد، 43 كلمه فهرست مي‌شوند كه شامل واژه شهادت و كلماتي است كه با كلمه شهادت شروع شده‌اند و بعد از آن نيز حروف ديگري آمده و كلمات جديدي ساخته شده‌اند، مانند: شهادت، شهادت دهندگان، شهادتگاه، شهادت‌طلبي، شهادتين و شهادت‌گونه. در اين حالت، مي‌توانيد تمام يا برخي از اين كلمات را انتخاب كنيد و محدوده پژوهش خودتان را گسترش دهيد و يا آن را به واژگان مورد نظر خويش محدود نماييد. (4)
    گفتنی است که این عملگرها در تمامی نرم‌افزارها یکسان نبوده و عملکرد آنها با توجه به موتور جستجوی تعریف‌شده تغییر می‌یابد.

* انتخاب منابع اطلاعاتی مناسب: در تحقيقات رايانه‌ای، وسيع بودن عرصه پژوهش هميشه به سود محقق نيست و گاهي امر تحقيق را با دشواري‌هايی چند روبه‌رو می‌کند. از اين ‌رو، وجود ابزاری كارآمد برای محدود کردن دامنه تحقيق، لازم است. به همین منظور، بیشتر نرم‌افزار‌ها و کتابخانه‌های دیجیتال برای آسان‌سازي امر پژوهش، گزینه‌ای را با عنوان «دامنه» در نرم‌افزار‌های خود گنجانده‌اند. کاربر می‌تواند با انتخاب این گزینه، دامنه تحقیق خود را محدود سازد تا سریع‌تر به مطلب مورد نظر دست یابد.

اين قابليت در برخي نرم‌افزارها، تفاوت‌هايي از نظر تنوع با ديگر نرم‌افزارها دارد که کاربر با مراجعه به راهنمای هر نرم‌افزار با قابلیت‌های گزینه دامنه آشنا می‌شود. در بعضی از نرم افزارها علاوه بر دامنه نمايشي و جستجو، دامنه موضوعي و كتابي نيز قابل دسترسي است.

پی نوشت ها:

اطلاعات تکميلي

  • تاریخ انتشار نسخه چاپی: سه شنبه, 24 اسفند 1389
  • صفحه در فصلنامه: صفحه 24
  • شماره فصلنامه: فصلنامه شماره 33
بازدید 66121 بار
شما اينجا هستيد:خانه آرشیو فصلنامه شماره 33 (زمستان 1389) راهبرد‌های جستجو در نرم‌افزارهای اسلامی