نگرشی بر جایگاه و انواع نمایه سازی در محصولات نور

سه شنبه, 31 شهریور 1394 ساعت 14:57
    نویسنده: مصطفی علیمرادی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید
این مورد را ارزیابی کنید
(3 رای‌ها)

چکیده

نمایه سازی، از نظام های سازمان دهی دانش به شمار می رود که پیشینه کاربرد آن، طولانی است. این نظام سازمان دهی، شکل ها و الگوهای گوناگونی در ادوار گوناگون داشته و در روزگار حاضر نیز با پیشرفت های رخ داده در حوزه هوش مصنوعی و متن کاوی، شکل های نوی از نمایه سازی ماشینی با استفاده از الگوریتم های خاص، در حال انجام و پیگیری است. در مرکز تحقیقات کامپیوتری علوم اسلامی نیز از نمایه سازی، به مثابه یکی از ابزارهای سودمند در سازمان دهی اطلاعات سود جسته می شود. در این مقاله، به بررسی شکل و نظام های گوناگون نمایه سازی و کاربرد آن در برنامه های مرکز پرداخته خواهد شد.

کلیدواژگان: نمایه سازی پیش همارا، نمایه سازی پس همارا، نمایه سازی خودکار، نمایه سازی دستی، حفظ اصطلاح، حذف اصطلاح.

اشاره

منظور از نمایه، فهرست سازمان یافته مدخل هایی (Entry) است که به منظور کمک به استفاده کنندگان در جایابی دقیق اطلاعات یک مدرک ساخته می شود؛ به عبارت دیگر، منظور از نمایه، کلمه یا کلماتی است که نشان دهنده مفاهیم اصلی یک مدرک برای آسان سازی بازیابی اطلاعات باشد. بنا بر این تعریف، فهرست نویسی و رده بندی نیز از مصادیق نمایه شمرده می شوند. (نیازی، 2007)

بر پایه این تعریف از نمایه، نمایه سازی عبارت از فرآیند توصیف و ارائه یک مدرک در قالب اصطلاحات برگرفته از محتوای موضوعی مدرک است.

اهداف نمایه سازی

هدف اصلی از نمایه سازی، بازنمود منابع منتشرشده در قالبی است که برای واردکردن در نوعی از پایگاه اطلاعاتی مناسب باشند تا از طریق آن، کاربران یا استفاده کنندگان از آن اطلاعات، به آسانی به آن دسترسی داشته باشند. این پایگاه اطلاعاتی بازنمودی، ممکن است در قالب: چاپی، الکترونیکی یا کارتی ارائه شود. به گونه کلی، اهداف نمایه سازی عبارت است از:

  • - برقراری ارتباط میان مفاهیم؛
  • - تنظیم شناسه ها به ترتیبی نظام مند و مؤثر؛
  • - شناسایی سریع مدارک در یک مجموعه؛
  • - سازمان دهی اطلاعات به قصد بازیابی سریع و آسان مدارک.

فایده های نمایه سازی

نمایه سازی متون و اسناد، بر اساس اهدافی که انجام می شود، سودمندی هایی دارد که برخی فواید نمایه سازی متون، در ذیل آورده می شود:

  1. ایجاد سرعت و سهولتِ دستیابی به اطلاعات کتاب شناختی، گزارش ها و اسناد عملی برای محققان؛
  2. ایجاد یکدستی در اختصاص توصیفگر به اسناد علمی؛
  3. فراهم کردن ابزارهای کارآمد برای کمک به کاربر در پیدانمودن اطلاعات و دسترسی به محتوای مدرک؛
  4. ایجاد سهولت در بازیابی اطلاعات بر اساس توصیفگرها و بالابردن میزان جامعیت و مانعیت در بازیابی اطلاعات بر اساس توصیفگرها؛
  5. ایجاد پایگاه اطلاعاتی گزارش ها و اسناد علمی در زمینه های گوناگون؛
  6. سازمان دهی و انتقال اطلاعات علمی. (یوسفی، 1388، 6)

ساختار نمایه ها

نمایه، از تعدادی مدخل تشکیل می شود. اجزای مدخل، عبارت اند از:

1. شناسه (Heading) یا توصیفگر (Descriptor): کلیدواژه، مرجحی است که نمایه ساز آن را به منزله موضوع یا یکی از موضوعات مدرک انتخاب می کند و جزء اصلی مدخل را تشکیل می دهد. مدخل ها بر اساس شناسه ها مرتب می شوند. شناسه ها انواع متعددی دارند؛ شناسه نام، شناسه موضوع و شناسه عنوان.

2. بیانگر (Modifier): کلمه یا عبارتی است که جنبه خاصی از شناسه را نشان می دهد. بیانگرها می توانند انواعی چون بیانگرهای: زمانی، مکانی، موضوعی و جز آن داشته باشند. بعضی از نمایه ها فاقد بیانگرند. چگونگی آمدن بیانگر ذیل شناسه متفاوت است؛ گاهی بیانگرها به صورت الفبایی ذیل شناسه می آیند (برون بافتی) و گاه نیز بر اساس توالی حضور در متن بعد از شناسه اصلی می آیند (درون بافتی).

3. جای نما (Locators): عدد یا هر علامت دیگری است که در نمایه در مقابل شناسه ها یا بیانگرها می آید و جست وجوگر را به محل آمدن اطلاعات هدایت می کند. البته گاه در بعضی نمایه های الکترونیکی، نمایه فاقد جای نمای قابل رؤیت است؛ اما در فایل اصلی این جای نماها وجود دارند. در این نمونه ها کاربر با انتخاب شناسه و یا بیانگر، مستقیماً به اطلاعات کتاب شناختی، چکیده و جز آن هدایت می شود.

اینکه جای نما جست وجوگر را به کدام واحد اطلاعاتی هدایت کند، به سیاست گذاری اوّلیه در زمینه نوع واحد سندی (Documentary unit) بستگی دارد. واحد سندی، می تواند یک یا چند صفحه از مدرک، یک یا چند پاراگراف از یک متن، اطلاعات کتاب شناختی یا چکیده و یا متن کامل باشد.

4. ارجاعات (References): ارجاع، بخشی از مدخل است که استفاده کننده را از یک شناسه یا بیانگر به شناسه دیگر راهنمایی می کند. ارجاعات در نمایه سازی نیز همانند فهرست نویسی انواع مختلفی دارد؛ در نمایه سازی، از ارجاع «نگاه کنید ذیل» نیز برای هدایت کاربر از یک شناسه به اطلاعات ذیل شناسه دیگر استفاده می شود. البته باید از ارجاع کاربر به جایی که در آن اطلاعاتی وجود ندارد، خودداری شود. این نوع ارجاعات، ارجاع کور نامیده می شود. بعضی نمایه ها، فقط از شناسه و جای نما تشکیل شده اند و سایر اجزا را ندارند. (نیازی، 2007)

انواع نمایه ها

انواع نمایه ها از دیدگاه های گوناگون به این گونه شناخته می شوند:

الف) نمایه از نگاه نوع اطلاعات

نمایه سازی را از دید نوع اطلاعاتی که به کاربر عرضه می شود، می توان این گونه دسته بندی کرد:

  • - نمایه نام های اشخاص: استخراج و عرضه اعلام اشخاص به کاررفته در یک سند در یک نظم الفبایی، یا به ترتیب رخداد در متن، از نمونه های نمایه نام های اشخاص به شمار می رود.
  • - نام های تنالگانی (affiliation names): سازمان، شرکت، ارگان یا واحدی که نویسنده یا شخصی که دارای آثار است، در آن کار می کند.
  • - نام های جغرافیایی (geographic names): استخراج اعلام مکان ها از اسناد و فهرست کردن آن در نظامی الفبایی در انتهای کتاب یا در فهرستی جداگانه، از این نوع نمایه سازی است.
  • - نمایه موضوعی: استخراج واژگان نمایه ای (کلیدواژگان) از یک متن در موضوعی خاص، نمایه سازی موضوعی است.
  • - نمایه عناوین آثار: استخراج عنوان هایی از آثار مرتبط با یک نویسنده، یا در یک حوزه موضوعی خاص، و عرضه فهرستی از آن، نمایه آثار خوانده می شود.

بر این اساس، گزارش های استنادی نیز در فهرست نمایگان جای می گیرند.

ب) نمایه از نگاه چگونگی توصیف مدرک

  • - توصیف خود مدرک (نمایه سازی توصیفی): که به توصیف اطلاعات کتاب شناختی می پردازد؛
  • - توصیف محتوای مدرک (نمایه سازی تحلیلی): که متن سند را تحلیل می کند و آن را به واژه ها باز می گرداند.

برای توصیف محتوای مدرک، دو رهیافت کلی وجود دارد:

* نمایه سازی واژه ای: در این نوع نمایه، بر اساس سیاست گذاری های اوّلیه، واژه هایی از تمام یا بخشی از متن انتخاب و موضوع مدرک تلقی می شود؛

* نمایه سازی مفهومی (موضوعی): شیوه ای که توسط انسان به کار گرفته می شود تا موضوعات، ویژگی ها، معانی و یا کاربردهای ممکن متون زبانی، تصاویر و سایر انواع پیام ها را درک کند و بشناسد. این شناخت، دو مرحله دارد:

  • - شناخت موضوع و ویژگی های آن؛
    - توصیف آن ها در قالب واژگانی مناسب برای بازیابی.

ج) نمایه از نگاه شیوه تهیه

  • - دستی: در این گونه از نمایه سازی، همه مراحل نمایه سازی را انسان انجام می دهد؛
  • - ماشینی: هرگاه نمایه سازی با استفاده از الگوریتم رایانه ای، واژه های کلیدی یک مدرک از عنوان یا متن استخراج، و سپس در قالب مدخل های نمایه مرتب و سازمان دهی شود، نمایه سازی ماشینی خواهد بود؛
  • - ترکیبی از این دو: هرگاه تحلیل متن و استخراج کلیدواژه ها توسط انسان صورت گیرد و از انواع نرم افزارها برای انجام دیگر امور نظیر مرتب کردن مدخل ها، ایجاد ارجاعات و مانند آن، کمک گرفته شود، نمایه سازی به کمک رایانه خواهد بود.

نمایه سازی ماشینی، به دو شیوه انجام می گیرد:

  • * حذف اصطلاح؛
  • * حفظ اصطلاح.

از مهم ترین نمایه سازی های شیوه حفظ اصطلاح، نمایه سازی کوئیک (کلیدواژه درون متن) (keyword in the context) (KWIC) و کواک (برون بافتی، یا کلیدواژه در کنار متن) (keyword and context index) (KWAC) است. این دو نوع نمایه سازی، بر اساس واژه های عنوان و الگوریتم رشته ای انجام می شوند. (ا. د. لنکستر 1388, 75)

د) نمایه از نگاه زبان

  • - زبان آزاد: در نمایه سازی به زبان آزاد، نمایه ساز از توصیفگرهایی که خود مناسب می داند، برای توصیف مفاهیم موجود در مدارک استفاده می کند؛ خواه این توصیفگرها در متن آمده باشد یا نه؛
  • - طبیعی: در نمایه سازی به زبان طبیعی، از واژه های به کاررفته در خود مدرک به عنوان توصیفگر استفاده می شود؛ یعنی مفاهیم استخراج شده فقط با استفاده از واژه های به کاررفته در متن به توصیفگر تبدیل می شوند؛
  • - کنترل شده: در نمایه سازی کنترل شده، مفاهیم استخراج شده از متن به منظور انتخاب توصیفگر با فهرست های معیار، مانند سرعنوان های موضوعی و یا اصطلاح نامه ها، تطبیق داده می شود.

هـ) نمایه از نگاه مرحله همارایی

منظور از همارایی، چگونگی و زمان ایجاد پیوند نحوی بین اصطلاحات موجود در شناسه هایی است که از چند اصطلاح تشکیل شده اند. همارایی، بر دو گونه است:

پیش همارا: در نظام پیش همارا، برقراری رابطه نحوی بین اصطلاحات، پیش از ذخیره سازی و توسط نمایه ساز صورت می گیرد. تعیین موضوع، در قالب رشته ای از کلمات که با ترکیب نحوی معیّنی پشت سر هم قرار گرفته، بیان می شود و اگر جست وجوگر در همان قالب به دنبال موضوع بگردد، قادر به بازیابی خواهد بود.

پس همارا: در نظام پس همارا، برقرارکردن پیوند بین واژه های یک شناسه مرکب، در مرحله بازیابی و توسط جست وجوگر صورت می گیرد. به علاوه، فراهم شدن امکان استفاده بیشتر از رایانه در ذخیره و بازیابی، سبب رواج بیشتر نظام های پس همارا شد.

و) نمایه از نگاه چگونگی تنظیم

  • - الفبایی: هرگاه نمایه های استخراج شده از اسناد، بر پایه حروف الفبایشان تنظیم شده باشند، نه بر پایه رده یا سلسله مراتب نمایه ها، یافتن آن ها با پیمایش الفبایی ممکن خواهد بود.
  • - تاریخی: ترتیب فهرست کردن نمایه ها، ممکن است با در نظرگرفتن ترتیب تاریخی آن ها باشد. این شیوه از نظام بخشی به نمایه ها، بیشتر ممکن است در: نمایه آثار، نمایه اَعلام اشخاص و رخدادهای تاریخی رایج باشد.
  • - رده ای/موضوعی: مرتب کردن نمایه های استخراج شده از متون، اگر بر پایه سلسله مراتب رده ای اصطلاح ها باشد و اصطلاح های خاص، ذیل اصطلاح های عام آورده شود، فهرست نمایه ها نظمی رده ای یافته است.

نمایه های یک مدرک ممکن است، به شیوه های متفاوت تنظیم گرددند؛ به این معنا که یا بر اساس نظم الفبایی مرتب شوند، یا تاریخی و یا رده ای (عام به خاص).

ملاک ها و جنبه های نمایه سازی

ارزیابی نمایه سازی بر اساس ملاک ها و جنبه هایی صورت می پذیرد که آن ها را این گونه می توان برشمرد:

  • - جنبه فنی: نمایه باید دارای زبان مناسب و شکل قابل درک باشد و به سادگی بتوان از آن استفاده کرد؛
  • - جنبه معنایی: واژه ها باید مفاهیم را بدون ابهام منتقل کنند؛
  • - میزان کارایی: نمایه باید اطلاعات مرتبط را به درستی شناسایی کند و در بازیابی اطلاعات مؤثر باشد؛
  • - جامعیت: دامنه زیر پوشش نمایه، کامل و متعادل باشد؛
  • - مانعیت: موضوع هایی که مدرک به آن ها خیلی کم و جزئی پرداخته است، بازیابی نشوند؛ به عبارت دیگر، ریزش کاذب نداشته باشد یا میزان آن به حداقل ممکن برسد؛
  • - عمق نمایه سازی: عمق نمایه سازی، ارتباط مستقیمی به استفاده کنندگان و تعداد توصیفگرها برای هر مدرک دارد.

در انتخاب اصطلاح، انسجام داشته باشد و اصطلاحات انتخاب شده، با سطح کاربران متناسب باشد.

اقسام نمایه سازینمودار 1: اقسام نمایه سازی

ویژگی های نمایه سازی (موضوعی/مفهومی)

سه عامل مهم در ساخت نمایه مؤثر است:

نخست، ماهیت مجموعه یا نوع موادی که باید نمایه شود، برای نمونه تجانس یا عدم تجانس آن ها، فنی یا غیرفنی بودن منابع، یک زبانه یا چندزبانه بودن آن ها؛

دوم، ویژگی های استفاده کنندگان است. نمایه ساز بداند که آیا استفاده کنندگان از مجموعه و نمایه، گروهی متجانس هستند یا نه، جست وجوگران موردی اند یا پژوهشگران حرفه ای، کم سوادند یا تحصیل کرده، متخصص هستند یا غیرمتخصص؛

و سوم، شرایط و محیط فیزیکی است؛ مثلاً تعیین اینکه آیا نمایه به صورت مستقیم و به همراه منبع اصلی (مثل نمایه انتهای کتاب) و یا جداگانه منتشر می شود، و یا اینکه آیا نمایه در دست تهیه مستقل و خودکفاست یا بخشی از یک نمایه دنباله دار است که بعداً با سایر قسمت ها ترکیب می شود، و آیا به صورت دستی ذخیره و بازیابی می شود یا به صورت ماشینی.

نمایه ساز باید تصویر روشنی از محتوای اطلاعاتی مدرک به دست آورد. به این منظور، مطالعه عنوان، رئوس مطالب، چکیده، نتیجه گیری، پیشنهادها یا تمام متن (بسته به عمق نمایه)، ضروری است. از سوی دیگر، نمایه ساز باید با نیازهای جامعه استفاده کننده (بالقوه و بالفعل) آشنا باشد تا بتواند تمامی راه های دستیابی موضوعی به مدرک را در نمایه پیش بینی کند. داشتن دید هدفمند، اما بی طرف، به همراه توجه به نیازهای احتمالی جامعه، برای نمایه سازی لازم است. از این منظر، نمایه ساز باید توجه کند که استفاده کننده از نمایه، ممکن است با مخاطبانی که اصل اثر برای آن ها نگاشته شده، کاملاً متفاوت باشد؛ مثلاً اگر قطعاتی از یک متن فلسفی به عنوان گزیده نثر در یک کتاب آیین نگارش گنجانیده شده، در این حالت، نمایه ساز متن را از بُعد آموزش متن نیز مورد توجه قرار می دهد و سعی در نمایش این ویژگی ها در نمایه دارد.

مفهوم چیست؟

ارائه تعریفی جامع از مفهوم در نمایه سازی، مشکل است. در تحلیل محتوا شاید بتوان چکیده یک فکر یا خمیرمایه موجود در مدرک و یا روابط موجود میان اشیا یا رخدادها و سایر پدیده ها را مفهوم نامید و یا ممکن است به دسته ها و یا رده هایی که این پدیده ها به آن ها تعلق دارند، مفهوم اطلاق کرد. در این مرحله، نمایه ساز باید درباره موضوعاتی تصمیم بگیرد که از دید نمایه سازی، دارای اهمیت است. می توان اطلاعات هر مدرک را گروه بندی نمود و هر گروه را در قالب یک عبارت کوتاه یادداشت کرد. تقریباً همه صاحب نظرانی که درباره تحلیل محتوای مدرک سخن گفته اند، بر اهمیت نقش تجربه در این امر تأکید دارند. طبیعی است که موضوعات اصلی باید مدخل قرار گیرند؛ اما در مورد موضوعات فرعی و اینکه تا چه حد در نمایه حضور یابند، باید تصمیم گیری کرد. بعضی از مراکز نمایه سازی، سیاست خاصی در مورد چگونگی انتخاب موضوع، تدوین و به نمایه سازان ارائه می کنند؛ مثلاً به نمایه سازان چکیده نامه شیمی گفته شده هر نوع روش اندازه گیری، ابزار کار، پیشنهاد و نظریه جدید، و تمام ترکیبات جدید شیمیایی که در متن آمده، باید نمایه شود.

اصول استخراج مفاهیم و واژه های متن

استخراج مفاهیم و واژه ها از یک متن و انتساب آن به مدرک، بر پایه اصول معیّنی صورت می گیرد که عبارت اند از:

الف) نیاز استفاده کننده؛ یعنی آشنایی نمایه ساز با نیازهای اطلاعاتی استفاده کننده بالفعل و بالقوه و همچنین واژگان رایج در حوزه ای که نمایه سازی در آن صورت می گیرد، اهمیت دارد؛

ب) حفظ جامعیت نمایه؛ بدین معنا که در نمایه سازی سعی بر آن است که تمام مفاهیم اصلی موجود در مدرک که دارای ارزش اطلاعاتی است، به عنوان شناسه در نمایه گنجانده شود. انتخاب مفاهیمِ فرعی که در مدرک به طور جانبی به آن پرداخته شده، سبب حجیم شدن نمایه و انحراف کاربر از مفاهیم اصلی است. در این زمینه، توجه به عمق نمایه که در سیاست گذاری های اوّلیه انجام می شود، می تواند راهگشا باشد؛

ج) اخص بودن کلیدواژه؛ بدین معنا که واژه هایی که به عنوان توصیفگر انتخاب می شوند، باید اخص ترین واژه های ممکن برای توصیف موضوع باشد؛ مثلاً اگر مدرکی راجع به مدارس ابتدایی است، اختصاص توصیفگر کلی مدارس به آن، خلاف این اصل است.

پس از انتخاب نهایی مفاهیم، برای تبدیل این مفاهیم به توصیفگرهای نمایه، مسائل متعددی مطرح است که عمده ترین آن ها عبارت اند از:

  • - چگونگی کنترل واژگانی به منظور رعایت اصل وحدت در نمایه سازی؛
  • - چگونگی همارایی شناسه ها یا نظام های پیش همارا و پس همارا. (نیازی، 2007)

نمایه سازی نشریات

به سبب کثرت نشریات، مسئله نمایه سازی آن ها، بیش از هر زمان دیگر احساس می شود. نمایه نشریات، بر حسب نوع نشریات فرق می کند. عواملی چند که در تهیه نمایه نشریات مؤثرند، عبارت اند از: موضوع نشریات و برخی جنبه های خاص آن ها، سطح معلومات افرادی که نشریه برای آن ها نوشته می شود، حجم مجله و بالاخره نوع افرادی که از مجله استفاده می کنند.

مقالات نشریات که در موضوع های گوناگون نگاشته می شوند، بسته به رتبه علمی که دارند، دارای فراداده هایی هستند؛ برای نمونه، مقالات نشریاتی با رتبه علمی ـ ترویجی و علمی ـ پژوهشی، چکیده و کلیدواژه دارند. کلیدواژگان در مقالات، فهرستی از واژه های تک، یا عبارت های کوتاهی است که حوزه مطالعه مقاله را محدود می کنند و بیشتر برای جست وجوهای الکترونیکی به کار می روند. در واقع، کلیدواژگان، کلماتی هستند که نویسنده مقاله از عنوان و نیز محتوای اصلی مقاله برداشت نموده، به کمک آن، موضوع مقاله را بیان می کند. همان گونه که از نام آن نیز برمی آید، این لغات باید کلمات مهم و کلیدی در آن پژوهش باشند. فلسفه وجودی کلیدواژگان، دستیابی آسان به مقاله از بانک های اطلاعاتی است. به همین منظور، کلیدواژگان از سرعنوان های موضوعی انتخاب شده در ذیل چکیده مقاله ذکر می گردد.

این کلیدواژگان، در طبقه بندی مقالات در فهرست کتابخانه های موجود، پایگاه ها و یا موتورهای جست وجوی اینترنتی، بسیار مؤثر واقع می شود. با استفاده از این کلیدواژه ها، هم استفاده کنندگان به موضوع کلی و زیرموضوع مقاله پی می برند و هم پایگاه هایی که مقالات عرضه می کنند، با استفاده از همین کلیدواژه ها به کاربر کمک می کنند که مقالات یا مطالب مرتبط دیگر با مقاله انتخاب شده را بیابد.

الزامات معمول در تعیین کلیدواژگان

  1. در نشریات علمی ـ پژوهشی، معمولاً پنج کلمه به منزله «واژگان کلیدی» آورده می شود؛
  2. گاه انتخاب واژگان کلیدی، از مجموعه لغات کنترل شده صورت می گیرد؛
  3. در نگارش کلیدواژگان، یا از کلمات موجود در عنوان استفاده می شود یا بدون استفاده از لغات موجود در عنوان، از محتوای اصلی مقاله برداشت می شود؛
  4. در نگارش کلیدواژگان، از عبارت نیز استفاده می شود و در صورت عدم دستیابی به عبارت یا کلمه از سرعنوان های موضوعی، از کلمه و عباراتی جامع که منظور نویسنده را به درستی به خواننده منتقل سازد، بهره گرفته می شود. (دانشکده پرستاری و مامایی [بی تا])

نمایه سازی به شیوه حفظ اصطلاح و منظم سازی آن با اصطلاح نامه و مرتبطات خاص اصطلاح ها

زبان نمایه سازی، چند گونه است:

  • - آزاد: در این گونه از زبان نمایه سازی، هر واژه یا اصطلاح که موضوع را خوب توصیف کند، به منزله اصطلاح نمایه برگزیده می شود؛ خواه پدیدآور مدرک آن واژه را به کار برده باشد یا نه.
  • - طبیعی: در این زبان نمایه سازی، از همان زبان مدرک استفاده می شود و مبتنی بر واژه های: عنوان، چکیده یا متن کامل است و در بسیاری از نمونه ها، به گونه ماشینی انجام می شود؛ معمولاً هیچ ضابطه خاص برای گزینش اصطلاحات نمایه یا توصیفگرها وجود ندارد و مستندسازی نه درباره اسامی و نه مفاهیم صورت نمی گیرد.
  • - کنترل شده/ مقید/ مهارشده و ساختارمند: در این نوع نمایه سازی، مفاهیم استخراج شده از متن به منظور انتخاب توصیفگر با فهرست های معیار و اصطلاح ها و واژگان کنترل شده تطبیق داده می شود. فهرست های سرعنوان های موضوعی، طرح ها یا نظام های رده بندی و اصطلاح نامه ها که می توان آن ها را در نظام های نمایه سازی انواع منابع به کاربرد، از این گونه واژگان به شمار می آیند. (وتر، 1378، 64)

مزیت استفاده از زبان کنترل شده در نمایه سازی، جلوگیری از حذف اطلاعات به دلیل پراکندگی ذیل توصیفگرهای متعدد است. همچنین، در این شیوه استفاده کننده، به مراجعه به مدخل های متعدد برای یافتن اطلاعات مربوط به یک مفهوم واحد نیازی ندارد. نمایه سازی واژه ای و عدم کنترل واژگان در شیوه های نمایه سازی خودکار، از جمله در بانک های اطلاعاتی موتورهای جست وجو، سبب آشفتگی کاربران در بازیابی اطلاعات می شود. بازیابی هزاران مدرک غیرمرتبط و عدم بازیابی مدارک مرتبطی که مفهوم مورد جست وجو را با توصیفگر متفاوت ذخیره کرده، نیاز بیشتر به نمایه سازی مفهومی و کنترل واژگانی را در این محیط یادآور می شود. با رشد استفاده از فنون نمایه سازی ماشینی و افزایش نیاز به جست وجوی پایگاه های اطلاعاتی متعدد که در آن ها زبان های کنترل شده متفاوتی به کار گرفته می شود، دانشمندان علوم اطلاع رسانی تلاش هایی را به منظور تهیه اصطلاح نامه های جست وجو (در مقابل اصطلاح نامه های نمایه سازی) آغاز کرده اند، این نوع اصطلاح نامه ها، دیگر از فهرست اصطلاحات مرجح که در نمایه سازی به کار می روند، تشکیل نمی شوند؛ بلکه بیشتر سعی می کنند نمایی از واژگان یک حوزه موضوعی ترسیم کنند و پیوندی بین واژه های مختلف ناظر به یک مفهوم و همچنین، واژه های اعم و اخص و وابسته برقرار کنند. هدف این تلاش، به جای محدودکردن یا کنترل واژگان نمایه سازی، آسان سازی جست وجو، فارغ از واژگان به کاررفته در نمایه است. در دوران معاصر، همچنین، علاقه به استفاده از «انتولوژی» (هستی شناسی)ها برای مدیریت کنترل واژگان و نیز جابه جایی مفهومی در عرصه جست وجوی الکترونیکی و به کارگیری رایانه، افزایش یافته است. (نیازی، 2007)

نمایه سازی از نظر چگونگی تهیه

  • - نمایه سازی استخراجی (اشتقاقی)؛
  • - نمایه سازی تخصیصی (انتسابی)؛
  • - ترکیبی از هر دو.

در نمایه سازی از طریق استخراج، از واژگان و عباراتی که واقعاً در مدرک وجود دارند، برای بیان محتوای موضوعی همان مدرک استفاد می شود. در این نوع نمایه، بیان های منتقل کننده معنا از متون استخراج شده، با تغییرات کمی وارد فایل جست وجو می شوند. این تغییرات جزئی عبارت اند از: جمع و مفردکردن، استانداردسازی، جایگزین کردن واژه هایی به جای فعل و از این قبیل تغییرات.

نمایه سازی تخصیصی، مستلزم اختصاص اصطلاحات به مدرک از منبعی غیر از خود آن مدرک است. اصطلاحات ممکن است از ذهن نمایه ساز اختصاص یابند؛ مثلاً نمایه ساز می تواند اصطلاحاتی را که به وضوح در چکیده نیز نیامده است، به مدرک اختصاص دهد. عموماً نمایه سازی تخصیصی، مستلزم تلاش برای ارائه محتوای تحلیل موضوعی با استفاده از اصطلاحاتی است که از نوعی واژگان کنترل شده استخراج می شوند. (لنکستر، 1388)

گاهی نمایه هایی از متن استخراج می شود و سپس با استفاده از واژگان کنترل شده، مانند سرعنوان های موضوعی و اصطلاح نامه ها، اصطلاح ها را هماهنگ و منتظم می کنند. مقصود از هماهنگی واژگان، افزون بر برقراری روابط سلسله مراتبی، شامل: هم ارزی و هم بستگی میان واژگان؛ ارتباط هایی افزون بر آن، مانند اشتراک در همایندی در یک بستر گزاره ای در متن الصلوه و الزکاه در آیات قرآن؛ ارتباط به سبب تعلق به دوره تاریخی یکسان، مانند فرعون و موسی؛ ارتباط به سبب مشترک بودن در سنخ و صنفی خاص حافظ و سعدی؛ ارتباط به سبب مصداق بودن برای مفهومی واحد، فرعون و نمرود (مصداق های طاغوت) و مواردی از این دست می باشد.

نمایه سازی به شیوه حفظ اصطلاح

نمایه از نظر شیوه تهیه، به ماشینی (خودکار)، دستی یا ترکیبی از این دو تقسیم می شود.

نمایه سازی ماشینی، نوعی نمایه سازی است که در آن با استفاده از الگوریتم رایانه ای، واژه های کلیدی یک مدرک از عنوان یا متن استخراج شده، سپس، در قالب مدخل های نمایه، مرتب و سازمان دهی می گردند. هرگاه تحلیل متن و استخراج کلیدواژه ها توسط انسان صورت گیرد و از انواع نرم افزارها برای انجام سایر امور نظیر مرتب کردن مدخل ها، ایجاد ارجاعات و غیره کمک گرفته شود، نمایه سازی به کمک رایانه گفته می شود و هرگاه همه مراحل را انسان انجام دهد، نمایه سازی دستی نامیده می شود.

نمایه سازی ماشینی، به دو شیوه حفظ اصطلاح و حذف اصطلاح انجام می گیرد. از مهم ترین نمایه سازی های شیوه حفظ اصطلاح، نمایه سازی کوئیک (کلیدواژه درون متن) و کواک (برون بافتی یا کلیدواژه در کنار متن) است. این دو نوع نمایه سازی، بر اساس واژه های عنوان و الگوریتم رشته ای انجام می شوند. (نیازی، 2007)

در نمایه سازی به شیوه حفظ اصطلاح، سیاهه ای از اصطلاح های مجاز به رایانه داده می شود که بر پایه آن، رایانه هریک از این اصطلاح ها را که در متن موجود است، به منزله نمایه برمی گزیند. این شیوه را دکتر سوزان آرتاندی در سال 1963م به کار گرفت. (خالوئی، 1385، 2)

با عرضه فهرست ها می توان از وجود و فراوانی اصطلاح های خاص در یک متن آگاه شد و سپس، با استاندارسازی آن ها و هماهنگ سازی و مرتب سازی آن بر پایه اصطلاح نامه و سرعنوان های موضوعی و نیز افزودن دیگر جنبه های ارتباط، آن را در ساختاری نظام یافته شکل داد؛ برای نمونه، فهرستی از اصطلاحات، مانند اصطلاحات ذیل را که عرفانی اند، به رایانه می دهیم تا در متن کتابی عرفانی، مثلاً فتوحات مکیه بجوید:

الانسان/ البشر/بنی آدم/...
الانسان الازلی
الانسان الحقیقی
الانسان الحیوان
الانسان الحیوانی
الانسان الصغیر
الانسان الکامل
الانسان الکبیر
الانشاء
الانصاف
الانصداع
الانعطاف
الانفاس الصادقه
النفاق

راه دیگر برای نمایه سازی، استخراج واژگان بر پایه nگرام و وزن دهی صورت گیرد و در پایان، اصطلاحات نمایه ایِ به دست آمده تعدیل و هماهنگ شوند.

نمایه سازی مقالات موجود در پایگاه مجلات تخصصی نور

پایگاه مجلات تخصصی علوم اسلامی و انسانی نور(1)، دارای 771 عنوان مجله و 37563 شماره و 146991 مقاله است. از میان این نشریات، تعداد 30 عنوان درای رتبه علمی ـ ترویجی و 160 عنوان دارای رتبه علمی ـ پژوهشی اند. در حجم وسیعی از مقالات موجود در این پایگاه، اِعمال سامان دهی ها و فراداده هایی برای بازیابی آسان، سریع و دقیق محتوا، بایسته می نماید.

از راه های نظام مندکردن محتوای مجلات: ارائه رده بندی موضوعی دقیق برای مجلات و نیز مقالات، استفاده از چکیده و کلیدواژگان خود مؤلف را می توان برشمرد.

کلیدواژگان و چکیده هایی که مؤلفان مقالات می نگارند، شاید از سودمندترین منابعی هستند که برای دستیابی به محتوا و بازیابی اطلاعات آن کمک می کند؛ زیرا:

نخست آنکه چون خود نویسنده، چکیده یا عباراتی را به منزله واژگان کلیدی برای متن خویش برمی گزیند و به فرض آنکه هیچ کس مانند نویسنده نمی تواند از محتوای نوشته آگاه باشد، این واژگان متن را بهتر می نمایاند و کاربر را بهتر به محتوا رهنمون می کند.

دوم آنکه این فراداده ها، آماده اند و نیازی به صرف هزینه و وقت برای تهیه آن نیست.

تقویت کلیدواژگان برای بازیابی دقیق تر و ریزش اطلاعات کمتر

می توان این کلیدواژگان را با افزودن فراداده های دیگر تقویت کرد؛ از جمله این راهکارها، می توان به: اطلاق توصیفگرها، اصطلاحات بر اساس واژگان کنترل شده و تعیین ردگان خاص مقاله، اشاره کرد. دو شیوه متفاوت برای این کار وجود دارد:

  • - واژه ها را از یک اصطلاح نامه مشخص انتخاب کرد؛
    - کلیدواژه هایی را به کار برد که بنا به تمایل نمایه ساز می توانند انتخاب شوند.

اختصاص کلیدواژه های مناسب از یک اصطلاح نامه مشخص، نیاز به نمایه ساز را تشدید می کند؛ زیرا مفهوم مدارک باید به خوبی درک شود. ممکن است واژه های به کاررفته در نمایه، اصلاً در متن ظاهر نشوند. این روش می تواند فایده بیشتری در قیاس با هر راهبردی که فقط از کلمات متن مدرک استفاده می کند، داشته باشد. (رایز، آرتر مونژو زمستان 84، 152)

راهکارهای نمایه سازی مقالات فاقد چکیده و کلیدواژه

چنان که گذشت، تنها 190 نشریه دارای رتبه علمی ـ پژوهشی و علمی ـ ترویجی بودند و بقیه نشریات، الزاماً چکیده و کلیدواژه ندارند؛ هرچند ممکن است برخی از نشریاتی که رتبه های یادشده را ندارند نیز چکیده و کلیدواژه داشته باشند.

روش های گوناگون برای نمایه سازی این دست نشریات، به قرار ذیل است:

  • - استخراج چکیده؛
  • - استخراج کلیدواژه از چکیده؛
  • - استخراج کلیدواژه از متن به شیوه ماشینی؛
  • - استخراج نمایه های عنوان های به کاررفته در مقالات به شیوه گردان(2)؛
  • - استخراج نمایه از متن مقالات؛
  • - گماردن کارشناسانی برای پالایش نشریات پایگاه از دید علمی و حذف نشریات غیرعلمی ـ ترویجی و علمی ـ پژوهشی ای که بار علمی و تخصصی ندارند و نمایه سازی در محدوده نشریاتی که ارزش علمی دارند.

بررسی راهکارهای پیش گفته

برای استخراج چکیده، متخصصان علم کتابداری و اطلاع رسانی می توانند از شیوه های گوناگون، مانند: مطالعه عنوان های بحث شده در مقاله، مطالعه کل مقاله و مطالعه صفحات انتخابی از مقاله، استفاده کنند. گفتنی است، چکیده اقسامی دارد که بسته به نوع آن، روش های مختلفی را می طلبد. استفاده از ماشین نیز برای استخراج چکیده، قابل بررسی است.

متخصصان همچنین می توانند از این چکیده ها، موضوعات طرح شده در یک مقاله را در قالب واژگان کلیدی نشان دهند. استخراج کلیدواژه از متن مقاله با استفاده از شیوه های ماشینی، مانند: همنشینی واژگان، وزن دهی و مشابه یابی نیز از راهکارهایی است که می توان تعدادی اصطلاح به منزله واژگان کلیدی از متن مقاله استخراج کرد.

در شیوه نمایه سازی گردان، نمایه ساز با استفاده از روش ماشینی واژگان عنوان را که به گونه معمول بیان کننده موضوع طرح شده در متن هستند، به گونه گردان به منزله نمایه می آورد.

این شیوه با وجود کم هزینه بودن، معضلاتی نیز دارد؛ از جمله، واژه های مترادف و متشابه را می توان نام برد که سبب بی ترتیبی و پراکندگی موضوعات می گردد. یکی دیگر از عیوب نمایه گردان، این است که بر پایه عنوان استوار است و کمتر دیده می شود که عنوان ها تمام موضوع هایی را که در محتوای مدرک از آن ها بحث شده است، منعکس کنند. به این ترتیب، با در نظر گرفتن پراکندگی موضوعی در مورد واژه های مترادف و متشابه و همچنین، نارسایی عنوان ها از میزان دقت بازیابی اطلاعات و احتمال بازیابی موضوعات، به گونه ای قابل توجه کاسته می شود.

اما می توان با استفاده از راهکارهایی، نواقص این گونه نمایه سازی را کم کرد؛ از جمله اینکه از فهرست واژگان مجاز به جای فهرست بازدارنده سود جست. استفاده از سیاهه مجاز، شیوه ای عملی برای غلبه بر مسئله مترادف هاست. اصطلاحاتی که تصور می رود برای راهنمایی جوینده به موضوعات مطرح شده به وسیله نویسنده مفید باشند، به عنوان مدرک اضافه می شوند. این اصطلاحات اضافی یا مکمل، می توانند نمایه سازی را جامع تر و عمیق تر کنند و اشکالات ناشی از ابهام یا کم نمایی عنوان ها را از بین ببرند. کلیدواژه های عنوان، پیش از آنکه اطلاعات به رایانه داده شود، به صورت دستی تعیین می شوند. این کار سبب می شود که اصطلاحات بنا به قابلیت کاربردشان در مدرک، به عنوان اصطلاحات نمایه یا مدخل انتخاب شوند و نه صرفاً به آن سبب که در عنوان مدرک آمده اند. عنوانی که مؤلف برای اثر خود داده است، با عنوان مناسب تری جانشین می شود. درون داد یا برون داد رایانه به منظور کنترل پراکندگی موضوعات، ویرایش می شود.

چنین اصلاحاتی در نمایه گردان، آن را بسیار مفیدتر و کارآمدتر می کند؛ اما این گونه نمایه، هیچ گاه جامعیت نمایه موضوعی را نخواهد داشت؛ اما به سبب کم هزینه و سرعت انجام آن می توان از آن در پایگاه مجلات بهره جست و برای تکمیل آن از نظام های رده بندی و جست وجوهای کارآمد بهره جست.

ضرورت سامان مندکردن محتوای پایگاه مجلات

به سبب انبوهی محتوای پایگاه مجلات تخصصی نور، سازمان دهی محتوا برای بازیابی اطلاعات به گونه کامل و دقیق، بایسته است. یکی از راه های سامان بخشی به محتوا، نمایه سازی است. نمایه سازی، انواع و روش های گوناگون دارد؛ اما از دید شیوه، ساختن نمایه به دستی و ماشینی یا خودکار تقسیم می شود. این دو شیوه، هریک محاسن و معایبی دارند. از محاسن نمایه سازی دستی، دقیق بودن، و از معایب آن، وقت گیر و پُرهزینه بودن آن است. دقیق نبودن، عیب بزرگ نمایه سازی ماشینی شمرده می شود.

گونه های نمایه سازی ماشینی (خودکار)

نمایه سازی ماشینی نیز بر گونه هایی است؛ برخی از نمایه سازی های ماشینی به گونه استخراجی و برخی دیگر به شکل انتصابی یا تخصیصی است. در نمایه سازی استخراجی، کلمات با عبارات موجود در متن استخراج می شود؛ ولی در نمایه سازی انتصابی، هر اصطلاحی که می خواهد اختصاص یابد، پرونده ای از کلمات یا عباراتی ایجاد می کند که به نظر می رسد، بارها در مدارک تکرار شده اند و نمایه سازان انسانی نیز آن اصطلاح را به مدارک اختصاص خواهند داد. این نوع از پرونده ها، مثلاً برای اصطلاح «باران اسیدی» باید عباراتی چون: باران اسیدی، نزولات آسمانی اسیدی آلودگی هوا، دی اکسید سولفور و مانند آن را در بر داشته باشد. (لنکستر، اف. دابلیو، ترجمه عباس گیلوری 1388، 378-383)

برخی از کارشناسان علوم کتابداری و اطلاع رسانی برآن اند که نمایه سازی ماشینی، چنانچه فهرست های اصطلاحات یا پژوهشگران به کمک ماشین بیایند، نتایج دقیق تری دربرخواهد داشت. (همان، 440)

نمایه سازی ماشینی در مرکز تحقیقات کامپیوتری علوم اسلامی

مرکز تحقیقات کامپیوتری علوم اسلامی، برای استخراج خودکار نمایه های متون، ماشینی طراحی کرده است. استخراج خودکار نمایه ها در مرکز نور، عملیاتی است برای تشخیص مجموعه های کوچک کلمات، عبارات کلیدی، نمایه ها، تقطیع های کلیدی متن از یک سند؛ به گونه ای که بتواند معنای سند را شرح دهد. این عملیات باید به صورت خودکار و بسته به الگو با تعامل کم ناظر یا بدون آن انجام شود.

در روش انجام شده توسط مرکز، با استفاده از وزن دهی (3)TF-IDF  (فراوانی لفظ ـ عکس فراوانی سند)، نمایه های تک کلمه ای، و با استفاده از همایندی کلمات، به شناسایی نمایه های مرکب متن پرداخته شده است. میزان همایندی برای هر دو کلمه کنار هم در سند، به صورت آماری محاسبه می شود.

نمونه ای از کار ماشین استخراج نمایهشکل 1: نمونه ای از کار ماشین استخراج نمایه

به گونه کلی، ماشین استخراج نمایه مرکز نور، ویژگی های ذیل را دارد:

  • - نمایه های هر مقاله 4 صفحه ای را در 2 دقیقه استخراج می کند؛
  • - یکی از اصول، استخراج نمایه بر اساس وزن دهی و بسامد واژگان است؛
  • - همه اَعلام (نام اشخاص، زمان، مکان، نام کتاب و...)، نمایه فرض خواهند شد؛
  • - تشخیص نمایه ها وابسته به زبان مقاله (فارسی، عربی و یا انگلیسی) می باشد و در هر کدام، بهینه سازی خاص خود را دارد؛
  • - در زبان فارسی یا عربی، افعال کلیدواژه محسوب نمی شود. به ازای توسعه سیستم، استخراج کلیدواژه زبان ها باید جدا شوند؛
  • - در نمونه های بسیار، اجزای کلیدواژه های ترکیبی نیز خود کلیدواژه محسوب می شوند؛
  • - در عبارت های ترکیبی بر اساس تقسیم بسامد جداگانه واژگان بر بسامد همایندی دو واژه باهم، کلیدواژه بودن آن معیّن می گردد؛
  • - همیشه نمایه های متن باهم آ نیستند، بلکه گاه واژگان تک کلمه نیز نمایه شمرده می شوند. این کلمات با استفاده از وزن دهی TF-IDF (فراوانی لفظ ـ عکس فراوانی سند)، استخراج می شوند؛
  • - واژگان مرکب که بسامد هم آیی در آن ها بسیار است، اما کلیدواژه محسوب نمی شوند، در فهرست نمایگان قرار نمی گیرند. برای شناساندن این گونه از عبارات، چند کار انجام شده است:
    • • ایجاد موتور تشخیص افعال فارسی (قانون: افعال متن نمایه نیستند)؛
    • • تهیه فهرستی از واژگانی که جزء عبارات نمایه قرار نمی گیرند و خودشان هم نمایه نیستند. کاربر می تواند این فهرست را تکمیل کند؛
    • • تشخیص عبارت های شمارشی و اعداد (قانون: واژگان همایند شمارشی، نمایه نیستند).

فهرست واژگان خنثا که نمایه شمرده نمی شوندشکل 2: فهرست واژگان خنثا که نمایه شمرده نمی شوند.

الزامات نمایه سازی

  • * تعیین واژگانی که ماشین باید به منزله نمایه استخراج کند: باید پژوهشگران و خبرگانی واژگان نمایه ای که ماشین باید از متون مقالات استخراج کند و آن را واژه کلیدی (نمایه) تشخیص دهد، تعیین کنند؛ به این معنا که باید واژگان نمایه ای و واژگان خنثا و غیرنمایه مشخص شوند تا ماشین هر واژه را به صرف بسامد زیاد در متن نمایه نشمرد؛
  • * وجود متخصصی برای اصلاح واژگان استخراج شده ماشین: متخصصان باید نتیجه کار ماشین را اصلاح کنند؛ به این گونه که از یک سو نمایگان استخراج شده ماشین را از دید صحت و دقت بسنجند و از سوی دیگر، واژگانی که ماشین آن را نمایه تشخیص نداده، معیّن کنند؛
  • * اتصال اصطلاح نامه به واژگان استخراج شده ماشین: نیاز به کارشناسان خبره ای است که بر اساس یک اصطلاح نامه معتبر بتوانند واژگان استخراج شده ماشین را نظم منطقی بخشند و از میان این واژگان، مترادفات و مرتبطات را به هم اتصال دهند. در این مرحله، ماشین هم کمک ناظر خواهد بود.

مزایای این شیوه نمایه سازی عبارت اند از:

  • • ارتباط مقالات بر اساس کلیدواژگان به کاررفته در آن؛
  • • امکان عرضه نتایج دقیق تر و مرتبط با واژه جست وجو؛
  • • کاهش نتایج ناخواسته؛
  • • کاهش ریزش کاذب اطلاعات (دستیابی به نتایج صحیح بیشتر)؛
  • • امکان معرفی مقالات مرتبط؛
  • • ایجاد درختواره هایی در موضوعات گوناگون از واژگان استخراج شده ماشین و امکان اتصال متن مقالات به آن؛
  • • افزایش رتبه پایگاه در موتورهای جست وجو و افزایش ورود کاربران از موتورهای جست وجو به پایگاه.

راهکارهای استفاده

  • - سر و شکل دادن به نتایج کار ماشین حاضر و اصلاح و تعدیل آن به وسیله کارشناسان؛
  • - استفاده از نمایه های استخراجی ماشین در پشت صحنه (متاتگ ها) به جای نمایش متون پیونددار (لینک شده)؛
  • - نمایش الفبایی و موضوعی نمایه های اصلاح شده و غیرتکراری در گزینه ای جداگانه در پایگاه (یا در پایگاهی دیگر)؛
  • - اتصال نمایگان مترادف و مرتبط و یافتن مقالات مرتبط بر اساس نمایگان.

همچنین، حاصل کار ماشین در خلاصه سازی ماشینی، ترجمه ماشینی، شباهت یابی متون، دسته بندی خودکار متون و برقراری خودکار نظام رده بندی نمایه ها، به کار می آید.

نمایه سازی در نرم افزارهای نور

شاید سخنی گزاف نباشد که بگوییم، جز در نرم افزارهایی که به شیوه معجم لفظی تولید می شوند، در همه نرم افزارهای دیگر، نمایه سازی صورت می گیرد؛ اما در نرم افزارهای موضوعی، نمود بیشتری دارد.

در نرم افزارهایی که به شیوه فرمت تخصصی پژوهش می شوند، واحدهای اطلاعاتی متون در زمینه های تعیین شده علامت گذاری می شوند و سپس، عبارت های استخراج شده به کلمات قابل تفهیم و مستقل، به نام «کلیدواژه» تبدیل می گردند. برای افزایش ضریب بازیابی اطلاعات، هماهنگ سازی واحدهای اطلاعاتی هم معنا و اعمال سیستم های جانبی مشترکات، مترادفات و مرتبطات نیز صورت می گیرد.

در نرم افزارهایی که به شیوه درختواره سامان یافته است، اصطلاحات موجود در متن به شکل درختواره استخراج و بر متن منطبق می شود؛ به این گونه که بر اساس موضوع و مفاهیم موجود در متون درختی ساخته می شود و پس از تدوین درختواره، ایجاد نظم منطقی میان شاخه های آن، و تقسیم شاخه ها به زیرشاخه های متعدد، قابلیت اتصال به منابع و متون مختلف یافته می شود. ایجاد ارتباط بین حلقه های درختواره و هماهنگی بین بخش های مختلف آن، از لوازم این کار است که به دو شیوه طولی و عرضی انجام می شود؛ برای نمونه، در « المعاد ! البرزخ» رابطه منطقی بین دو عنوان و دو رده درخت برقرار نیست؛ زیرا رابطه میان «برزخ» و «معاد»، نامشخص است و با اصلاح آن به صورت «المعاد ! مراحله ! البرزخ»، می توان این ارتباط منطقی را ایجاد کرد. این واسطه به کاربر می آموزد که معاد به غیر از برزخ، دارای مراحل دیگری همچون قیامت و یا موت نیز هست.

در نرم افزارهای موضوعی، نمایه ها در دو سطح عرضه می شود:

نخست، از موضوعات ترکیبات دوکلمه ای یا سه کلمه ای استخراج می شود و این ترکیبات، با عنوان «نمایه» نامگذاری می شود. در واقع، نمایه ها ترکیب هایی کوچک تر از چکیده ها هستند که نقش واسطه را بین مدخل ها (کلیدواژه ها) و چکیده ها (موضوعات) ایفا می کنند. این ترکیبات، با تکیه بر موضوع استخراج می شود و محتوای موضوع را بیان می کند. این مرحله از کار، روی پیش نویس ها (فیش ها)ی مخصوص و در کنار موضوعات ثبت می شود.

دوم، نمایه سازی اصطلاحاً «تکواژه» نامگذاری شده است که معمولاً یک عنوان یک کلمه ای و کلیدی است که به صورت ماشینی و دستی با جداسازی نمایه ها و حذف کلمات غیرکاربردی به دست می آید. پس از پیراست سازی و ویراستاری، این عناوین به صورت یک فهرست با امکان جست وجو در اختیار کاربر قرار گرفته، او را برای رسیدن به مفهوم مورد نظر خود یاری می کند. بخش تکواژه، شامل دو قسمت «تکواژه» و «ریشه» است. در قسمت «تکواژه»، فهرست تکواژه ها شامل کلید واژه های اصلی، مترادفات و الفاظ مشترک، فعال است و از چهار طریق: ترتیب الفبایی، تعداد نمایه، تعداد موضوعات و مراحلِ وصول از کلیدواژه به موضوع، قابل تنظیم است.
مجموع مرتبطات یک واژه نیز به فهرست کلیدواژه های اصلی اضافه می شود. مترادفات نیز به فهرست اضافه شده و واژه های مشترک تفکیک گشته، عناوین مرتبط به هم نیز مشخص می شوند تا با استفاده از این امکانات، مشکلات کاربران به حداقل ممکن تقلیل یابد. فهرست اَعلام نیز در این مرحله ساخته می شود. تکواژه، در حقیقت، به نمایه نشانی می دهد و در مرحله ای از هماهنگ سازی نمایه ها ایجاد می شود. در این مرحله، نمایه های مختلف با هم مقایسه شده، برای نمایه هایی که در یک جهت با هم مشترک باشند، یک واژه مشابه انتخاب می شود و بدین وسیله، نمایه ها در قالب تکواژه ها منظم می شوند.

برای آنکه مفاهیم یکسان با عبارت های مختلف در برنامه بیان نشود، نمایه ها باید هماهنگ شوند؛ برای نمونه، در بحث «حرکت جوهری» به شکل های مختلف می توان از آن تعبیراتی را ارائه داد؛ مثل: الحرکة الجوهریة، الحرکة فی الجوهر، الحرکة الذاتیة و... . وجود همه یا تعدادی از این نمایه ها در برنامه، کار استفاده از آن را ناقص و مشکل می کند. هرگاه نمایه های «الحرکة الجوهریة» و «الحرکة فی الجوهر» را در برنامه داشته باشیم، کاربر با دیدن یکی از آن ها این گونه تصور می کند که تمام مطلب ارائه شده در برنامه همین است؛ درحالی که درباره «حرکت جوهری» مطالب دیگری نیز در برنامه هست و در ذیل عنوان دیگر آمده است.

برنامه هماهنگ سازی نمایه ها، از همان زمان شروع ثبت نمایه ها آغاز می شود؛ یعنی با تهیه آیین نامه برای نمایه و با دقت و حضور ذهن محققانی که نمایه سازی می کنند، سعی می شود که برای یک مطلب، تنها از یک نمایه استفاده شود؛ ولی به جهت حضور عامل انسانی، افراد ممکن است که دچار نسیان و فراموشی شوند و از این نظر که ذوق ها با هم متفاوت است و عملاً نیز ممکن است نمایه سازی یک کتاب به وسیله چند نفر انجام شود، حدود 30 درصد ناهماهنگی بین نمایه ها امری طبیعی است که برای رفع این نقیصه، محققان با استفاده از رایانه و برنامه هایی که نمایه ها را به شکل های مختلف در زیر هم چینش می کنند، به هماهنگ سازی نمایه ها می پردازند. این مرحله از تهیه معجم موضوعی، یکی از کارهای بخش علوم عقلی در طول سالیان گذشته به شمار می رفته است. روند کار به این صورت بوده است که نمایه سازی و نگارش نمایه ها در سندهای مخصوص توسط بخش ورود اطلاعات معاونت فنی انجام می شد و آن گاه جهت بررسی و کنترل نهایی، به معاونت تحقیقات ارجاع می گردید. این روال درباره هریک از کتاب ها به طور مستقل انجام می شده است.

گفتنی است، کار واژه سازی (تکواژه) و نیز هماهنگی بین تکواژه ها، در مرحله هماهنگ سازی انجام می شود. این کار، بعد از تمام شدن هماهنگ سازی نمایه ها و تقسیم نمایه ها به دو بخش انجام می گیرد.

کارایی نمایه ماشینی در مرکز تحقیقات کامپیوتری علوم اسلامی

نمایه، به همه معانی پیش گفته در سازمان بخشیدن به منابع و در نتیجه بازیابی سریع اطلاعات بسیار سودمند است. نمایه، سبب می شود جست وجوهای کاربران، هم جامع باشد ـ یعنی به همه مفاهیمی که از واژه یا عبارت جست وجو شده در نظر دارند یا به آن نیاز دارند، اما از آن بی خبرند، دست یابند ـ و هم از نتایج ناخواسته که ارتباطی به واژه یا عبارت جست وجوشده آن ها ندارد، در امان باشند. در واقع، نمایه ها از ریزش کاذب اطلاعات و نیز عرضه انبوهی از نتایج ناخواسته جلوگیری می کنند.

نرم افزارهای تولیدشده در مرکز تحقیقات کامپیوتری علوم اسلامی، متون معتبر در حوزه های مختلف علوم اسلامی عرضه می کند. محتوای برخی نرم افزارها، با انجام پژوهش هایی دسته بندی و سامانی خاص می گیرد تا کاربران بتوانند بیشترین بهره را از محتوای آن نرم افزارها ببرند. پژوهش هایی چون: «اطلاق موضوع، نمایه و تکواژه»، «ساخت درختواره از اصطلاحات علوم» و «تعیین قالب های متن از دیدگاه های گوناگون (فرمت تخصصی و عمومی)»، از این دست کارهاست. همه، یا بیشتر این پژوهش ها را محققان به صورت دستی انجام می دهند.

انجام کارهای پیش گفته، به ویژه استخراج موضوع (چکیده)، نمایه و تکواژه از متون، کار بسیار وقت گیر و پُرهزینه ای است. ازاین رو، یافتن روندی برای ماشینی کردن این دست فعالیت های پژوهشی، سبب سرعت بخشیِ کار تولید و غنی سازی نرم افزارها می شود و بسیاری از نرم افزارهای دیگر که به سبب پُرهزینه بودن از غنی سازی آن ها پرهیز شده، سامان بیشتری می یابند و کاربران می توانند با سرعت بیشتر، به نتایج دقیق تر دست یابند. بنابراین، نمایه سازی ماشینی برای نرم افزارهای مرکز سودمند است.

گونه های نمایه سازی خواسته مرکز

با توجه به شیوه های پژوهش که پیش تر گفته شد، نمایه سازی که در تولید نرم افزارهای کاربردی مرکز به آن نیاز است، این اقسام را در بر می گیرد:

* نمایه سازی بر پایه زبان کنترل شده، برای نرم افزارهای درختواره ای:

اصطلاحات به کاررفته در درختواره، به گونه معمول از واژگان استانداردی است که از اصطلاح نامه ها گرفته می شود و ممکن است بسیاری از این اصطلاحات، عیناً در متون نیامده باشند. ازاین رو، از ماشین نمایه سازی انتظار می رود که بتواند میان این اصطلاحات و متن ارتباط برقرار کند.

* نمایه سازی بر پایه واژگان چکیده (موضوع)، برای نرم افزارهای موضوعی:

برای استخراج چکیده متن، محققان نخست یک فصل را کاملاً مطالعه و رئوس مطالب آن را در یک موضوع خلاصه می کنند. مباحث مطرح شده درباره هریک از رئوس مطالب کلی، در یک موضوع خلاصه می شود و با علامت خاصی مشخص می گردد؛ برای نمونه، در یک فصل از کتاب ممکن است درباره: نفس، اتحاد عاقل و معقول، ارتباط نفس و عقل و مانند آن بحث شده باشد. این موضوعات به صورت کلی، ابتدا در یک موضوع گنجانده می شود. آن گاه مباحث خاص هر مورد، در موضوعی جداگانه مطرح می شود؛ مثلاً ممکن است درباره نفس از اثبات حقیقت، تعریف، جوهر یا عرض بودن آن بحث شده باشد که این مباحث در یک موضوع دیگر گنجانده می شود. در ادامه، تمام مطالب مطرح شده، در ذیل هر خط کلی، موضوع برداری می شود که آن ها یا موضوعات عادی هستند یا استنباطی یا... . البته اگر مطلبی نیز در کتاب آمده باشد که در ذیل هیچ کدام از خطوط کلی نگنجد، آن مطلب نیز موضوع برداری می شود. در موضوعات، علائم دیگری نیز وجود دارد؛ برای مثال، علامتی خاص برای مطالب استنباط شده در نظر گرفته شده است. هرگاه مطلبی به صراحت در متن نیامده باشد و جزء لوازم بین متن نیز نیست، با علامت خاص در رایانه ثبت می شود تا کاربر در هنگام استفاده بداند این موضوع، مطلبی است که محقق آن را از متن برداشت کرده است.

سپس، محققان واژگان موجود در چکیده (موضوع) را به منزله نمایه استخراج می کنند. مقصود از نمایه در اینجا، عبارت های مرکب از دو واژه یا بیشتر است. این نمایگان نیز با هم مقایسه و برای نمایه هایی که در یک جهت با هم مشترک باشند، یک واژه مشابه انتخاب می شود و بدین وسیله، نمایه ها در قالب تکواژه ها منظم می شوند. (رستمیان، 1379)

در علوم کتابداری و اطلاع رسانی و در مبحث نمایه سازی و چکیده نویسی، از این نوع سامان دهی متن هم یاد می شود؛ برای نمونه، نوعی چکیده نویسی با عنوان چکیده کوتاه و چکیده تلگرافی، شباهت هایی با این شیوه های انجام یافته در مرکز دارند. چکیده کوتاه، آمیزه ای از یک چکیده و یک مدخل نمایه ای است که آن را نمایه ـ چکیده ماشین خوان نامیده اند. اصطلاحات چکیده، از یک واژگان کنترل شده استخراج شده و در یک توالی معیّن، در کنار یکدیگر قرار می گیرند؛ مثلاً گزاره «در خون انسان ها مقدار کاهش یانبده ای از روی و سیزورکبدی وجود دارد» به صورت: «خون انسان ها، کاهش یابنده، روی سیزور کبدی» آورده می شود. در این چکیده نویسی، کوشیده می شود تا حد ممکن، توالی اصطلاحات به ساختار طبیعی جمله نزدیک شود.

چکیده تلگرافی نیز به بازنمودهایی از مدرک اشاره دارد که در جملاتی ناقص و شبیه تلگراف ارائه شده اند. (ا. د. لنکستر 1388, 159-160)

از ماشین نمایه سازی انتظار می رود بتواند اصطلاحاتی را که نشانگر مباحث مطرح شده در متن اند، استخراج کند و در قالب اصطلاحات مرکب (نمایه) و تکواژه عرضه کند. بنابراین، تشخیص همارایی اصطلاحات نیز باید از ماشین بر آید.

* نمایه سازی بر پایه قالب (فرمت) متون:

دسته بندی و جداسازی مطالب مندرج در یک متن از متون تحقیقاتی، سبب آسان سازی عرضه و ارتقای کیفیت اطلاع رسانی آن می گردد. به همین منظور، محتویات یک متن پس از تعیین گروه های مختلف اطلاعاتی، به شیوه های دستی و ماشینی بر پایه این گروه ها نشان گذاری می شود. پاره ای از این گروه های متنی عبارت اند از: فرمت عناوین کتاب، فرمت شماره صفحه، فرمت پاورقی، فرمت نسخه بدل، فرمت ارتباط متن با ترجمه آن و فرمت اشعار که به فرمت های عمومی موسوم هستند و در مرحله تایپ و با توجه به تناسب نوع فرمت با موضوع کتاب، اعمال می شوند.

اما آنچه در معجم فرمت تخصصی به عنوان یک ملاک و معیار مورد توجه و دقت پژوهشگران قرار می گیرد، بارگذاری متون و ارزش دارکردن آن هاست. در این روش، با توجه به عناوین تعیین شده که تا صد عنوان هم می رسد، اطلاعات متن استخراج می شود و در دسته هایی همچون: مفاهیم تفسیری، اخلاقی، ادبی، فقهی، روایی و کلامی، تفکیک و تنظیم می گردد که تعریف مشخصی از آن ها در دست است و استنباط در استخراج آن ها دخیل نیست و تمامی موارد به طور کامل، از مواضع مختلف یک یا چند متن مهم جمع آوری شده و ارائه می گردد. در بخش مفاهیم، با توجه به عنوان ها و تعاریف آن ها در محدوده مشخص، متن مورد تجزیه و تحلیل قرار می گیرد.

در این شیوه، واحدهای اطلاعاتی متون، در زمینه های تعیین شده علامت گذاری می شوند و سپس، عبارت های استخراج شده، به کلمات قابل فهم و مستقل، تحت عنوان «کلیدواژه» تبدیل می گردند. برای افزایش ضریب بازیابی اطلاعات، هماهنگ سازی واحدهای اطلاعاتی هم معنا و اعمال سیستم های جانبی مشترکات، مترادفات و مرتبطات نیز صورت می گیرد.

از ماشین نمایه سازی انتظار می رود بتواند فرمت های عمومی و تخصصی متون را تشخیص دهد و کارهای هماهنگ سازی و نظام های مشترکات، مرتبطات و مترادفات را اعمال کند.

دسته بندی موضوعی فهرست واژگان صحیح

  • - دسته بندی موضوعی فهرست واژگان تصحیح شده که در نرم افزارهای معجم موضوعی عرضه می شود؛
  • - ماشین باید بتواند واژگان مرتبط با علوم مختلف (فقهی، کلامی، فلسفی، تاریخی و یا رجالی) را تشخیص دهد.

استفاده از فهرست کتاب ها در سامان دهی محتوا

تعیین کتب مرتبط با استفاده از فهرست کتاب، استخراج مباحث یک علم از دل متون علوم دیگر (مثلاً استخراج مباحث مرتبط با علم اصول از درون متون فقهی).

نمایه بر متن

واژگان و اصطلاحاتی که در متن موجود است، به شیوه تخصیصی و استخراجی به متن اطلاق شود؛ به این گونه که هم واژگانی از متن را که با توجه به محتوا و مخاطب آن ارزش نمایه ای دارند، استخراج نماید و هم مفاهیمی از متن که عین واژه متناسب با آن در متن نیست، از خود یا با استفاده از واژگان کنترل شده بر آن نمایه اطلاق کند.

نمایه سازی بر اساس کلیدواژگان مجلات تخصصی

کلیدواژگان موجود در مقالات، افزون بر تعیین موضوعات مطرح در مقاله، ردگان و زیرردگان آن متن را نیز تعیین می کنند. شاید مناسب ترین راه برای استفاده مناسب از کلیدواژگان مقالات، برقراری پیوند میان آن ها و مقالاتی است که در آن به کار رفته اند. همچنین، برای تقویت این واژگان کلیدی می توان واژگان مترادف و مرتبط با آن ها را نیز به آن پیوند داد تا هرگاه آن واژگان جست وجو شدند، مترادفات و مرتبطات آن نیز در نتایج آورده شود.

با استفاد این کلیدواژگان، می توان مقالات مرتبط را تعیین کرد و به کاربر پیشنهاد داد؛ به این گونه که مقالاتی را که دارای کلیدواژگان مشابه اند، مرتبط فرض کرد.

پی نوشت ها:

منابع:

اطلاعات تکميلي

  • تاریخ انتشار نسخه چاپی: چهارشنبه, 25 شهریور 1394
  • صفحه در فصلنامه: صفحه 65
  • شماره فصلنامه: فصلنامه شماره 51
بازدید 21521 بار
شما اينجا هستيد:خانه آرشیو فصلنامه فصلنامه شماره 51 (تابستان 1394) نگرشی بر جایگاه و انواع نمایه سازی در محصولات نور