معجم تخصصی یا حاشیه نگاری متون

یکشنبه, 30 آذر 1393 ساعت 15:34
    نویسنده: مصطفی علیمرادی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید
این مورد را ارزیابی کنید
(0 رای‌ها)

چکیده

از ابداعات مرکز تحقیقات کامپیوتری علوم اسلامی در سازمان دهی به محتوای برنامه های تولیدی خود، معجم تخصصی است که بر پایه آن، متون گوناگون هر علم تحت عبارت ها و اصطلاح های متداول در آن دسته بندی می شوند. این شیوه، از آن جهت نوآوری به شمار می رود که پیش تر، در مجامع علمی، از این شیوه برای دسته بندی متون در برنامه های رقمی استفاده نشده بود. در این نوشته، به معرفی این شیوه برای سازمان دهی محتوا پرداخته خواهد شد.

کلیدواژگان:فرمت تخصصی، حاشیه نگاری، استخراج رخدادها، نمایه سازی.

تبیین روش

دسته بندی اطلاعات در این روش، بر اساس عناوین فرمتی هر رشته علمی متفاوت و متغیر خواهد بود. طرح تدوین معجم های تخصصی، حد وسطی بین معجم های موضوعی و معجم های لفظی است. در این طرح، با توجه به تعیین عناوین معیار و فرمت های تخصصی، اطلاعات متن استخراج گشته و در برخی از موارد متن مورد تجزیه و تحلیل قرار می گیرد؛ به عبارت دیگر، هر یک از این دسته ها، همانند طلیعه ای است بر مجموعه ای از اطلاعات که به صورت پراکنده در طی یک یا چند کتاب عرضه شده است.

در این شیوه، واحدهای اطلاعاتی متون در زمینه های تعیین شده علامت گذاری می شوند و سپس عبارت های استخراج شده، به کلمات قابل تفهیم و مستقل، تحت عنوان «کلیدواژه» تبدیل می گردند؛ به بیان دیگر، در این شیوه، پژوهشگران و کارشناسان علم، با مطالعه محتواهای متنی، واحدهای مختلف متن، از قبیل: سطر، بند، و صفحه را انتخاب و بر آن اصطلاحی را به منزله برچسب اطلاق می کنند. این اصطلاح، خود جزئی از یک موضوع عام است و آن موضوع عام نیز به یک عبارت عام تر تعلق دارد که به آن «دامنه» گفته می شود.

برای افزایش ضریب بازیابی اطلاعات، هماهنگ سازی واحدهای اطلاعاتی هم معنا و اعمال سیستم های جانبی مشترکات، مترادفات و مرتبطات، ضروری است.

در این شیوه، محتویات یک متن پس از تعیین گروه های مختلف اطلاعاتی، به شیوه های دستی و ماشینی فرمت گذاری می شود. پاره ای از این فرمت ها، همانند: فرمت عناوین کتاب، فرمت شماره صفحه، فرمت پاورقی، فرمت نسخه بدل، فرمت ارتباط متن با ترجمه آن، و فرمت اشعار که به فرمت های عمومی موسوم هستند، در مرحله تایپ و با توجه به تناسب نوع فرمت با موضوع کتاب اعمال می شوند. آنچه در معجم فرمت تخصصی به عنوان یک ملاک و معیار مورد توجه و دقت محققان و پژوهشگران قرار می گیرد، بارگذاری متون و ارزش دار کردن آنهاست و این مهم، جز با تخصصی کردن نوع فرمت ها، وسعت دامنه آنها و نیز اعمالشان توسط نیروهای محقق زبده و کارآمد میسر نمی شود.

قالب های ابواب و عنوان آن، روایت، سند، آیه، مکتوبات ائمه (علیهم السلام) و مطلق دعا و ذکر، از نمونه های فرمت های تخصصی اند.

نمونه های شیوه فرمت تخصصی در ادبیات اطلاع رسانی و کتابداری

چنان که گذشت، فرمت تخصصی، شیوه ای از سامان دهی اطلاعات است که نمایگانی مختص یک دانش یا متن خاص به شکل استخراجی و نیز تخصیصی بر متون اطلاق می شود. در این شیوه، محتویات یک متن پس از تعیین گروه های مختلف اطلاعاتی، به شیوه های دستی و ماشینی فرمت گذاری می شود و سپس عبارت های استخراج شده به کلمات قابل تفهیم و مستقل، تحت عنوان «کلیدواژه» تبدیل می گردند. برای افزایش ضریب بازیابی اطلاعات، هماهنگ سازی واحدهای اطلاعاتی هم معنا و اعمال سیستم های جانبی مشترکات، مترادفات و مرتبطات، ضروری است. این روش سامان دهی، شیوه پیشرفته و تکامل یافته روش علمی دانشمندان اسلامی از گذشته تا حال، مانند آثار شیخ صدوق همچون: ثواب الأعمال و عقاب الأعمال، اعتقادات، توحید، علل الشرایع، خصال و مواعظ مصادقة الاخوان است.

این شیوه از سازماندهی محتوا در مرکز تحقیقات کامپیوتری علوم اسلامی، از جنبه های گوناگون با شیوه های برچسب گذاری متون شباهت دارد. برچسب گذاری کلمات، فرآیندی است که طی آن هر کلمه در متن با نحو(جایگاه دستوری) مورد نظر آن نشانه گذاری می شود. دانستن نحو هر کلمه، ممکن است کمک بسیار به حذف ابهام در تلفظ و معنای لغات و درک صحیح متن کند و از این روی، کاربرد بسیار مهمی در بازیابی اطلاعات و پردازش زبان طبیعی دارد. تأثیر برچسب های مختلف به نوع پرس وجو بسیار وابسته است؛ به عبارت دیگر، بسته به پرس وجوی انتخابی کاربر و نوع نیاز اطلاعاتی او، ممکن است برچسب هایی مورد اهمیت واقع شوند که در پرس وجوی دیگر، اهمیت چندانی نداشته باشند.

همچنین شیوه فرمت تخصصی مرکز، شباهت بسیاری به حاشیه نویسی  دارد. حاشیه نویسی بر متن، عمل افزودن نکته به متن است که هنگام خواندن متن یا در نتیجه آن به وجود می آید. حاشیه نویسی ممکن است به سادگی کشیدن خط ذیل عبارات یا متمایز کردن آن از طریق رنگی کردن، یا شامل نکته های نوشته شده برای اهداف شخصی و خصوصی خواننده یک کتاب یا یک حاشیه نویسی عمومی باشد که به منظور تشریک مساعی با نویسنده و ویراستار، شارح یا جامعه خوانندگان شکل می گیرد. در برخی زمینه ها، حاشیه نویسی بر متن با فراداده قابل قیاس است؛ با این تفاوت که در فراداده مطالب خاص افزوده می شود و اطلاعاتی درباره متن بدون تغییر بنیادین متن اصلی فراهم می شود. حاشیه نویسی متن، گاه به تعلیقه  بازمی گردد؛ هرچند برخی این اصطلاح را ویژه نکته های دست نویس که در حاشیه کتاب ها یا دست نوشته ها ساخته می شود، به کار می برند.  (Wikipedia, 2012)

ویژگی های حاشیه نویسی

ویژگی های یک حاشیه نویسی متن، عبارت است از:

  • - مشخص کردن جایی از متن که اندیشه ها و اطلاعات مهم قرار دارد؛
  • - بیان ایده های مهم از یک متن؛
  • - رهگیری گسترش ایده ها/ استدلال ها در سراسر متن؛
  • - ورود میزان اندک از اندیشه و واکنش خواننده.

البته باید توجه داشت که پیش از حاشیه نویسی، کل متن خوانده شود.

حاشیه نویسی و وب مفهومی

از چالش های پیش رو در  وب مفهومی، حاشیه نویسی خودکار است. معضل اصلی که در وب مفهومی بسیار به آن توجه می شود، این است که اسناد به گونه ای ساخته شده اند که تنها برای انسان قابل فهم اند. وب مفهومی، بر  آن است که اسناد همان گونه که برای انسان فهمیده می شود، برای ماشین هم قابل فهم باشد.

حاشیه نویسی نیمه خودکار، بر ایجاد فرداده های مفهومی برای پردازش رایانه ای با استفاده از داده های مفهومی در مدیریت دانش یا در سازمان دهی مفهومی برنامه ها تمرکز دارد. رویکردهای نیمه خودکار، مبتنی بر پردازش زبان طبیعی، تحلیل ساختار اسناد، آموزش مجموعه یادگیری های لازم و یا نظارت است.

کاربرد حاشیه نویسی ها

حاشیه نویسی، برای پشتیبانی از فرایند شناخت در فهم متون علمی با کارکردی برای کمک به فرایند انتخاب اطلاعات مرتبط، سازمان دهی اطلاعات یا یکپارچه سازی اطلاعات با دانش نخستین است. حاشیه نویسی، دسترسی نظام وار به متون علمی را فراهم می کند.

به طور کلی، چند کاربرد برای حاشیه نویسی متصور است: زینتی، نمایندگی، سازمان دهی، شناخت، تفسیر و انتقال.

آشکارترین کارکرد برای حاشیه نویسی متن، شناخت است. حاشیه های یک متن را می توان مستقل از منشأ آن (متن حاشیه نویسی شده) یا دیگر حاشیه ها، برای به اشتراک گذاشتن اهداف و ماهیت متون به کاربرد.

حاشیه نویسی رقمی توان فراوانی در قیاس با حاشیه نویسی کاغذی برای دسترسی به اطلاعات در خود دارد.

حاشیه نویسی را می توان با یکپارچه سازی با دیگر خدمات سامان دهی نیز عرضه کرد. حاشیه نویسی، به دو گونه رسمی و غیررسمی (شخصی) است. گونه های رسمی حاشیه نویسی با استفاده از فراداده هایی که از استانداردها پیروی می کنند و با ارزش هایی که بر اساس اصالت قراردادی معین شده است، صورت می گیرد.

حاشیه نویسی متن بر مفاهیمی چون: عنوان، برجسته سازی و معین کردن، مبتنی است. این مفاهیم، به شیوه های مختلف در تحقیقات امروزی رایج است؛ اما آنها سبب بروز مشکلات قابل ملاحظه ای در چگونگی کاربردشان در زبان طبیعی  و چگونگی توافق بر سر تعاریف گوناگون از مفاهیم شده اند.

عنوان، آیینه متن و بیانگر موجودیت یا مجموعه ای از موجودیت ها است که تحت آن، اطلاعات متن  بیان می شود.

برجسته سازی، مفاهیم پوشیده در متن را با استفاده از واژه هایی برجسته می کند و معین کردن، در پی تعیین دلالت هایی است که در متن وجود دارد و باید از مفاهیم یا چارچوب متن دریافت و استخراج شود.

استفاده از حاشیه نویسی در بازیابی اطلاعات

شاید بتوان عمده ترین نقش های حاشیه نویسی را در سامان دهی و بازیابی اطلاعات این گونه برشمرد:

  • - نمایاندن مفاهیم مندرج در متن؛
  • - امکان یافتن ارتباط های رده ای و معنایی میان پیکره های متنی در یک کتاب یا کتب گوناگون؛
  • - مفهومی شدن جست وجوها؛
  • - امکان انجام رده بندی های نو از متون که با استفاده از رده بندی های موجود ناممکن است؛
  • - فراهم آوردن بستری برای نگاه های متنوع به یک متن و برقراری ارتباط متون با یکدیگر.

چگونگی نمایش حاشیه نویسی ها

حاشیه های نوشته شده را در متن می توان به چندگونه عرضه کرد:

  • - عرضه فهرستی از حاشیه ها با نظم الفبایی، رده ای یا به هر دو شکل به مخاطب؛
  • - هماهنگ سازی و تعریف این حاشیه ها برای ماشین به منظور مفهومی تر کردن جست وجوها؛
  • - هماهنگ کردن و تعدیل حاشیه ها برای استخراج موضوع های نو از آثار برای عرضه بسته های موضوعی؛
  • - هماهنگ سازی، تعدیل و رسمی کردن حاشیه ها و استفاده از آن برای یادگیری ماشین به منظور دسته بندی خودکار متون؛
  • - هماهنگ سازی، تعریب و استاندردسازی حاشیه ها برای استفاده از حاشیه های نوشته شده در نرم افزارهای فرمت تخصصی و موضوعی.

تفاوت حاشیه نویسی با نمایه سازی

حاشیه نویسی، در عداد نمایه سازی شمرده می شود؛ اما نمایه سازی به معنای خاص، عبارت از فهرست سازمان یافته مدخل هایی (Entry) است که به منظور کمک به استفاده کنندگان در جایابی دقیق اطلاعات یک مدرک ساخته می شود؛ به عبارت دیگر، منظور از نمایه، کلمه یا کلماتی است که نشان دهنده مفاهیم اصلی یک مدرک برای آسان سازی بازیابی اطلاعات باشد. شاید از بزرگ ترین تفاوت ها میان حاشیه نویسی و نمایه سازی این باشد که در نمایه سازی معمولاً واژگان به کاررفته در متن را به مثابه اصطلاح  نمایه ای بر می گزینند و در برخی نظام های نمایه سازی، آن واژه را با استفاده از کنترل واژگاناستاندارد بازمی گردانند؛ اما در حاشیه نویسی در موضوع، واژگان و اصطلاحات پایبندی به متن وجود ندارد؛ بلکه بیشتر مبتنی بر برداشت و تفسیر خواننده از متن است.

کاستی های شیوه فرمت تخصصی در مرکز

این شیوه تحلیل و پژوهش نیز کار پرحجم و وقت گیری است؛ هرچند صرف وقت و هزینه در آن به اندازه معاجم موضوعی نیست.

دسته بندی مباحث استخراج شده از متن در این شیوه، به گونه معیار و بر پایه یکی از استانداردهای دسته بندی نیست؛ بلکه به شکل قراردادی داخلی و بومی است.

این شیوه، در متون چندموضوعی به گونه کامل در پیش گرفته نشده و با رویکرد دانش محور (یک دانش خاص) به سراغ متون رفته و از مباحث علوم دیگر، چشم پوشی شده است.

در این شیوه نیز استخراج مباحث به سلایق و نیز توانایی علمی محقق بسیار بستگی داشته است.

شیوه عرضه

شیوه عرضه این تحلیل ها، در قالب های گوناگون صورت می گیرد؛ به گونه ای که اگر این مباحث در قالب شخصیت ها، (نبی اعظم) یا موضوعات خاص (معصومان، نهج البلاغه) باشد، در غالب موسوعه یا دانشنامه عرضه می شود و اگر در متونی از یک دانش باشد، به شکل پژوهش.

کاستی های عرضه

این گونه عرضه نیز شاید برای کاربران دشواری هایی در پی داشته باشد؛ زیرا در تعامل نخست با برنامه، کاربر نمی داند به چه شیوه ای باید برای بازیابی اطلاعات رفتار کند.

همچنین، شاید مانند همه برنامه های مرکز «نور»، از اطلاعات استخراج شده استفاده مؤثر برای بازیابی صورت نپذیرفته است؛ به گونه ای که با توجه به این همه صرف وقت و نیروی پژوهشگران، کاربر آن گونه که شایسته است، نمی تواند با سرعت و سادگی به محتوای دلخواه برسد؛ برای نمونه، اگر کاربری بخواهد همه شاعران فارسی را در  محدوده زمانی قرن سوم تا هشتم هجری بجوید، هیچ گاه نمی تواند به نتیجه ای دست یابد؛ درحالی که همه این اطلاعات پیش تر استخراج شده است؛ یعنی اعلام اشخاص که شاعرند، معین شده و به کاربر عرضه شده اند و اَعلام و واژگان فارسی نیز استخراج شده اند.

چگونگی استفاده از فرمت تخصصی در سامان دهی محتوای محصولات «نور»

در این باره، موارد ذیل قابل توجه است:

  • - ارائه اطلاعات استخراج شده تحت دسته بندی های مناسب و معیار؛
  • - امکان محدود یا فیلتر کردن جست وجو به یک یا چند دسته یا واحد اطلاعاتی خاص؛
  • - امکان استفاده از ورودی یا لاگ کاربران در عرضه نتایج دقیق تر به کاربران؛
  • - امکان استفاده از اطلاعات استخراج شده در بخش جست وجو افزون بر مرور آنها.

منبع:

اطلاعات تکميلي

  • تاریخ انتشار نسخه چاپی: سه شنبه, 25 آذر 1393
  • صفحه در فصلنامه: صفحه 70
  • شماره فصلنامه: فصلنامه شماره 48
بازدید 14367 بار
شما اينجا هستيد:خانه