کاربرد هوش مصنوعی در تحلیل استنادات و ارجاعات کتاب‌شناسی پایگاه کتابخانه دیجیتال نور

پنج شنبه, 27 شهریور 1399 ساعت 09:01
    نویسنده: حسین احمدی تنکابنی* این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید
این مورد را ارزیابی کنید
(1 رای)

اشاره

کتاب‌سنجی یا مطالعات معیارهای سنجش کتاب با استفاده از فنّاوری، ابزاری برای تجزیه و تحلیل اطّلاعات کتاب در کتابخانه‌های دیجیتال است. مرکز تحقیقات کامپیوتری علوم اسلامی، سامانه‌ای با عنوان سیستم ارجاعات تولید کرده که در حال حاضر، در پایگاه کتابخانه دیجیتال نور (NOORLIB.IR) مورد استفاده قرار گرفته است. در این سامانه، ارجاعات پاورقی کتاب‌ها به صورت ماشینی تجزیه و تحلیل گردیده، کلیه ارجاعات به منابع اصلی استنادات پیوند داده شده است. بر اساس این سیستم، می‌توان تجزیه و تحلیل اطّلاعاتی و ارتباطات بسیار کاربردی و مفیدی در راستای کتاب‌سنجی و تحلیل استنادی، تهیه و تولید کرد.

کلیدواژگان: استنادات، تحلیل استنادی، ارجاعات کتاب‌شناسی، هوش مصنوعی، کتاب‌سنجی، کتابخانه دیجیتال.

مقدمه

در عرصه جهانی، به دلیل گسترش روزافزون اطّلاعات و محدودیت‌های ناشی از تمرکز مبتنی بر استراتژی نیروی انسانی و سرمایه، نگرش کلّی مراکز علمی، حرکت به سوی اقتصاد دانش‌بنیان است که دارای مؤلّفه های اصلی پیشرفت با ابزار دانش و تکنولوژی می‌باشد. برای همین، مطالعات علمی و تحقیقات فنّاورانه به دنبال کشف و شناسایی حوزه‌های جدیدی است که در نتیجه کم بودن منابع تخصّصی و عدم آشنایی لازم متخصّصان در این حوزه، به عنوان یک فرصت بسیار مفید خواهد بود. گردآوری و تحلیل اطّلاعات با استفاده از فنّاوری‌های نوین اطّلاعات و ارتباطات، یکی از راهبردهای اصلی سازمان‌های مدیریت دانش است که علاوه بر هزینه‌های کمتر، با سرعت و دقّت بیشتری همراه است. انبوه اطّلاعات و انباشته‌های علوم، جامعه و تمدّنی را بارور و شکوفا نخواهد کرد؛ بلکه تحقیقات علمی و تلاش‌های پژوهشگرانه با استفاده از فنّاوری‌های نوین می‌تواند سهمی مهم و مؤثّر در تولید دانش و جریان‌های علمی ایجاد نماید.

تحقیقات و فناوری

کاوش در پژوهش‌های علمی، به معنای تحکیم و استوارسازی علم است. فنّاوری اطّلاعات نیز با نوآوری‌های خود در این زمینه می‌تواند نقش اساسی بسیاری ایفا نماید. نوآوری‌هایی در گردآوری، سازماندهی، ذخیره‌سازی، بازیابی، نمایش و انتقال اطّلاعات که شامل مجموعه‌ای از سخت‌افزارها، نرم‌افزارها، شبکه‌ها و تجهیزات الکترونیک می‌باشد و ناشی از گسترش سریع فضای مجازی و سیستم‌های مبتنی بر رایانه‌ها، شبکه‌ها، تعامل کاربران با یکدیگر، و همچنین، ابزارهای هوش مصنوعی است.

تحولات علمی حوزه‌های مختلف دانش و ارتباط آنها با یکدیگر، همراه با گسترش علوم وابسته به فنّاوری‌های اطّلاعات و ارتباطات، چالش‌های بسیاری را برای ماهیت اطّلاع‌رسانی و خدمات در محصولات و قابلیت‌های کتابخانه دیجیتال ایجاد کرده که با کارکردهای گسترده هوش مصنوعی، قابل تحقیق و توسعه است و در قالب ایده‌ها و طرح‌های جدید، باعث توانمندی و کارآیی بیشتر کتابخانه‌های دیجیتال در فضای مجازی برای آموزش و پژوهش خواهد گردید.

ضرورت بحث

جهان گسترده اطّلاعات به همراه توسعه پرشتاب فنّاروی، فراوانی انواع علوم را در پی دارد و نتیجه آن، تخصّصی شدن شاخه‌های مختلف علوم به زیرشاخه‌های علمی گوناگون است که روزبه‌روز در حال تغییر و تحوّل می‌باشد. علاوه بر این، استفاده از ابزارهای جدید برای روزآمدسازی و همراهی با شتاب پُرسرعت دانش که در قالب‌های متنوّع و جذّاب در بستر حامل‌های مختلف برای کاربران اینترنت تولید و عرضه می‌شوند، ضرورت بحث حاضر را آشکار می‌سازد؛ به‌ویژه در حوزه فنّاوری‌های نوین تحقیقات که قابلیت‌های بسیار کاربردی، متنوّع و مهم در امر پژوهش، به‌خصوص در حوزه تحقیقات میراث کهن و گنجینه‌های علوم اسلامی به صورت میان‌رشته‌ای دارد.

نکته بسیار قابل توجّه، این است که مراکز و مؤسّساتی که دارای منابع و ذخایر اطّلاعات دیجیتال، و همچنین، امکانات و قابلیت‌های فنّاوری نوین در سازماندهی، ذخیره‌سازی و پردازش اطّلاعات هستند، می‌توانند به عنوان سازمان‌های پیشرو و پیشگام در عرصه پژوهش و تحقیقات فنّاورانه گام بردارند؛ زیرا شبکه جهانی اطّلاعات، بر این ارکان اساسی استوار است که با توجّه به سرعت شگرف تحولات در عرصه علم و فنّاوری، اهمّیّت و ضرورت تغییر در نگرش و رویکرد پژوهش و تحقیقات با بهره‌گیری از فنّاوری‌های نوین اطّلاعات و ارتباطات در بستر حامل‌های مختلف با استفاده از هوش مصنوعی را بسیار مهم و ضروری می‌نمایاند. یکی از مهم‌ترین رویکردهای ضروری پژوهش در حوزه‌های علوم اطّلاع‌رسانی و مدیریت دانش و فنّاوری اطّلاعات که در سال‌های اخیر رشد بسیار خوبی داشته است، دانش کتاب‌سنجی می‌باشد که ارتباط نزدیکی با اطّلاع‌سنجی، علم‌سنجی، سایبرسنجی و یا وب‌سنجی دارد.

کتاب‌سنجی

قبل از تعریف باید به تجزیه و تحلیل واژگان و اصطلاحات علمی که منشأ شکل‌گیری دانش کتاب‌سنجی است، بپردازیم. کتاب‌سنجی، معادل واژه Bibliometrics، از دو واژه Biblio که ترکیبی لاتینی و یونانی به معنای کتاب و metrics به معنای اندازه‌گیری و سنجش می‌باشد، ترکیب یافته است(1). برای دانش کتاب‌سنجی، تعریف‌های گوناگونی بیان شده که در ادامه، به مهم‌ترین آنها خواهیم پرداخت:

  1. ادوارد هولم (1923م): کتاب‌سنجی، یعنی مطالعه روند تبیین و تشریح تاریخ علم و فنّاوری، به وسیله شمارش اسناد و مدارک(2)؛
  2. رایزیگ (1962م): کتاب‌سنجی، عبارت است از گردآوری و تفسیر آماری مکتوبات به منظور بررسی سیر تطوّر تاریخی تدوین علوم مکتوب(3)؛
  3. آلن پریچارد (1969م): کتاب‌سنجی، یعنی کاربرد علم ریاضیات و روش‌های آماری برای بررسی و استفاده از کتاب(4). همچنین، علم اندازه‌گیری اوزان و مقادیر برای روند تبادل و انتقال اطّلاعات به منظور تجزیه و تحلیل و کنترل فرآیند آن(5)؛
  4. فرثورن (1969م): کتاب‌سنجی، یعنی مطالعه کمّی خصوصیات مواد مکتوب و رفتار متناسب با آنها(6)؛
  5. لنکستر (1977م): مطالعه الگوهای نویسندگان، انتشارات و متون با استفاده از روش‌های مختلف تجزیه و تحلیل آماری(7)؛
  6. هاوکینز (1977م): تجزیه و تحلیل کمّی کتاب‌شناختی مواد از طریق نظام ماشینی و پیوسته(8)؛
  7. برودوس (1987م): مطالعه کمّی واحدهای فیزیکی انتشارات یا واحدهای کتاب‌شناختی یا جانشین آنها(9)؛
  8. سن گوپتا (1992م): سازماندهی، طبقه‌بندی و ارزیابی کمّی انگاره‌های انتشاراتی مواد و پدیدآورندگان آنها با روش ریاضی و آمار(10)؛
  9. دیوداتو (1994م): مطالعه الگوهای انتشاراتی و ارتباطی در توزیع اطّلاعات با استفاده از ریاضیات و روش‌های آماری از شمارش ساده تا محاسبات پیچیده(11)؛
  10. نارین (1994م): کتاب‌سنجی، عبارت است از روشی کمّی با استفاده از شمارش انتشارات و استنادهای متعلّق به آن برای تدوین شاخص‌های پژوهش‌های انجام‌شده در علوم و فنّاوری(12).

پیشینه کتاب‌سنجی

کمپبل (1896م)، با استفاده از روش‌های آماری به مطالعه موضوعی انتشارات پرداخت(13). کولف و ایلز (1917م)، میزان رشد متون مقایسه‌ای را با استفاده از کتاب‌شناسی آماری(14) و بر اساس استنادهای کتاب‌شناختی(15) مطالعه کردند.(16) ادوارد هولم (1923م)، با استفاده از کتاب‌شناسی آماری توضیح داد که چگونه می‌توان با شمارش اسناد و مدارک، تاریخ علم و فنّاوری را قابل درک کرد.(17) لوتکا (1926م)، با قانون بازدهی علمی که بر مطالعه تعداد نویسندگانی که در یک یا چند موضوع مطلب نوشته‌اند، به عنوان یکی از اصول و قواعد کتاب‌سنجی، «قاعده لوتکا» را مطرح کرد.(17) بردفورد (1934م)، در کتابش(19) پراکندگی متون علمی در یک زمینه خاصّ دانش را بیان کرد که با عنوان «قاعده برادفورد»، یکی از قواعد بنیانی و مهم کتاب‌سنجی است. اُتله (1934م)، در اثر معروف خود به نام «رساله مستندات: نظریه و عمل در کتاب‌شناسی»، از واژه کتاب‌سنجی(20) استفاده کرد.

رانگاتان (1948م)، معتقد بود تحلیل ریاضی و آماری می‌تواند ابزاری کلیدی در تمام مطالعات توسعه‌ای و آینده‌نگر باشد.(21) وی با کاربرد آمار و ریاضیات در علوم مختلف، باعث پیدایش رشته‌ای جدید به نام «کتاب‌شناسی آماری» شد و واژه «کتابخانه‌سنجی»(22) را پیشنهاد کرد و ادعاء نمود از آنجا که کاربرد آمار و ریاضیات باعث پیدایش رشته‌های جدیدی نظیر اقتصادسنجی و روان‌سنجی شده است، کتابداران باید با استفاده از روش‌های آماری و ریاضی مناسب، این علم را توسعه دهند.(23)

زیپف (1949م)، دانشمندی که قاعده زبان‌شناسی خود را بر تنظیم محاسبه تکرار و تناوب واژه‌ها در یک مجموعه خاصّ از مدارک و اسناد بود، معرّفی کرد که یکی از اصول و قواعد مهمّ دانش کتاب‌سنجی شد.(24) سال 1969میلادی، پریچارد واژه «کتاب‌شناسی آماری» را به «کتاب‌سنجی» تغییر داد.

بارزترین عوامل رشد کتاب‌سنجی را می‌توان در موارد و قوانین زیر بیان کرد:

قانون لوتکا در بازه بازدهی علمی؛ قانون زبان‌شناسی زیپف؛ قانون پراکندگی مقاله‌های علمی بردفورد. این سه قانون تجربی، موجب ترقّی و پیشرفت سریع فعّالیّت‌های پژوهشی کتاب‌سنجی شد و همچنین، به تحلیل استنادی و شاخص‌های سنجش تحقیقات علمی انجامید.

تحلیل استنادی و تحلیل محتوا، دو روش رایج در حوزه دانش کتاب‌سنجی هستند؛ ولی تحلیل استنادی، تشکیل‌دهنده هسته اصلی علم کتاب‌سنجی است؛ در واقع، تمام تحلیل‌های ارزیابانه در ابتداء توصیفی هستند؛ زیرا هر دو حوزه اصلی مطالعات کتاب‌سنجی توصیفی و ارزیابی، مکمّل یکدیگرند. با تولید و توسعه روزافزاون اطّلاعات در بسترهای مختلف ارتباطات، با سه پرسش اساسی مواجه هستیم:

  • - خصوصیات و قوانین اطّلاعات چیست؟
  • - ارتباط انسان با گستره اطّلاعات چگونه است؟
  • - روش‌های تسهیل دسترسی سریع و دقیق به اطّلاعات، کدام‌اند؟

برای پاسخگویی به این موارد، باید از ابزارهای کتاب‌سنجی با تحلیل کمّیت‌های آماری همراه با تلفیق روش‌های تحلیل کیفیت استفاده کرد. یکی از مهم‌ترین ضرورت‌های مطالعات کتاب‌سنجی، توجّه به فواید و کاربردهای فراوان آن در حوزه‌های مختلف علوم، به‌خصوص برای مدیریت دانش و بازیابی اطّلاعات است که با تحلیل‌های استنادی و مطالعات استنادی ارجاعات، قابل بررسی است.

ارجاعات و استنادات

استناد یا citation، عبارت است از ارجاع به یک منبع علمی؛ نقل قولی از کتاب یا مقاله یا نویسنده، به‌‎خصوص در یک اثر علمی. در لغت، استناد به معنای: سند آوردن، دلیل قرار دادن، استناد به آیه و حدیث یا گفته‌اى، و یا چیزی را محکم و استوار کردن است. استناد، یک عبارت کوتاه متشکل از حروف الفبایی یا اعداد است که در میان محتوا یا متن علمی و پژوهشی می‌آید و هرجایی که نویسنده به تحقیقات دیگران استناد کرده است، خواننده را با هدف تأیید ارتباط موضوع بحث به مطلب مورد نظر، به بخش مراجع تحقیق، ارجاع می‌دهد. در مجموع، آنچه عموماً استناد می‌نامیم، از ترکیب دو حالت ارجاع و مدخل‌های کتاب‌شناسی تشکیل می‌شود. ارجاع و استناد، یکی از مباحث مهم بینامتنیت(25) به عنوان الگویی برای تحلیل حضور متن یا فرامتن‌های غایب در متن حاضر می‌باشد؛ زیرا یک متن از متون دیگر که در گفتمان‌های پیشین موجود بوده، ایجاد می‌شود و مؤلّف با استفاده از متون دیگران، اثری را پدید می‌آورد.

یکی از اصول مهم معیارهای سنجش کیفیت در آثار پژوهشی، و همچنین شاخص ارزیابی تولیدات علمی، ارجاعات و استنادات است. در نگارش متون علمی و پژوهشی، به عنوان یکی از اصول مهم، اتّقان و موثّق بودن اطّلاعات ارائه‌شده در آنها می‌باشد. اعتبار بخشیدن به متون علمی، با سندیت دادن به مطالب آن صورت می‌گیرد. نشان دادن این استناد، از طریق درج استنادات و ارجاعات دقیق به آنها در متون است. هرگاه نویسنده‌ای از داده‌های اطّلاعاتی دیگران استفاده کند، باید به مطالب آنها ارجاع دهد تا مخاطبان امکان مراجعه به متن مرجع را داشته باشند و بر اساس برداشت‌های علمی خود، مکتوبات نویسنده را مورد ارزیابی و دقّت نظر قرار دهند؛ زیرا ممکن است فهم و درک انسان‌ها از منابع و مآخذ، گوناگون باشد و نباید آنها را وادار به قبول فهم و درک نویسنده از متن کرد؛ بلکه با بیان ارجاعات منابع، باید امکان انتخاب، تایید یا ردّ هرگونه تفسیر و برداشت را برای مخاطب فراهم ساخت و با اعتبارسنجی منابع، آنها را مورد ارزیابی قرار داد.

در مجموع، می‌توان گفت بین کیفیت و کمیّت در تعداد استنادات مدارک، رابطه‌ای وجود دارد؛ هر چه تعداد استنادات به یک مدرک و سند علمی بیشتر باشد، نشان‌دهنده کیفیت بهتر آن مدرک خواهد بود.

توجّه تحلیل استنادی در حوزه مطالعات کتاب‌سنجی، بر این موارد است:

نویسندگان چه نوع منابعی را مورد استناد قرار می‌دهند؟ چه تعداد از نویسندگان بیشترین استنادات را به خود اختصاص داده‌اند؟ بیشترین استنادات به چه موضوعاتی از آن حوزه علم تعلّق گرفته است؟ ارتباطات بین استنادات چگونه است؟ چه نویسندگانی به کدام نویسندگان و بر چه اساسی استناد کرده‌اند؟ در هریک از شاخه‌های اصلی و زیرشاخه‌های فرعی علوم، چه موضوعی بیشترین استنادات را دارد؟

ثبت ارجاعات، یکی از مؤلّفه‌های مهم در اخلاق پژوهش و نگارش برای تولیدات علمی است؛ زیرا با ارجاع مشخّص می‌شود که نویسنده اثر، اطّلاعات خود را از کدام منابع گرفته است. ازاین‌رو، باید در نشانی دادن به منبع و مرجع خود، نهایت دقّت را به‌کار برد. با توجّه به عناصر و اجزاء مختلف نشانی دادن مطالب کتاب به منابع دیگر و اصول و شیوه‌های گسترده آن که بر اساس علائم سجاوندی و آیین نگارش وجود دارد، شیوه‌های گوناگونی در انواع ارجاع‌دهی کتاب در حوزه‌های متنوّع علوم وجود دارد؛ ولی با این حال، می‌توان به صورت قواعد منظّم تحلیل و پردازشگرهای ماشینی اطّلاعات به الگوهای مناسبی رسید که در پایگاه‌های دانش و کتابخانه‌های دیجیتال طراحی و پیاده‌سازی می‌شود.

یوجین گارفیلد(26)، یکی از بنیان‌گذاران و پیشگامان علم‌سنجی و کتاب‌سنجی، طرح جامعی را برای ارجاعات علمی پایه‌ریزی کرد و در همین راستا، مؤسّسه اطّلاعات علمی ISI (Institute for Scientific Information) را تأسیس نمود و با تعریف مفهوم شاخص ارجاعی علم، محاسبه تأثیرگذاری را امکان‌پذیر کرد. او می‌گوید: شیوه‌های بسیاری در مورد چگونگی استناد کردن وجود دارد؛ امّا دستورعمل روشنی برای اینکه چه زمانی به متنی استناد کنیم، وجود ندارد. با افزایش سریع و گسترده مدارک و منابع علمی در شبکه جهانی اینترنت، می‌توان از تحلیل استنادی به عنوان ابزاری مکمّل برای مطالعات استنادی بهره برد که لازم است تحلیل استنادی و کارکردهای آنها مورد مطالعه قرار گیرد.

تحلیل استنادی

تحلیل استنادی(27)، بررسی فراوانی الگوها و نمودارهای استنادها در اسناد است که با استفاده از نمودار مستقیم استنادها و پیوندها از یک سند به سند دیگر برای آشکار کردن خصوصیات اسناد استفاده می‌شود. استنادات را می‌توان در دو حوزه کلّی زیر مورد بررسی قرار داد:

  1. استنادات سنّتی (Traditional citations): از پایگاه‌هایی که فرآیند نمایه‌سازی و استخراج استنادات توسط نیروی انسانی انجام می‌شود(28)، به صورت دستی و غیرماشینی، منابع انتخاب، گزینش و نمایه‌سازی می‌شوند.(29)
  2. استنادات وبی (Web citations): استنادات مأخوذ از محیط وب که فرآیند نمایه‌سازی و استخراج استنادات توسط ماشین به صورت خودکار انجام می‌شود.(30)

به‌صورت‌کلّی، شیوه استناد تدوین، به نحوه‌ای از دستورعمل‌های استنادات گفته می‌شود که بدون اشاره به شیوه‌نامه خاصّ استنادات شناخته‌شده، به صورت حدّاقلی، یکی از قواعد استناد در متن یا ساختار فهرست منابع را رعایت کرده باشد. امروزه پژوهشگران به دلیل فرصت‌های محدود مطالعاتی، وقت کمتری برای مراجعه به منابع اطّلاعاتی دارند. برای همین منظور و جهت یاری نمودن پژوهشگران، در پایگاه کتابخانه دیجیتال نور، فهرست ارجاعات علمی در متون تولید شد تا موجب سرعت‌بخشی و آسان‌سازی دسترسی و بازیابی اطّلاعات گردد.

سیستم ارجاعات کتاب در کتابخانه دیجیتال

با طراحی سیستم ارجاعات کتاب(31)، می‌توان پایگاه داده‌های ارتباطی منابع علوم را در کتابخانه دیجیتال ایجاد کرد که با شناسایی ماشینی ارجاعات و ایجاد پیوند با منابع کتاب می‌توان به شبکه‌ای از اطّلاعات فرامتنی دست یافت که فعّالیّت پژوهشی را برای محقّقان و دانشجویان علوم اسلامی، تسهیل و تسریع می‌کند.

برای این کار، سیستمی جهت تحلیل و پردازش اطّلاعات بر اساس ارجاعات و منابع کتاب ایجاد شد که با توجّه به اطّلاعات کتاب‌شناسی و استنادات متون و منابع، به صورت ماشینی قابل سازماندهی و بازیابی است. البته برای رسیدن به چنین ابزاری نیازمند موارد ذیل هستیم:

  1. بانک اطّلاعات کتاب‌شناختی(32) که شامل مشخصات شناسنامه‌ای کتاب به صورت استاندارد، فهرست‌نویسی شده باشد. اطّلاعات کتاب‌شناسی آن، شامل مؤلّفه‌هایی مانند: نام کتاب، نام پدیدآور، ناشر، سال نشر و یا نوبت چاپ است و هنگامی که در پاورقی کتاب، نام کتاب آورده می‌شود، باید بتوان از طریق نام کتاب و نام پدیدآور آن تشخیص داد که چه کتابی مورد نظر نویسنده بوده است.
  2. متون و منابع با قابلیت پردازش محتوا که توسط سیستم پردازشگر ماشینی، قابل خوانش و بررسی محتوا باشد.
  3. سیستم پردازش و تحلیلگر ارجاعات ماشینی که با استفاده از هوش مصنوعی و روش‌های یادگیری ماشینی مانند قوانین میدان تصادفی شرطی یا الگوریتم مدل پنهان مارکف(33) و روش‌های مبتنی بر عبارت‌های با قاعده و یا روش‌های تحلیلگر نحوی پارسینگ، و همچنین روش‌های ترکیبی، قابل بهره‌مندی است.

تشریح سیستم فنی ارجاعات

فرآیند سیستم ارجاعات، به طور عمده دارای قسمت‌های زیر است:

  1. خوانش ماشینی اطّلاعات؛
  2. گزینش و استخراج اطّلاعات؛
  3. ارزیابی و صحت‌سنجی اطّلاعات؛
  4. مقایسه اطّلاعات با بانک‌های اطّلاعاتی؛
  5. بررسی استخراج نمونه‌های پیشنهادی؛
  6. امتیازدهی به پیشنهادات؛
  7. ثبت نتایج با شباهت بیشتر.

در حال حاضر، استخراج اطّلاعات استنادات در متون قابل خوانش ماشینی، از محتوای متنی کتاب می‌باشد؛ هر چند با استفاده از فنّاوری نویسه‌خوان نوری (OCR)(34) می‌توان در محتوای تصویری نیز این کار را انجام داد. در نسخه متنی، لازم است که متن پاورقی‌ها با فرمت مشخّص متمایز باشند یا در جداول جداگانه‌ای ذخیره شده باشند؛ همان‌گونه‌که در پایگاه کتابخانه دیجیتال نور در مورد کتاب‌های دارای متن، هم‌اکنون این اتّفاق افتاده است. در صورت عدم ذخیره جداگانه پاورقی‌ها، لازم است که بخشی جداگانه به تشخیص پاورقی از متن با توجّه به جایگاه قرار گرفتن شماره‌ها و کلمات کلیدی بپردازد که این کار، برای مقالات پایگاه نورمگز با دقّت بسیار خوبی انجام شده است تا مراجع و پاورقی‌ها، از متون اصلی مقالات جدا و تفکیک شوند.

در بخش تجزیه و تحلیل واژگانی (Lexical Analysis) پارسر پاورقی (Footnote parser) با توجّه به پیچیدگی متون مختلف، ممکن است پاورقی‌های متوالی در کنار هم ایجاد شوند که از یک برنامه پارسر (تحلیلگر نحوی واژه) پایین به بالا استفاده شد و قواعد یادگیری ماشینی جدیدی طراحی شد. برای استفاده از این سیستم، ابتداء متن پاورقی و گزیده‌ای از کلمات قبل و بعد از آن در متن را جداگانه ذخیره می‌کنیم و به قسمت تجزیه و تحلیلگر واژگان پارسر ‌فرستاده می‌شود که برای دقّت بیشتر و بهتر سیستم ابتداء باید روی متون، نرمال‌سازی(35) لازم را انجام داد؛ به‌طورمثال، انواع مختلف تایپ حروف عربی و فارسی مانند: حروف یاء (ی ی)، حرف کاف (ک ك) و حرف هاء (ه ة) را با کلمه نمونه(36) همانندسازی(37) کنیم.

البته برای سرعت بخشیدن به پارسر، از تبدیل قواعد به فرم نرمال استفاده شد و قواعد به صورت سطح‌بندی متفاوت تقسیم‌بندی گردید و در یک سطح، فقط قواعد همان سطح را به تعداد ممکن اعمال نمودیم.

سپس، اطّلاعات خروجی موتور پارسر، یک یا تعدادی از موارد نمونه احتمالی پیشنهادی سیستم خواهد بود که هر کدام می‌تواند اطّلاعات نشانی احتمالی ارجاع پاورقی کتاب باشد. در بخش بعد، با استفاده از اطّلاعات پارسر و اطّلاعات کتب، احتمالات قابل بررسی برای نشانی کتاب مورد نظر استخراج شد و احتمالات مختلف با توجّه به میزان شباهت متن قبل و یا نزدیک به محل پاورقی در متن و در برخی موارد، متون تبدیل‌نشده در خود پاورقی، مورد بررسی و امتیازدهی قرار می‌گیرد.

برای تأثیر ضریب میزان شباهت متون، از امتیازدهی تخصیصی به اسناد بر اساس تعداد N-gram در الگوریتم‌ها، و همچنین از خروجی بُردار کلمه‌ها TF-IDF که بیانگر میزان اهمّیّت یک کلمه در متن است (فراوانی وزنی کلمات در متن) و نیز نزدیک بودن به انتهاء محل پاورقی و پیوستگی تطابقات، بهره‌برداری شد و در نهایت، بهترین کاندیدای واجد امتیاز مورد قبول برای ثبت نتایج استفاده شد؛ درصورتی‌که از کاندیداهای موجود که از شماره صفحه و شماره جلد در پاورقی نتیجه مناسبی حاصل نشده باشد، با استفاده از موتور جست‌وجو در میان کتاب، مناسب‌ترین صفحات را با جست‌وجوی قطعات جداشده از قبل و بعد، محل پاورقی را در متن به دست می‌آوریم و سپس، به بررسی و امتیازبندی و انتخاب کاندیداهای موجود می‌پردازیم.

درحال‌حاضر، پایگاه نورلایب، از موتور جست‌وجوی الاستیک(38) برای این منظور استفاده می‌کند. ثبت نتایج هم با توجّه به حذف‌هایی که انجام شده و نرمال‌سازی‌هایی که صورت گرفته، روی متن اصلی کتاب دشواری‌هایی را دربردارد که لازم است تطابق(39) ثبت‌شده‌ای بین متن اصلی پاورقی و متن نرمال‌سازی‌شده که در بین مراحل پردازش مورد استفاده قرار می‌گیرد، وجود داشته باشد.

در پایگاه‌های اطّلاعاتی و نرم‌افزار‌های کتابخانه‌ای، می‌توان ارجاعات پاورقی‌ کتاب را به منبع اصلی مرتبط کرد. در این حالت، پژوهشگر برای بررسی مطلب اصلی، فقط کافی است روی لینک پاورقی کلیک نماید و مطلب مورد نظر خود را به صورت رنگی‌شده، مشاهده کند؛ درحالی‌که در روند عادی تحقیقات، یک پژوهشگر لازم است اقدام به یافتن نشانی منبع ارجاعی در کتاب مقصد ‌نماید و سپس، با مراجعه به نشانیِ داده‌شده، مطلب را بازیابی کند و مورد مطالعه قرار دهد. البته این در صورتی است که نسخه کتاب ارجاعیِ در دسترس پژوهشگر، با نسخه کتاب منبع نشانی ‌داده ‌شده، از نظر نسخه‌شناسی و صفحات چاپ، مطابقت داشته باشد؛ در غیر این صورت، باید فرایندهایی مانند جست‌وجو را انجام داد تا بتوان به متن اصلی در نسخه ارجاعی دسترسی پیدا کرد. درحال‌حاضر، این‌کار در پایگاه نورلایب انجام گرفته و در دسترس کاربران قرار داده شده و قابل مشاهده است.

از طریق دسته‌بندی ارجاعاتِ استفاده‌شده در یک کتاب، می‌توان یک فهرست از منابع مورد استفاده در کتاب را تهیه نمود و تعداد استنادات را تجزیه و تحلیل کرد. با این فهرست ارجاعات کتاب، می‌توان چشم‌اندازی از اهداف زیر را در تحلیل‌های حوزه علم‌سنجی و کتاب‌سنجی تهیه نمود که نیازمند مطالعات تحقیقاتی فراوان است؛ زیرا آینده امپراطوری عصر اطّلاعات و ارتباطات، در تجزیه و تحلیل داده‌ها(40) می‌باشد:

  1. میزان استفاده از هر کتاب و ارتباطات آن در تألیف سایر کتاب‌ها و بررسی میزان ضریب تأثیر و نفوذ آن؛
  2. ارزیابی و رتبه‌بندی کتاب، پدیدآوران و ناشران مهم و برتر علوم؛
  3. نمایش ساختار علمی و سیر تطوّر دانش در هر یک از حوزه‌های علم و دانش؛
  4. تعیین سهم شخصیت‌ها و مراکز علمی و ناشران برتر با معرّفی نویسندگان و ناشران دارای بیشترین ارجاع و استناد؛
  5. تعیین میزان تعداد بازدید و دفعات دریافت هر یک از منابع بر اساس نویسنده و ناشر به تفکیک حوزه‌های موضوعی.

پی‌‎نوشت‌ها:

1. Sengupta, I.N. (1992). Bibliometrics, informetrics, Scientometrics, and librametrics: an overview, Libri, 42: 75-98.
2. Hulme, E. W. (1923). Statistical Bibliography in relation to the growth of modern civilization London: Grafton, 1923.
3. Raisig, Miles (1962). Statistical Bibliography in the Health Sciences. Bulletin of the Medical Library Association. 50: 450.
4. Pritchard, A. (1969). Statistical Bibliography or Bibliometrics? , Journal of Documentation, 25: 348-349.
5. Pritchard, A. (1972). Bibliometrics and information transfer. Research Librarianship, 4: 37-46.
6. Fairthorne, R. A. (1969). Empirical hyperbolic distributions. Bradford, Zipf, Mandelbrot for Bibliometrics distribution & Documentation, 25: 319-343.
7. Lancaster, F.W. (1977). The measurement and evaluation of library services. Washington D.C.: information Resources Press.
8. HawKins. D.T. (1977). Unconventional uses of on-line information retrieval systems: on-line Bibliometrics studies, Journal of the American Society for Information Science, 28: 13-18.
9. Broadus, R. (1987). Toward a Definition of Bibliometrics. Scientometrics, 12: 373-379.
10. Sengupta, I.N. (1992). Bibliometrics, Informetrics, Scientometrics and librametrics: an overview, Libri, 42: 75-98.
11. Diodato, V. (1994). Dictionary of Bibliometrics. New York: The Haworth Press.
12. Narin. F. & Olivastre, D. & Stevens, K.A. (1994). Bibliometrics, theory, practice and problems. Evaluation Review, 18: 65-76.
13. Campbell, F. Theory of the National and International Bibliography. London: Library Bureau, 1896.
14. Statistical bibliography.
15. Bibliographic citations.
16. Colef, J. & Eales, N.B. (1917) The History of Comparative Anatomy: a Statistical Analysis of the Literature. Science Progress. No. 11: 578 – 596.
17. Hulme, E.W. Statistical Bibliography in Relation to the Growth of Modern Civilization. London: Grafton, 1923.
18. Lotka, A.J. (1926). The Frequency Distribution of Scientific Productivity. Jornal of the Washington Academy of Sciences, 16: 317-323.
19. Documentation.
20. Bibliometrics.
21. Idem. "Libranetry and its Scope". Held at Annual Seminar of the Documentation Research and Training Centre (DRTC). England: Aslib, 1969:285-301.
22. Librametrics.
23. Ranganathan, S, R. (1948) Proceedings of the Aslibs Annual. Conference, Leamington Spa, Great Britain.
24. Zipf, G. K. (1949). Human Behavior and Principle of Least Effort. Cambridge: Addison-Wesley.
25. Intertextuality.
26. Eugene Garfield (1925-2017).
27. Citation analysis.
28. Perkel, Jeffrey M. (2005). The future of citation analysis: the challenge is to track a works impact when published in nontraditional. Scientist, 19: 24-29.
29. Siluo, Yang (2010). The status and trends of web citation study abroad. Journal of Library Science in China. Doi: CNKI: SUN: ZGTS.0.2010-04-013.
30. Zhang, Yanjun (2006). The effect of open access on citation impact: A comparison study based on web citation analysis. Libri, 53: 145-156.
31. Book Reference System.
32. Resource Metadata Management System.
33. Hidden Markov Model.
34. Optical Character Reader.
35. Normalization.
36. Sample Word.
37. Replication.
38. Elastic-search.
39. Mapping.
40. data analytics.

منابع:

اطلاعات تکميلي

  • تاریخ انتشار نسخه چاپی: یکشنبه, 23 شهریور 1399
  • صفحه در فصلنامه: صفحه 2
  • شماره فصلنامه: فصلنامه شماره 71
بازدید 246 بار
شما اينجا هستيد:خانه