سمیم نور، نقش مهمی در تولید علم کارآمد دارد

    گفت‌وگو با دکتر مهدی بهنیافر، معاون دفتر تهران مرکز تحقیقات کامپیوتری علوم اسلامی

دوشنبه, 31 شهریور 1393 ساعت 15:28
این مورد را ارزیابی کنید
(3 رای‌ها)

اشاره

افزون بر دو دهه، از فعالیت مرکز تحقیقات کامپیوتری علوم اسلامی در حوزه داده پردازی علوم اسلامی می‌گذرد و در عمل، به انباشت اطلاعات علمی و پژوهشی مفیدی در این مرکز انجامیده است. یکی از تولیدات جدیدی که به استفاده بهینه و کارآمد از این اطلاعات و تجارب ارزشمند کمک شایانی می‌نماید، راه‌اندازی پایگاه اینترنتی سمیم نور (سامانه مشابهت‌یاب متون نور) به نشانی www.samimnoor.com است. این سامانه که افزون بر اهداف پژوهشی، می‌تواند تأمین‌کننده اهداف آموزشی نیز باشد، نقش بسزایی در تولید علم سالم و کارآمد در سطح کشور دارد. به منظور آشنایی بهتر خوانندگان و علاقه‌مندان عزیز با اهمیت، ویژگی‌ها و قابلیت‌های این پایگاه کاربردی، گفت‌وگویی را با معاون محترم دفتر تهران مرکز تحقیقات کامپیوتری علوم اسلامی، آقای دکتر مهدی بهنیافر انجام دادیم که امید است مورد استفاده پژوهشگران، اساتید و تمامی دست‌اندرکاران عرصه تحقیق، دانش و فناوری قرار گیرد.

 هدف مرکز تحقیقات کامپیوتری علوم اسلامی از راه‌اندازی پایگاه «سمیم نور» چیست؟

مرکز تحقیقات کامپیوتری علوم اسلامی (نور)، امروزه به عنوان یکی از بانیان اصلی تولید و ترویج علوم انسانی و اسلامی در کشور شناخته شده است و سهمی انکار ناشدنی در روزآمدی خیلی از شاخه‌های علوم انسانی در ایران دارد. از این رو، نخستین هدف ما از تأسیس پایگاه اینترنتی سمیم نور یا سامانه مشابهت‌یاب متون نور، عبارت است از ایجاد تحول در تولید علم و رساندن نرخ تولید علوم انسانی در ایران به نرخ واقعی آن؛ این، یعنی کاستن از فربهی پوشالی تولید علم که متأسفانه در برخی عرصه‌ها دامن‌گیر کشورمان شده است. از طرفی، با توسعه اینترنت و شبکه‌های مختلف اطلاع‌رسانی، سوء استفاده از این فناوری‌های دیجیتالی هم به عرصۀ تولید علم کشیده شده است و برخی انواع سوء رفتارهای پژوهشی را دامن زده است. این سوء استفاده‌های فناورانه در حوزۀ پژوهش و تولید علم از یک سو، و از سوی دیگر، کم‌رنگ شدن اخلاق پژوهش و نگارش علمی باعث شده است که جهان امروز، با پدیدۀ ناخوشایند و گستردۀ تقلب‌های پژوهشی و دست‌برد علمی روبه‌رو شود. بیشتر کشورهای پیشرفته از ابزارهای فناورانه برای پیش‌گیری و کشف این سوء استفاده‌های احتمالی بهره می‌گیرند. در کشور ما و به‌ویژه با افزایش حساسیت‌ها در سال‌های اخیر، استفاده از یک ابزار فناورانه برای پیش‌گیری از دست‌برد علمی و احتمالاً کشف آن‌ها، ضروری به نظر می‌رسید که البته نیازمند تلاشی زیاد در به کارگیری فناوری‌های پردازشی در حوزۀ خط و زبان فارسی بود. با توجه به این‌که مرکز تحقیقات کامپیوتری علوم اسلامی از سازمان‌هایی است که می‌تواند گام‌هایی برای ساخت ابزارهای فناورانه در حوزه خط و زبان فارسی و عربی و نرم‌افزارهایی برای کمک به جامعۀ علمی بردارد، برنامه‌ریزی برای ارائۀ این سامانه از سال‌های گذشته انجام شد و هم‌اکنون مرکز موفق به رونمایی از سامانۀ خدماتی «سمیم» شده است و این سامانه، به جمع دیگر ابزارهای پژوهشی نور مانند نرم‌افزار استناددهی «پژوهیار» و «فیش نگار» پیوسته است. سامانه سمیم نور، علاوه بر اهداف پژوهشی، می‌تواند اهداف آموزشی نیز داشته باشد و در گام‌های بعدی، برای آموزش به مقاله‌نویسان تازه‌کار قابل دسترسی باشد.

برخی از ویژگی‌ها و قابلیت‌های سامانه سمیم را برشمارید.

این سامانه با پشتوانۀ تجربۀ 25سالۀ مرکز تحقیقات کامپیوتری علوم اسلامی و با نگرش به نیازهای کشور طراحی شده است. با توجه به این‌که سامانه‌های مشابه‌یاب باید منابع قابل توجهی به عنوان منابع مرجع داشته باشند تا فرایند مشابه‌یابی را بر اساس آن منابع انجام دهند، مهم‌ترین ویژگی سامانه سمیم را می‌توان بهره‌گیری از منابع متنی و مقالات پایگاه تخصصی مقالات نورمگز و دیگر منابع متنی نور دانست. بنابراین، این سامانه برای حوزه‌های علوم انسانی و اسلامی می‌تواند بسیار مؤثر و کارآمد باشد.

سامانه سمیم، متون ارسالی کاربران را با منابع متنی نورمگز، کتابخانه دیجیتالی نور و دیگر منابع متنی موجود در مرکز تحقیقات کامپیوتری علوم اسلامی (نور) مقایسه می‌کند و خروجی را در دو ستون تفکیکی ارائه می‌کند که در یک ستون متن ارسالی کاربران و در یک ستون، فهرست مقالات مشابه قرار دارد که متصل به پایگاه ارائه‌دهنده تمام‌متن است. این سامانه، با رنگی کردنِ قسمت‌های مشابه، امکان مقایسۀ متن ارسالی و هر یک از مقالات بازیابی‌شده را فراهم می‌سازد. به ‌علاوه، با نمایش درصد مشابهت متن با مقالات، اطلاعات قابل توجهی در مورد میزان مشابهت یک متن با سایر متون موجود ارائه می‌دهد. افزون بر این، برای دست‌یابی به دقت بیشتر در مشابه‌یابی و کاستن از برخی انحراف‌ها در درصد مشابهت اعلام‌شده، امکان حذف آیات، روایات، اشعار و همچنین متون داخل علامت نقل قول از سوی کاربر نیز در سامانه تعبیه شده است.

سامانه سمیم، علاوه بر این‌که قادر است نمونه‌های کپی‌برداری‌شدۀ لفظ به لفظ را تشخیص دهد، با بهره‌گیری از الگوهای هوش مصنوعی می‌تواند متونی را که با تغییرهای واژگانی و اندک متن سعی در تقلب دارند (Paraphrasing)، تشخیص دهد که البته این ویژگی روزبه‌روز رو به توسعه است و لایه‌های بیشتری از این تغییرات را خواهد توانست تشخیص دهد. با بهره‌گیری از پژوهش‌هایی که در زمینه پایگاه‌های دادگانی و ترجمه متون در دست انجام هستند، به امید خدا در ادامه، سامانه خواهد توانست دست‌بردهایی را تشخیص دهد که با ترجمه در زبانی یا حتی در آینده‌ای دورتر ترجمه‌های بین زبانی رخ می‌دهند. متأسفانه، یکی از مهم‌ترین انواع سوء رفتارهای پژوهشی، ترجمۀ مقالات خارجی و ارائۀ آن به عنوان یک اثر جدید و اصیل است.

شایان ذکر است که پایگاه سمیم به منظور حفظ قوانین مالکیت معنوی، تنها بخشی از مقالات پایگاه خود را نشان می‌دهد که با متن ارسالی کاربر مشابهت دارند و بقیه متن آن را به صورت نامشخص نمایش می‌دهد. این ویژگی، در راستای حمایت از حقوق مؤلف در سامانه تعبیه شده است و برای تکمیل فرایند، لینک دریافت مقاله به صورت کامل از نورمگز یا هر پایگاه دیگر، کنار آن مقاله قرار داده شده است که در صورتی که کاربر اجازه استفاده از آن پایگاه‌ها را داشته باشد، می‌تواند مقاله یا متن کامل اثر را در آن پایگاه مرجع مشاهده کند.

این پایگاه چه فواید و کاربردهایی برای جامعه علمی دارد؟

مهم‌ترین کاربردی که در حال حاضر برای این سامانه در نظر گرفته شده است، خدمت‌رسانی به مجلات است؛ به این ترتیب که مقالاتی که برای انتشار به دست مجلات می‌رسد، یک بار در این سامانه بازبینی می‌شود تا میزان مشابهت آن با مقالات پیشین مشخص شود. این مرحله، نقش قابل توجهی در کاهش میزان انتشار مقالات تکراری و مشکوک به دست‌برد علمی دارد. به این ترتیب، بخش قابل توجهی از مقالاتِ مشکوک در کمترین زمان ممکن از چرخۀ انتشار خارج می‌شوند. در حال حاضر، مجلات علمی هزینه چشم‌گیری را صرف ارزیابی مقالاتی می‌کنند که گاهی پس از ارزیابی معلوم می‌شود درصد بسیاری از آن مقاله تکراری و فاقد استناد است.

البته به کاربران انفرادی هم خدمت‌رسانی صورت می‌گیرد و هر یک از کاربران می‌تواند ابتدا به صورت رایگان، 15 صفحه و در صورت تمایل با افزایش اعتبار، به مشابهت‌یابی متون خود با سایر منابع موجود در سامانه بپردازند و برای اهداف شخصی خود، مانند: بررسی میزان مشابهت با سایر متون، بررسی متون ارسالی دانشجویان توسط اساتید و غیره، از خدمات این سامانه بهره‌مند شوند.

چه منابع اطلاعاتی، پشتوانه محتوایی و علمی سمیم را تشکیل می‌دهند؟

هم‌اکنون، تعداد قابل توجهی از متون مقالات نورمگز، منبع اصلی مشابهت‌یابی سامانه سمیم است. این متون، روز‌به‌روز در حال گسترش است و به تبع آن، پایگاه همواره در حال تکمیل‌تر شدن و به‌روزرسانی است. گذشته از مقالات نورمگز، کتابخانه دیجیتالی نور نیز متون قابل ملاحظه‌ای از کتب علوم اسلامی و انسانی را در اختیار سمیم قرار داده که با افزودن تدریجی متون این کتاب‌ها، قدرت مشابه‌یابی سمیم افزایش می‌یابد. علاوه بر این، متون دیگری در حوزۀ علوم انسانی و اسلامی در مرکز نور وجود دارد، مانند چکیده حدود بیست هزار پایان‌نامه‌های علوم انسانی که به‌تدریج به منابع اطلاعاتی سمیم افزوده می‌شوند.

افزون بر منابع داخلی سمیم، قصد داریم متون پایه‌ای رشته‌های مختلف علوم انسانی و اسلامی مشخص و به صورت فایل‌های متنی تهیه نماییم تا به صورت بسته‌های متنی جداگانه در اختیار سمیم قرار گیرد. این منابع، در علوم مختلف انسانی و بر اساس پُراستناد بودن آن‌ها، در دست شناسایی هستند.

از سوی دیگر، در حال رایزنی با سازمان‌های دولتی و خصوصی دیگرِ دارنده محتوا هستیم تا سمیم بتواند با حفظ مالکیت معنوی آن‌ها، سرویس مشابهت‌یابی را بر روی متون آن‌ها نیز انجام دهد. این سرویس، قابلیت اختصاصی‌سازی برای سازمان‌ها را نیز دارا است. متن مقالات نشریات مختلف، متن پایان‌نامه‌های دانشگاهی و پایان‌نامه‌های حوزوی و غیره، از این دسته هستند. تعامل نشریات و اشخاص برای سپردن متون‌شان به سامانه، قاعدتاً علاوه بر تکمیل شدن منابع سمیم، منافعی برای خود نشریات و اشخاص در پی دارد و در نهایت، سطح خدمت‌رسانی سمیم را در وضعیت بهتری به نفع کاربران قرار می‌دهد؛ به‌ویژه در مورد پوشش پایگاه‌هایی در زمینه‌های میان‌رشته‌ای با علوم انسانی، تعامل سازمان‌ها می‌تواند بسیار سازنده باشد.

در مورد پوشش منابع موجود بر روی وب هم تلاش‌هایی انجام داده‌ایم و در حال ارزیابی آن‌ها هستیم تا ان‌شاالله در آینده‌ای نزدیک، امکان خدمت‌رسانی در این زمینه را نیز فراهم سازیم.

درصد مشابهت‌یابی متون توسط این پایگاه چقدر قابل اطمینان است؟

با توجه به این‌که منابع اطلاعاتی سمیم در حال حاضر متمرکز بر علوم انسانی و اسلامی است، پیش‌بینی می‌شود بهینه‌ترین خدمات در حوزۀ علوم انسانی و اسلامی ارائه شود. اگرچه نورمگز به عنوان یکی از بزرگ‌ترین پایگاه‌های متنی علوم انسانی و اسلامی، گسترۀ قابل توجهی را پوشش می‌دهد، اما مطمئناً محتواهایی وجود دارد که یا در نورمگز نیست، یا با توجه به ورود اطلاعات تدریجی، در هنگام مشابهت‌یابی در پایگاه قرار ندارند. در نتیجه، در مورد درصدهای مشابه‌یابی، باید احتیاط کرد. در مورد درصدها بد نیست اشاره کنیم که درصدها به دو دسته تقسیم‌بندی می‌شوند؛ یک دسته، درصدهایی هستند که در مورد مشابهت متن ارسالی با هر مقاله، کتاب یا به طور کلی هر متن مرجعی ارائه می‌شوند. این درصد نشان می‌دهد که چند درصد از متنِ ارسالی با هر مقاله مشابهت دارد. یک دسته هم، درصد کلی مشابهت است. این درصد نشان می‌دهد که یک متن مجموعاً چند درصد با مقالات و متون موجود در پایگاه مشابهت دارد. البته باید دقت کرد، همان طور که در مورد تمامی نرم‌افزارهای مشابه‌یاب جهان مطرح می‌شود، بالا یا پایین بودن این درصدها لزوماً حکم به تقلب بودن یا اصالت یک مقاله نمی‌دهند و تنها اشاراتی برای داوری انسانی در مورد اصالت‌ یک اثر فراهم می‌سازند.

نقش پایگاه سمیم در پایش و گسترش پژوهش‌های علمی چیست؟

دو نقش عمده برای پایگاه‌های مشابهت‌یابی متون در چرخه‌های پژوهشی می‌توان متصور بود؛ نخست، نقش عملکردی آن است. به طور قطع، با عملکرد درست چنین سامانه‌هایی و بهره‌گیری پژوهشگران از آن در داوری مقالات نشریات، در نگارش مقالات و پایان‌نامه‌ها، انواع تقلب‌هایی که توسط این سامانه‌ها قابل تشخیص هستند، از چرخۀ پژوهش و انتشار علم به کلی حذف خواهند شد. دوم، نقش روانی آن است. تولیدکنندگان محتوا در محیطی که از بررسی شدن متون‌شان مطلع باشند، احتمالاً به‌طور طبیعی، کمتر دست به تقلب خواهند زد. مجموع این دو، باعث می‌شود که به امید خدا و مطابق با سند چشم‌انداز 1404 تولید علم سالم و کارآمد، رشد قابل ملاحظه‌ای داشته باشد.

آیا این سامانه، نمونه داخلی هم دارد؟

بله، تا جایی که ما اطلاع داریم، مشابه این نرم‌افزار در کشور در مراکز دیگری در دست توسعه است؛ اما با توجه به محدودیت‌های سخت‌افزاری و زیرساختی که برای پروژه‌های ملی و بزرگی به این اندازه در کشور وجود دارد، هنوز به مرحلۀ خدمت‌رسانی نرسیده‌اند. البته این مشکلات برای ما هم وجود دارد که بخشی از آن حل شده و امیدواریم بتوانیم با بهبود زیرساخت‌ها در مرکز نور و در اثر تعامل با ارگان‌ها و سازمان‌های دیگر، از بابت سخت‌افزار نگرانی نداشته باشیم. در پژوهشگاه علوم و فناوری ایران (ایران‌داک)، شهرک صنعتی اصفهان و جهاد دانشگاهی، فعالیت‌هایی انجام شده است که تا حدی با آن‌ها نیز در ارتباط بوده‌ایم.

با توجه به این‌که نسخه آزمایشی پایگاه راه‌اندازی شده، استقبال کاربران و محققان از پایگاه چقدر بوده است؟

در ابتدا این نکته گفتنی است که انتظار ما این است که بیش از کاربران انفرادی، نشریات علمی، دانشگاه‌ها و مؤسسات پژوهشی و آموزشی به استفاده از این سامانه علاقه نشان بدهند؛ اما در حال حاضر، روند رشد متقاضیان حقیقی و حقوقی نسبتاً متعادل با یکدیگر به پیش می‌رود. متقاضیان حقیقی ما هم بیشتر اساتید دانشگاه‌ها و پژوهشگران تحصیلات تکمیلی و تحصیلات عالی حوزه هستند. خوشبختانه، کاربران تعامل خوبی در برطرف نمودن کاستی‌ها با ما داشته‌اند و بیش از پیش، به همکاری و همراهی آن‌ها در ارائۀ خدمات هرچه بهتر امیدواریم.

طرح و برنامه شما برای آینده سامانه سمیم چیست؟

در زمینۀ تکمیل پایگاه‌، امیدواریم بتوانیم علاوه بر علوم انسانی و اسلامی، با تعامل سازمان‌ها، اشخاص و کاربران، تمامی گرایش‌های فرعی علوم انسانی را نیز پشتیبانی کنیم و از این طریق، «تحولی فناورانه در علوم انسانی» کشورمان ایجاد کنیم؛ تحولی در تولید علم که شاید در موقعیت عادی و بدون بهره‌برداری از ابزارهای جدید، به کندی رخ دهد. در زمینۀ فنی، پیاده‌سازی الگوهای دقیق و متفاوت مشابهت‌یابی و تشخیص انواع مختلف دست‌بردهای علمی و سوء رفتارهای پژوهشی در پایگاه‌های اطلاعاتی و وب هم، از جمله برنامه‌های پیش روی ما است.

همان‌طور که پیش‌تر عرض کردم، سامانه‌ای مثل سمیم می‌تواند علاوه بر کمک‌رسانی در حوزۀ پژوهش، در زمینه‌های آموزشی نیز یاری‌رسان خوبی باشد. امیدواریم بتوانیم بعد از پوشش دادن نیازمندی‌های حوزۀ پژوهش، به عنوان ابزاری برای نویسندگان تازه‌کار، خدمت‌رسانی کنیم و با تمرکز بر روی فرایند آموزش، به تسریع و سلامت این فرایند کمک کنیم.

اگر صحبتی باقیمانده بیان بفرمایید.

فکر می‌کنم در پایان صحبت‌ها، نخست باید از زحمات بی‌وقفۀ همکاران پروژه و حمایت‌های مدیران مرکز تحقیقات کامپیوتری علوم اسلامی تشکر کنم و بار دیگر تأکید نمایم که این سامانه در ابتدای راه قرار دارد؛ قطعاً با چالش‌های بسیاری روبه‌رو خواهد شد و با تمام دشواری‌های موجود، اهداف ایده‌آلی را برای خود ترسیم کرده که برای رسیدن به آن‌ها، همکاری مؤسسات، سازمان‌ها، ارگان‌ها، اشخاص و کاربران، بسیار تعیین‌کننده خواهد بود. در همین جا، از تمامی کسانی که دغدغۀ پیش‌رفت واقعی کشور و آرزوی سلامت تولید علم را دارند، دعوت می‌کنم با این پروژه همراه شوند.

در انتها، باید یادآور شوم که مشابهت‌یابی ماشینی، تنها اشاراتی برای میزان مشابهت متون فراهم می‌سازد و جز در موارد بسیار آشکار که کپی‌برداری کامل رخ داده، در نهایت، همواره این قضاوت متخصصان موضوعی است که نشان می‌دهد در متن مشکوک تقلب رخ داده است یا خیر. به علاوه، با توجه به این‌که سازوکار قابل ذکری در زمینۀ پی‌گیری موارد دست‌برد علمی وجود ندارد، پیشنهاد می‌کنیم در هنگام مواجهه با موارد مشکوک، در مورد افشای نام‌ها و اقدام‌های دیگر، جوانب احتیاط در نظر گرفته شود.

♦ از این که در این گفت‌وگو شرکت کردید، بسیار سپاسگزاریم.

بنده هم از شما و دست‌اندرکاران‌تان در فصلنامه ره‌آوردنور تشکر مي‌کنم.

اطلاعات تکميلي

  • تاریخ انتشار نسخه چاپی: چهارشنبه, 26 شهریور 1393
  • صفحه در فصلنامه: صفحه 44
  • شماره فصلنامه: فصلنامه شماره 47
بازدید 16700 بار
شما اينجا هستيد:خانه آرشیو فصلنامه فصلنامه شماره 47 (تابستان 1393) سمیم نور، نقش مهمی در تولید علم کارآمد دارد