♦ هدف مرکز تحقیقات کامپیوتری علوم اسلامی از راهاندازی پایگاه «سمیم نور» چیست؟
◊ مرکز تحقیقات کامپیوتری علوم اسلامی (نور)، امروزه به عنوان یکی از بانیان اصلی تولید و ترویج علوم انسانی و اسلامی در کشور شناخته شده است و سهمی انکار ناشدنی در روزآمدی خیلی از شاخههای علوم انسانی در ایران دارد. از این رو، نخستین هدف ما از تأسیس پایگاه اینترنتی سمیم نور یا سامانه مشابهتیاب متون نور، عبارت است از ایجاد تحول در تولید علم و رساندن نرخ تولید علوم انسانی در ایران به نرخ واقعی آن؛ این، یعنی کاستن از فربهی پوشالی تولید علم که متأسفانه در برخی عرصهها دامنگیر کشورمان شده است. از طرفی، با توسعه اینترنت و شبکههای مختلف اطلاعرسانی، سوء استفاده از این فناوریهای دیجیتالی هم به عرصۀ تولید علم کشیده شده است و برخی انواع سوء رفتارهای پژوهشی را دامن زده است. این سوء استفادههای فناورانه در حوزۀ پژوهش و تولید علم از یک سو، و از سوی دیگر، کمرنگ شدن اخلاق پژوهش و نگارش علمی باعث شده است که جهان امروز، با پدیدۀ ناخوشایند و گستردۀ تقلبهای پژوهشی و دستبرد علمی روبهرو شود. بیشتر کشورهای پیشرفته از ابزارهای فناورانه برای پیشگیری و کشف این سوء استفادههای احتمالی بهره میگیرند. در کشور ما و بهویژه با افزایش حساسیتها در سالهای اخیر، استفاده از یک ابزار فناورانه برای پیشگیری از دستبرد علمی و احتمالاً کشف آنها، ضروری به نظر میرسید که البته نیازمند تلاشی زیاد در به کارگیری فناوریهای پردازشی در حوزۀ خط و زبان فارسی بود. با توجه به اینکه مرکز تحقیقات کامپیوتری علوم اسلامی از سازمانهایی است که میتواند گامهایی برای ساخت ابزارهای فناورانه در حوزه خط و زبان فارسی و عربی و نرمافزارهایی برای کمک به جامعۀ علمی بردارد، برنامهریزی برای ارائۀ این سامانه از سالهای گذشته انجام شد و هماکنون مرکز موفق به رونمایی از سامانۀ خدماتی «سمیم» شده است و این سامانه، به جمع دیگر ابزارهای پژوهشی نور مانند نرمافزار استناددهی «پژوهیار» و «فیش نگار» پیوسته است. سامانه سمیم نور، علاوه بر اهداف پژوهشی، میتواند اهداف آموزشی نیز داشته باشد و در گامهای بعدی، برای آموزش به مقالهنویسان تازهکار قابل دسترسی باشد.
♦ برخی از ویژگیها و قابلیتهای سامانه سمیم را برشمارید.
◊ این سامانه با پشتوانۀ تجربۀ 25سالۀ مرکز تحقیقات کامپیوتری علوم اسلامی و با نگرش به نیازهای کشور طراحی شده است. با توجه به اینکه سامانههای مشابهیاب باید منابع قابل توجهی به عنوان منابع مرجع داشته باشند تا فرایند مشابهیابی را بر اساس آن منابع انجام دهند، مهمترین ویژگی سامانه سمیم را میتوان بهرهگیری از منابع متنی و مقالات پایگاه تخصصی مقالات نورمگز و دیگر منابع متنی نور دانست. بنابراین، این سامانه برای حوزههای علوم انسانی و اسلامی میتواند بسیار مؤثر و کارآمد باشد.
سامانه سمیم، متون ارسالی کاربران را با منابع متنی نورمگز، کتابخانه دیجیتالی نور و دیگر منابع متنی موجود در مرکز تحقیقات کامپیوتری علوم اسلامی (نور) مقایسه میکند و خروجی را در دو ستون تفکیکی ارائه میکند که در یک ستون متن ارسالی کاربران و در یک ستون، فهرست مقالات مشابه قرار دارد که متصل به پایگاه ارائهدهنده تماممتن است. این سامانه، با رنگی کردنِ قسمتهای مشابه، امکان مقایسۀ متن ارسالی و هر یک از مقالات بازیابیشده را فراهم میسازد. به علاوه، با نمایش درصد مشابهت متن با مقالات، اطلاعات قابل توجهی در مورد میزان مشابهت یک متن با سایر متون موجود ارائه میدهد. افزون بر این، برای دستیابی به دقت بیشتر در مشابهیابی و کاستن از برخی انحرافها در درصد مشابهت اعلامشده، امکان حذف آیات، روایات، اشعار و همچنین متون داخل علامت نقل قول از سوی کاربر نیز در سامانه تعبیه شده است.
سامانه سمیم، علاوه بر اینکه قادر است نمونههای کپیبرداریشدۀ لفظ به لفظ را تشخیص دهد، با بهرهگیری از الگوهای هوش مصنوعی میتواند متونی را که با تغییرهای واژگانی و اندک متن سعی در تقلب دارند (Paraphrasing)، تشخیص دهد که البته این ویژگی روزبهروز رو به توسعه است و لایههای بیشتری از این تغییرات را خواهد توانست تشخیص دهد. با بهرهگیری از پژوهشهایی که در زمینه پایگاههای دادگانی و ترجمه متون در دست انجام هستند، به امید خدا در ادامه، سامانه خواهد توانست دستبردهایی را تشخیص دهد که با ترجمه در زبانی یا حتی در آیندهای دورتر ترجمههای بین زبانی رخ میدهند. متأسفانه، یکی از مهمترین انواع سوء رفتارهای پژوهشی، ترجمۀ مقالات خارجی و ارائۀ آن به عنوان یک اثر جدید و اصیل است.
شایان ذکر است که پایگاه سمیم به منظور حفظ قوانین مالکیت معنوی، تنها بخشی از مقالات پایگاه خود را نشان میدهد که با متن ارسالی کاربر مشابهت دارند و بقیه متن آن را به صورت نامشخص نمایش میدهد. این ویژگی، در راستای حمایت از حقوق مؤلف در سامانه تعبیه شده است و برای تکمیل فرایند، لینک دریافت مقاله به صورت کامل از نورمگز یا هر پایگاه دیگر، کنار آن مقاله قرار داده شده است که در صورتی که کاربر اجازه استفاده از آن پایگاهها را داشته باشد، میتواند مقاله یا متن کامل اثر را در آن پایگاه مرجع مشاهده کند.
♦ این پایگاه چه فواید و کاربردهایی برای جامعه علمی دارد؟
◊ مهمترین کاربردی که در حال حاضر برای این سامانه در نظر گرفته شده است، خدمترسانی به مجلات است؛ به این ترتیب که مقالاتی که برای انتشار به دست مجلات میرسد، یک بار در این سامانه بازبینی میشود تا میزان مشابهت آن با مقالات پیشین مشخص شود. این مرحله، نقش قابل توجهی در کاهش میزان انتشار مقالات تکراری و مشکوک به دستبرد علمی دارد. به این ترتیب، بخش قابل توجهی از مقالاتِ مشکوک در کمترین زمان ممکن از چرخۀ انتشار خارج میشوند. در حال حاضر، مجلات علمی هزینه چشمگیری را صرف ارزیابی مقالاتی میکنند که گاهی پس از ارزیابی معلوم میشود درصد بسیاری از آن مقاله تکراری و فاقد استناد است.
البته به کاربران انفرادی هم خدمترسانی صورت میگیرد و هر یک از کاربران میتواند ابتدا به صورت رایگان، 15 صفحه و در صورت تمایل با افزایش اعتبار، به مشابهتیابی متون خود با سایر منابع موجود در سامانه بپردازند و برای اهداف شخصی خود، مانند: بررسی میزان مشابهت با سایر متون، بررسی متون ارسالی دانشجویان توسط اساتید و غیره، از خدمات این سامانه بهرهمند شوند.
♦ چه منابع اطلاعاتی، پشتوانه محتوایی و علمی سمیم را تشکیل میدهند؟
◊ هماکنون، تعداد قابل توجهی از متون مقالات نورمگز، منبع اصلی مشابهتیابی سامانه سمیم است. این متون، روزبهروز در حال گسترش است و به تبع آن، پایگاه همواره در حال تکمیلتر شدن و بهروزرسانی است. گذشته از مقالات نورمگز، کتابخانه دیجیتالی نور نیز متون قابل ملاحظهای از کتب علوم اسلامی و انسانی را در اختیار سمیم قرار داده که با افزودن تدریجی متون این کتابها، قدرت مشابهیابی سمیم افزایش مییابد. علاوه بر این، متون دیگری در حوزۀ علوم انسانی و اسلامی در مرکز نور وجود دارد، مانند چکیده حدود بیست هزار پایاننامههای علوم انسانی که بهتدریج به منابع اطلاعاتی سمیم افزوده میشوند.
افزون بر منابع داخلی سمیم، قصد داریم متون پایهای رشتههای مختلف علوم انسانی و اسلامی مشخص و به صورت فایلهای متنی تهیه نماییم تا به صورت بستههای متنی جداگانه در اختیار سمیم قرار گیرد. این منابع، در علوم مختلف انسانی و بر اساس پُراستناد بودن آنها، در دست شناسایی هستند.
از سوی دیگر، در حال رایزنی با سازمانهای دولتی و خصوصی دیگرِ دارنده محتوا هستیم تا سمیم بتواند با حفظ مالکیت معنوی آنها، سرویس مشابهتیابی را بر روی متون آنها نیز انجام دهد. این سرویس، قابلیت اختصاصیسازی برای سازمانها را نیز دارا است. متن مقالات نشریات مختلف، متن پایاننامههای دانشگاهی و پایاننامههای حوزوی و غیره، از این دسته هستند. تعامل نشریات و اشخاص برای سپردن متونشان به سامانه، قاعدتاً علاوه بر تکمیل شدن منابع سمیم، منافعی برای خود نشریات و اشخاص در پی دارد و در نهایت، سطح خدمترسانی سمیم را در وضعیت بهتری به نفع کاربران قرار میدهد؛ بهویژه در مورد پوشش پایگاههایی در زمینههای میانرشتهای با علوم انسانی، تعامل سازمانها میتواند بسیار سازنده باشد.
در مورد پوشش منابع موجود بر روی وب هم تلاشهایی انجام دادهایم و در حال ارزیابی آنها هستیم تا انشاالله در آیندهای نزدیک، امکان خدمترسانی در این زمینه را نیز فراهم سازیم.
♦ درصد مشابهتیابی متون توسط این پایگاه چقدر قابل اطمینان است؟
◊ با توجه به اینکه منابع اطلاعاتی سمیم در حال حاضر متمرکز بر علوم انسانی و اسلامی است، پیشبینی میشود بهینهترین خدمات در حوزۀ علوم انسانی و اسلامی ارائه شود. اگرچه نورمگز به عنوان یکی از بزرگترین پایگاههای متنی علوم انسانی و اسلامی، گسترۀ قابل توجهی را پوشش میدهد، اما مطمئناً محتواهایی وجود دارد که یا در نورمگز نیست، یا با توجه به ورود اطلاعات تدریجی، در هنگام مشابهتیابی در پایگاه قرار ندارند. در نتیجه، در مورد درصدهای مشابهیابی، باید احتیاط کرد. در مورد درصدها بد نیست اشاره کنیم که درصدها به دو دسته تقسیمبندی میشوند؛ یک دسته، درصدهایی هستند که در مورد مشابهت متن ارسالی با هر مقاله، کتاب یا به طور کلی هر متن مرجعی ارائه میشوند. این درصد نشان میدهد که چند درصد از متنِ ارسالی با هر مقاله مشابهت دارد. یک دسته هم، درصد کلی مشابهت است. این درصد نشان میدهد که یک متن مجموعاً چند درصد با مقالات و متون موجود در پایگاه مشابهت دارد. البته باید دقت کرد، همان طور که در مورد تمامی نرمافزارهای مشابهیاب جهان مطرح میشود، بالا یا پایین بودن این درصدها لزوماً حکم به تقلب بودن یا اصالت یک مقاله نمیدهند و تنها اشاراتی برای داوری انسانی در مورد اصالت یک اثر فراهم میسازند.
♦ نقش پایگاه سمیم در پایش و گسترش پژوهشهای علمی چیست؟
◊ دو نقش عمده برای پایگاههای مشابهتیابی متون در چرخههای پژوهشی میتوان متصور بود؛ نخست، نقش عملکردی آن است. به طور قطع، با عملکرد درست چنین سامانههایی و بهرهگیری پژوهشگران از آن در داوری مقالات نشریات، در نگارش مقالات و پایاننامهها، انواع تقلبهایی که توسط این سامانهها قابل تشخیص هستند، از چرخۀ پژوهش و انتشار علم به کلی حذف خواهند شد. دوم، نقش روانی آن است. تولیدکنندگان محتوا در محیطی که از بررسی شدن متونشان مطلع باشند، احتمالاً بهطور طبیعی، کمتر دست به تقلب خواهند زد. مجموع این دو، باعث میشود که به امید خدا و مطابق با سند چشمانداز 1404 تولید علم سالم و کارآمد، رشد قابل ملاحظهای داشته باشد.
♦ آیا این سامانه، نمونه داخلی هم دارد؟
◊ بله، تا جایی که ما اطلاع داریم، مشابه این نرمافزار در کشور در مراکز دیگری در دست توسعه است؛ اما با توجه به محدودیتهای سختافزاری و زیرساختی که برای پروژههای ملی و بزرگی به این اندازه در کشور وجود دارد، هنوز به مرحلۀ خدمترسانی نرسیدهاند. البته این مشکلات برای ما هم وجود دارد که بخشی از آن حل شده و امیدواریم بتوانیم با بهبود زیرساختها در مرکز نور و در اثر تعامل با ارگانها و سازمانهای دیگر، از بابت سختافزار نگرانی نداشته باشیم. در پژوهشگاه علوم و فناوری ایران (ایرانداک)، شهرک صنعتی اصفهان و جهاد دانشگاهی، فعالیتهایی انجام شده است که تا حدی با آنها نیز در ارتباط بودهایم.
♦ با توجه به اینکه نسخه آزمایشی پایگاه راهاندازی شده، استقبال کاربران و محققان از پایگاه چقدر بوده است؟
◊ در ابتدا این نکته گفتنی است که انتظار ما این است که بیش از کاربران انفرادی، نشریات علمی، دانشگاهها و مؤسسات پژوهشی و آموزشی به استفاده از این سامانه علاقه نشان بدهند؛ اما در حال حاضر، روند رشد متقاضیان حقیقی و حقوقی نسبتاً متعادل با یکدیگر به پیش میرود. متقاضیان حقیقی ما هم بیشتر اساتید دانشگاهها و پژوهشگران تحصیلات تکمیلی و تحصیلات عالی حوزه هستند. خوشبختانه، کاربران تعامل خوبی در برطرف نمودن کاستیها با ما داشتهاند و بیش از پیش، به همکاری و همراهی آنها در ارائۀ خدمات هرچه بهتر امیدواریم.
♦ طرح و برنامه شما برای آینده سامانه سمیم چیست؟
◊ در زمینۀ تکمیل پایگاه، امیدواریم بتوانیم علاوه بر علوم انسانی و اسلامی، با تعامل سازمانها، اشخاص و کاربران، تمامی گرایشهای فرعی علوم انسانی را نیز پشتیبانی کنیم و از این طریق، «تحولی فناورانه در علوم انسانی» کشورمان ایجاد کنیم؛ تحولی در تولید علم که شاید در موقعیت عادی و بدون بهرهبرداری از ابزارهای جدید، به کندی رخ دهد. در زمینۀ فنی، پیادهسازی الگوهای دقیق و متفاوت مشابهتیابی و تشخیص انواع مختلف دستبردهای علمی و سوء رفتارهای پژوهشی در پایگاههای اطلاعاتی و وب هم، از جمله برنامههای پیش روی ما است.
همانطور که پیشتر عرض کردم، سامانهای مثل سمیم میتواند علاوه بر کمکرسانی در حوزۀ پژوهش، در زمینههای آموزشی نیز یاریرسان خوبی باشد. امیدواریم بتوانیم بعد از پوشش دادن نیازمندیهای حوزۀ پژوهش، به عنوان ابزاری برای نویسندگان تازهکار، خدمترسانی کنیم و با تمرکز بر روی فرایند آموزش، به تسریع و سلامت این فرایند کمک کنیم.
♦ اگر صحبتی باقیمانده بیان بفرمایید.
◊ فکر میکنم در پایان صحبتها، نخست باید از زحمات بیوقفۀ همکاران پروژه و حمایتهای مدیران مرکز تحقیقات کامپیوتری علوم اسلامی تشکر کنم و بار دیگر تأکید نمایم که این سامانه در ابتدای راه قرار دارد؛ قطعاً با چالشهای بسیاری روبهرو خواهد شد و با تمام دشواریهای موجود، اهداف ایدهآلی را برای خود ترسیم کرده که برای رسیدن به آنها، همکاری مؤسسات، سازمانها، ارگانها، اشخاص و کاربران، بسیار تعیینکننده خواهد بود. در همین جا، از تمامی کسانی که دغدغۀ پیشرفت واقعی کشور و آرزوی سلامت تولید علم را دارند، دعوت میکنم با این پروژه همراه شوند.
در انتها، باید یادآور شوم که مشابهتیابی ماشینی، تنها اشاراتی برای میزان مشابهت متون فراهم میسازد و جز در موارد بسیار آشکار که کپیبرداری کامل رخ داده، در نهایت، همواره این قضاوت متخصصان موضوعی است که نشان میدهد در متن مشکوک تقلب رخ داده است یا خیر. به علاوه، با توجه به اینکه سازوکار قابل ذکری در زمینۀ پیگیری موارد دستبرد علمی وجود ندارد، پیشنهاد میکنیم در هنگام مواجهه با موارد مشکوک، در مورد افشای نامها و اقدامهای دیگر، جوانب احتیاط در نظر گرفته شود.
♦ از این که در این گفتوگو شرکت کردید، بسیار سپاسگزاریم.
◊ بنده هم از شما و دستاندرکارانتان در فصلنامه رهآوردنور تشکر ميکنم.