کلیدواژگان: اسناد تألیف، تشخیص سبک، یادگیری ماشینی، دستبرد فکری، مشابهتیابی.
مقدمه
دستبرد فکری (plagiarism)، عبارت است از قلمداد کردن ایدهها، جملات یا اثر شخص دیگر، به مثابه ایده، جمله یا اثر خود. این کار، شکلی از فریبکاری و خیانت در امانت علمی است. (Ballard, 2010, p. 1) باز استفاده از متن، عبارت از استفاده عمدی یا غیر عمدی از متن موجود برای ایجاد یک متن جدید است که اگر در این باز استفاده، مستندسازی بهدرستی صورت نگیرد، دستبرد فکری رخ خواهد داد. مؤسسات آموزشی و صنعتی، اغلب با دستبرد فکری و نقض حق نشر مواجهاند. چنانکه گفته شد، دستبرد فکری، عرضه و نمایش ایدهها یا اثر یک شخص از سوی شخص دیگر به مثابه اثر و ایده خود است. این عرضه، ممکن است در شکل یک متن صریح، آن گونه که در مقالات و گزارشها دیده میشود باشد، یا در یک متن ساختار یافته، مانند معادلات و برنامهنویسی رایانهای رخ دهد.
حق نشر، حق چاپ انحصاری برای ناشران برای محافظت ایدهها و اطلاعات به دست میدهد. مؤلفان ممکن است استفاده رایگان از آثار تحت حق نشر خود را مجاز کنند؛ اما باز تولید نامجاز دیگران، به مثابه نقض حق نشر به شمار میرود و هرگز نمیتوان آن را مجاز شمرد. (Burrows & Tahaghoghi, 2007)
شکلهای دستبرد فکری
هر شکل از دستبرد فکری، به گونه صریح ادعای اصیل بودن دارد؛ اما در واقع، بر پایه واژگان یا ایدههایی از دیگران شکل گرفته است. شکلهای گوناگون سرقت علمی را میتوان در دو دسته کلی جای داد:
الف- دستبرد فکری به شکل رونوشت مستقیم
رونوشت واژه به واژه از اثر شخصی دیگر بدون استناد، شکل واضح سرقت فکری است. حد نهایی سرقت فکری، رونوشت عین یک مقاله به شکل کامل است.
ب- دستبرد فکری به عنوان رونوشت قسمتی از یک اثر
سرقت فکری، تنها شامل رونوشت عین یک اثر نیست؛ بلکه شامل شکلهای ذیل نیز میشود:
- دستبرد فکری تفسیری/ تعبیری (Paraphrase plagiarism): یک اثر ممکن است تفسیر شود؛ یعنی انگاره و معنایی که در اثری وجود دارد، با تغییر اندک واژگان آن اخذ شود. در این نوع دستبرد، اگرچه واژگان متن برگرفتهشده از متن اصلی متفاوتاند، اما دیدگاه و مفهومی که در متن اصلی است و بدون استناد در متن دیگر آورده شده، مصداق دستبرد فکری است.
- سرقت فکری موزاییکی (Mosaic plagiarism): چینش و به اصطلاح، موزاییککاری متون و تفاسیر برگرفته از آثار گوناگون بدون استناد به منبع اصلی، شکل دیگری از دستبرد فکری است.
- دستبرد فکری به منبع (Source plagiarism): ذکر منابع آوردهشده در اثر نویسندهای دیگر به منزله منابع خود، بدون اینکه استنادی به منبع دست دوم شود، مصداقی از دستبرد فکری است. در این شکل از دستبرد، نویسنده به منابعی استناد کرده که هرگز آنها را نخوانده است. گاه نیز ممکن است، نویسنده فهرستی از ارجاعات ساختگی به منابعی ایجاد کند که آنها را نخوانده یا به آنها استناد نکرده است.
- دستبرد فکری به منزله استناد ناکامل (Incomplete-citation plagiarism): هنگامی که یک منبع، تنها به بخشی از مواد ذکرشده از منبع دیگر استناد کند، دستبرد فکری رخ داده است. وقتی نویسنده یک پاراگراف از منبعی میآورد و فقط یک جمله یا عبارت به عنوان نقل قول مستند میکند، در حالی که کل پاراگراف باید استناد داده شود، نویسنده به دستبرد فکری مبادرت ورزیده است.
- دستبرد فکری عبارت (Phrase Plagiarism): گاه عبارتهایی بدون استناد به منبع در متن آورده میشود. پر بسامدترین این گونه از دستبرد، در آثار تفسیری رخ میدهد. ( Claremont Graduate University, 2014)
- دستبرد به ایده ها (Idea Plagiarism): هر گاه اندیشه ها، صرف نظر از شکل و ساختار آن، بدون استناد دادن رونویسی شوند، دستبرد فکری رخ داده است.
تشخیص دستبرد فکری
از راههای گوناگون میتوان فهمید، یک اثر از منابع دیگر دستبرد فکری کرده است یا نه؛ برای نمونه، با مشاهده ویژگیهای ذیل در متن میتوان گفت که یک اثر به دستبرد فکری دچار شده است:
- • استفاده از لغتها بدون داشتن مهارت نویسندگی (مانند استفاده نکردن از اصطلاحهای فنی و پیشرفته)؛
- • تغییرات فراوان در کیفیت نوشتار یک نویسنده در مقایسه با نوشته عرضهشده پیشین؛
- • سبک یا واژگان ناهماهنگ با یک متن؛
- • متن مشوش که فاقد انتقال معنا و روان بودن است، نشان دهنده اثری رونویسی شده است؛
- • شباهت معنادار میان چند مقاله عرضه و ارسالشده؛
- • خطاهای مشابه میان چند مقاله عرضه و ارسالشده، مانند خطاهای املایی یا دستوری؛
- • ارجاعاتی که در متن مشاهده میشود؛ اما در کتابنامه وجود ندارد؛
- • فقدان انسجام سبک کتابشناختی درون پیکره یا بخش ارجاعات متن.
اما بررسی و واکاوی آثار برای پیبردن به دستبرد فکری توسط ناظر انسانی، بسیار زمانبر بوده و برای مجموعههای بزرگ از آثار، غیر عملی است. ابزارهای تشخیص سرقت فکری، مانند ترنتین (1)، برای متون ساده، اغلب برای تشخیص آثار ناقض و متخلف به کار میرود؛ هرچند رویکردها برای تشخیص سرقت فکردی در متن ساده، برای تشخیص سرقت فکری در متون ساختاریافته مناسب نیستند؛ زیرا آنها از جنبههای مهم اسناد متون ساختاریافته، مانند ساختار برنامهنویسی در منبع کد، چشمپوشی میکنند. (Burrows & Tahaghoghi, 2007, p. 1)
یک اثر یا بهتنهایی ملاحظه میشود، یا در قیاس با آثار دیگر. در هر یک از این حالات، تشخیص دستبرد فکری شیوههایی گوناگون میطلبد که در ذیل به آن میپردازیم:
الف ـ تشخیص دستبرد فکری در یک متن تنها، و بدون مقایسه آن با متون دیگر، به دو گونه است:
- شناسایی تناقضات درون متن: در نگاه نخست و صرف نظر از هر امر دیگر، با مشاهده تناقضها، ناهمسانی و ناسازگاری عناصر یک اثر، میتوان آن اثر را متهم به دستبرد فکری کرد؛ به عبارت دیگر، تناقضهای موجود در متن، از نشانههایی است که میتواند احتمال وجود دستبرد فکری در اثر را مطرح کند.
- یافتن منابعی برای این تناقضات: با مشاهده یک اثر یا بخشهایی از آن، و وجود مشابهتهایی میان آن و اثر دیگری که پیشتر دیده شده و نیز مشاهده تناقضها و عدم انسجام متن، میتوان احتمال وقوع دستبرد فکری را داد. یافتن بخشهایی از آثار در یک متن، این احتمال را که منشأ تناقضها، دستبرد فکری است، قوت میبخشد.
ب ـ تشخیص دستبرد فکری از میان چندین متن نیز بر دو گونه ممکن است:
- شناسایی هم دستی های غیر قابل قبول: گاه نویسنده به شکل غیر مجاز اثری را با همکاری شخص دیگر تولید میکند. گاهی نیز شخصی نوشتن اثری را به شخص دیگری میسپارد. این کار بیشتر در پایاننامههای دانشگاهی رخ میدهد که در آن دانشجویان کارشناسی ارشد یا دکتری، نوشتن پایاننامه یا رساله خود را به دیگران سفارش میدهند، یا تهیه بخش اعظمی از آن را به دیگران میسپارند. این امر با مقایسه آثار مقالات و نوشتههای دیگری که از دانشجو وجود دارد، یا مقایسه تواناییها و کارنامه علمی او، قابل تشخیص خواهد بود.
- شناسایی رونویسی مستقیم: شناخت رونویسی مستقیم، از طریق یافتن منبع اصلی قابل تشخیص است.(Markus Dickinson,2007,pp 4-3)
شیوه های تشخیص خودکار دستبرد فکری
اِسناد تألیف (Authorship attribution) یا شناسایی تألیف (Authorship identification)، فرایند تعیین این امر است که چه کسی از میان نویسندگان محتمل، یک متن را نوشته است؛ به عبارت دیگر، کار پیشبینی شبیهترین مؤلف متن خاص، با عرضه مجموعهای از پیشمعرفیشده از مؤلفان و شماری از نمونه متون هر مؤلف را «شناسایی مؤلف» گویند. اِسناد تألیف، در واقع، عمل طبقهبندی متن است. از نظر یادگیری ماشینی، شناسایی مؤلف، مبحث دستهبندی متنِ یکسطحیِ چندطبقهای است. طبقهبندی متن، عبارت از این امر است که اسناد و مجموعه هایی از دسته های مرتبط را برگیریم و اسنادی را که متعلق به یک دسته است، تعیین کنیم. از دیگر کاربردهای مرتبط با طبقهبندی، عبارت است از تشخیص زبان، موضوع و مؤلف یک متن.
از جمله شیوه هایی که برای تشخیص نویسنده میتوان استفاده کرد، سبکسنجی است. سبکسنجی، ویژگیهایی از سبک یک نویسنده را تعریف میکند و این ویژگیها را در دو یا چند متن اندازه میگیرد تا مشابهت میان این دو متن را تعیین نماید. بر این اساس، میتوان گفت شبیهترین سبک، یعنی دو متن که بیشترین شبهات را از دید سبک به هم دارند، توسط یک مؤلف نوشته شدهاند. این ایده که سبک در یک سطح ناخودآگاه عمل میکند، آن را بهتر قابل اندازهگیری میسازد. در واقع، میتوان گفت که سبک نوشتار، به منزله یک اثر انگشت است.
رهیافتهایی که برای سنجش و ارزیابی سبک به کار می روند، عبارت اند از:
- ـ استخراج نشانگرهای متن، مانند ویژگیهای: لغوی، نویسههای متن، نحوی، معنایی و ساختاری(طول پاراگراف، استفاده از فرورفتگی متن و...).
- ـ استفاده از نشانگرها برای طبقه بندی متن: از ویژگیهای نوشتاری هر نویسنده میتوان ابزاری برای دستهبندی متون بر حسب نویسنده استفاده کرد. این کار، دستمایهای برای تشخیص نویسنده و در نتیجه، شناخت دستبرد فکری خواهد بود.
نشانگرهای متن ممکن است مبتنی بر واژگان، دستور زبان یا ترکیبی از این دو باشد.
نشانگرهای متن مبتنی بر لغات، واژگانی هستند که کلیدهایی درباره مؤلفان به دست میدهد.
دو گونه از نشانگرها موجودند:
- غنای لغات (vocabulary richness)؛
- بسامد واژگان دستوری (function words).
اما واژگان دستوری، مانند «به» و «آن»، مستقلاً معنای اندکی دارند و اغلب در متن معنادار میشوند. لغات دستوری، مستقل از موضوعاند و هر جا که آنها به کار برده شود، برای شناسایی سبک یک مؤلف کافی به نظر میرسد.
اهمیت تشخیص نویسنده، در روزگار کنونی قابل توجهتر شده است. شمار پژوهشگرانی که با این مسأله چالشانگیز درگیرند و نیز کاربردها و حوزههای گوناگون آن، بسیار است. کارشناسان زبانهای گوناگون در سراسر جهان به این کار مشغولاند. هر زبان بر پایه خصوصیاتی که دارد، واجد فرصت گوناگون برای موضوع تشخیص نویسنده است. به همین سبب، بسیار روشن است که مسأله تشخیص نویسنده، بر حسب زبانهای گوناگون نیز متفاوت خواهد بود.
انواع تحلیل مؤلف
مسأله تحلیل مؤلف را میتوان چنین دستهبندی کرد:
- اِسناد تألیف: در اینجا شباهت تکهای از نوشته تولیدشده به وسیله نویسندهای خاص با آزمایش کردن دیگر نوشتههایی که آن مؤلف نوشته است، تعیین میشود؛
- تعیین خصوصیت نویسنده: در این بخش، خصوصیت یک نویسنده تلخیص میشود و نمایه مؤلف بر پایه نوشتههایش، مانند جنس، تحصیلات، زمینه فرهنگی، و سبک نوشتار او، ایجاد میگردد؛
- تشخیص شباهت: در اینجا بخشهای گوناگون نوشتهها مقایسه و اینکه آیا این نوشتهها را یک نویسنده بدون تعیین واقعی مؤلف، مانند تعیین دستبرد فکری، نوشته است یا نه، تعیین میشود.
برای استخراج سبک نوشتاری واحد از تعدادی از پیامهای برخط، لازم است ویژگیهای گوناگونی ملاحظه شود؛ ویژگیهایی مانند: لغوی، رها از محتوا، نحوی، ساختاری و محتوای خاص باشند.
اگرچه بحث اسناد تألیف در طول تاریخ بسیار مطالعه و بررسی شده است، اما در دهههای اخیر، اسناد تألیف، حوزهای است که در آن پژوهشهای عمیقتر و گستردهتری در حال انجام است؛ به گونهای که نقطه تلاقی حوزههای گوناگون پژوهش، مانند یادگیری ماشینی، بازیابی اطلاعات و پردازش زبان طبیعی است. در نگاه نخست، این مبحث، به مثابه مسأله اصلی تعیین نویسنده متون گمنام مطرح شد؛ اما اکنون در حوزههایی چون تحلیلهای قضایی و تجارت الکترونیک نیز گسترش یافته است.
هنگامی که مؤلف اثری مینویسد، به شکل ناخودآگاه از واژگان خاص بهره میبرد و باید قادر به یافتن الگوهای موجود در این نوشتهها برای تعیین سبک یک مؤلف باشیم. این، فرض اساسی اسناد تألیف است که هر مؤلف، عادت به استفاده از واژگان مشخصی دارد که نوشته او را یگانه میسازد. استخراج ویژگیهایی از متن که نویسنده را از دیگر نویسندگان متمایز میکند، شامل استفاده از فنون آماری یا یادگیری ماشینی میشود.
فنون اسناد تألیف
در یک تقسیمبندی میتوان فنون اسناد تألیف را به دو دسته کلی تقسیم کرد:
1. فنون تکمتغیری مبتنی بر آمار
فنون تکمتغیری آماری، خود به چند شیوه گوناگون تقسیم میشود (2):
ـ طبقهبندیکننده بیز ساده (Naive Bayes classifier): در این شیوه، یادگیری طبقهبندی و شیوههای طبقهبندی، مبتنی بر نظریه احتمال است. الگوی بیزین، یادگیری و طبقهبندی بر پایه نظریه احتمال به شمار میرود و الگویی تولیدی میسازد که بدانیم دادگان چگونه ایجاد شدهاند. کاربر پیش از عرضه احتمال هر طبقه خاص، اطلاعاتی درباره یک فقره ندارد. در این روش، متن به مثابه مجموعهای از واژگان مستقل از یکدیگر و بدون لحاظ محل قرار گرفتن در متن، در نظر گرفته میشوند. از این رو، تعریف تابع احتمال هر متن، از حاصل ضرب احتمال کلمات آن و احتمال رخداد متنی با آن اندازه به دست میآید. احتمال هر دسته نیز از تعداد متنهای متعلق به آن دسته در قیاس با تعداد کل متنها حاصل میشود.
ـ شیوه آماری سییواسیوام ((CUSUM (or cumulative sum): این فن برای تشخیص ناهمسازیهای سبکشناختی، از طریق ملاحظه تفاوت در تناسب رخدادهای تمایزات خاص مؤلف یا عادتهای مؤلف در متن به کار میرود. سییواسیوام، دربردارنده محاسبه یک مجموعه انباشته است. سییواسیوام، فن تحلیل متوالیای است که دانشگاه کمبریج آن را عرضه کرده است و نوعاً برای رصد کردن تشخیص تغییرات به کار میرود. این فن در دادگاههای بریتانیا، به مثابه شاهدی برای اثبات یا رد مؤلف بودن، مانند بیانات شاهدان و اظهارات حضار، به کار برده شده است. فن سییواسیوام، مطمیناً در تشخیص ناهمسانی درون متن واحد مفید است؛ اما برخی کارشناسان نشان دادهاند که در تشخیص دستبرد فکری سودمند نیست. (Clough, 2003, p. 10)
ـ تحلیل خوشه (clustering analysis): تحلیل خوشه، ابزار تحلیل داده اکتشافی برای حل معضلات طبقهبندی است. هدف آن، دستهبندی نمونه ها مانند: مردم، اشیا و وقایع، به گروهها یا خوشهها است؛ به گونهای که بر پایه آن، درجهای از پیوستگی میان اعضای یک خوشه، قوی است و میان اعضای خوشههای دیگر، ضعیف است.
2. فنون یادگیری ماشینی
فنون یادگیری ماشینی نیز خود به شیوههای ذیل است:
ـ شبکه عصبی پیشخورد (Feed-Forward Neural Networks): یک شبکه عصبی پیشخورد، شبکه عصبی مصنوعی است که میان واحدهایی که یک چرخه مستقیم را نمیسازند، ارتباط ایجاد میکند. این شبکه عصبی مصنوعی، از شبکههای دیگر متمایز است. شبکه عصبی پیشخورد، نخستین و سادهترین گونه شبکههای عصبی مصنوعی اختراعشده است.
ـ شبکه تابع مبتنی بر شعاع (Radial basis function network): شبکه تابع مبتنی بر شعاع، یک شبکه عصبی مصنوعی است که از توابع مبتنی بر شعاع به مثابه توابع و کارکردهای فعالساز استفاده میکند. خروجی این شبکه، ترکیب خطی کارکردهای مبتنی بر شعاع ورودی و پارامترهای عصب است. شبکههای تابع مبتنی بر شعاع، برای تقریب کارکردها، پیشبینی مجموعه زمانها و کنترل نظام کاربرد دارند.
ـ ماشین بردار پشتیبان (support vector machines): الگوی یادگیری ماشینی نظارتشده، با الگوریتمهای یادگیری مرتبط است که دادگان را تحلیل و الگوها را تشخیص میدهد. این الگوی یادگیری ماشینی، برای طبقهبندی و تحلیل بازگشتی به کار میرود. ماشین بردار پشتیبان بنیادین، مجموعهای از دادگان ورودی را میگیرد و پیشبینی میکند که کدامیک از ورودیهای خاص، تشکیلدهنده طبقاتی هستند که در خروجی مشخص خواهند شد.
رهیافتهای تشخیص خودکار دستبرد فکری
رهیافتهای تشخیص دستبرد فکری، بر پایه نوع ارزیابی شباهت جزئی و کلّیای است که آنها دارند. رهیافت ارزیابی شباهت کلی، از نویسه هایی که از بخشهای بزرگتر متن یا سند به منزله یک کل گرفته شده است، استفاده میکند تا شباهت را محاسبه نماید؛ در حالی که شیوه ارزیابی شباهت جزئی، تنها آن بخش از متن را که پیشتر برگزیده شده، به منزله ورودی محاسبه میکند.
1. انگشتنگاری (Fingerprinting):
در ادبیات بازیابی اطلاعات، اثر انگشت یک سند، ممکن است مجموعهای از زیررشتههای رمزگذاری شده باشد که از یک سند اخذ میشود و برای مشخص کردن یگانگی و منحصر بودن آن به کار میرود. انگشتنگاری، بهتازگی رهیافتی شایع برای تشخیص دستبرد علمی است. این شیوه، با انتخاب مجموعهای از زیررشتهها (ان-گرام) گوناگون از آنها، خلاصه بازنماینده سند را شکل میدهد. این مجموعهها، نشانگر اثر انگشت و عناصر آن (فرعیات) است. انگشتنگاری یک سند، با تقسیم به زیررشتهها و انتخاب یک زیرمجموعه از همه زیررشتههای ساختهشده، انجام میشود.
نظامهای تشخیص دستبرد فکری، اغلب توابع ریاضی را برای انتقال فرعیات به گونه محاسباتی به رشته بایتهای مؤثر به کار میبرند. نظام تشخیص دستبرد فکری، سندی را با محاسبه اثر انگشت سند و پرسوجوی هر یک از فرعیات با نمایه از پیشتعیینشده از اثر انگشتها برای همه اسناد در مجموعهای مرجع، مقایسه میکنند. فرعیاتی که با دیگر اسناد انطباق دارند، نشان از این دارند که بخشهایی از متن در آنها مشترک است و پیشنهاد میدهد که هنگامی که از آستانه شباهت گزینش شده فراتر رود، احتمال دستبرد فکری وجود دارد.
2. تطبیق رشته (String matching):
در رهیافت تطبیق رشته برای معضل تشخیص دستبرد فکری، اسناد برای همپوشانی لفظ به لفظ مقایسه میشوند. تطبیق رشته، به جستجو برای به دست آوردن بسامد نویسهها در متن باز میگردد. نظام تشخیص دستبرد فکری که رهیافت تطبیق رشته را به کار میبرد، از الگوی پیشوند سند استفاده میکند که هر زیررشته از یک متن را ذخیره میکند. این نظام تشخیص دستبرد فکری، باید الگوهای پیشوند اسناد را برای اسناد مجعول مقایسه و کل مجموعه مرجع محاسبه کند. چون رشته برای جستجو در تنظیمات تشخیص دستبرد فکری ناشناخته است، نظام تشخیص دستبرد فکر باید بخشهایی از متون مشکوک را برگزیند و آنها را در مقابل همه دیگر الگوها کنترل کند.
قوت شیوه تطبیق رشته، دقت آن در تشخیص انطباق لفظ به لفظ متن است. الگوهای سند پیشوند، کل نویسههای اطلاعات یک متن را رمزگذاری میکند که آنها را از الگوهای سند که بیشتر شیوههای انگشتنگاری به کار میبرند، متمایز کند. اگر دو سند، زیررشتهای مشترک داشته باشند، الگوهای پیشوند سند قادر به تشخیص این همپوشانی خواهد بود.
3. کیف واژگان (Bag of words):
تحلیل کیف واژگان، انطباق بازیابی فضای برداری (vector space retrieval) را که در مفهوم سنتی بازیابی اطلاعات وجود دارد، در حوزه تشخیص دستبرد فکری نشان میدهد. اسناد به مثابه یکی از چند بردار، عرضه شده است. مثلاً برای بخشهای اسناد گوناگون که برای، محاسبه شباهت دو به دو به کار میروند. محاسبه مشابهت ممکن است مبتنی بر مقیاس مشابهت کوسینوسی، یا بر پایه مقیاسهای پیچیدهتر مشابهت باشد.
4. تحلیل استنادی (Citation analysis):
تشخیص دستبرد فکری بر پایه استناد، بر تحلیل استنادی مبتنی است و تنها رهیافت به تشخیص دستبرد فکری است که بر مشابهت متنی تکیه ندارد. تشخیص دستبرد فکری بر پایه استناد، اطلاعات ارجاعات و استنادهای در متن را برای تعیین الگوهای مشابهت در بسامدهای استنادها میآزماید. این رهیافت، برای متنون علمی یا دیگر اسناد دانشگاهی که دربردارنده استنادها است، مناسب است. تحلیل استنادی برای تعیین دستبرد فکری، تا حدودی مفهوم جدیدی است.
5. سبکسنجی (Stylometry):
سبکسنجی، شیوههای آماری برای تعیین کمیّت سبک نوشتار یک نویسنده واحد را دستهبندی میکند و عمدتاً برای اِسناد تألیف یا شیوه تشخیص نویسنده به کمک رایانه به کار میرود. با الگوهای سازنده و محاسبهکننده سبکسنجی برای بخشهای گوناگون متن، عباراتی که به گونه سبکی متفاوت از دیگر عبارات است و از همین رو، در مظان دستبرد ادبی است، قابل تشخیص خواهد بود. (Wikipedia, the free encyclopedia, 2014)
سمیم نور(3) ابزاری ماشینی برای تشخیص دستبرد فکری
یکی از راه های پی بردن به آثاری که در آنها دستبرد فکری صورت گرفته است، استفاده از پایگاه «سمیم نور» مرکز تحقیقات کامپیوتری علوم اسلامی است. این پایگاه که بر پایه شیوه های یادگیری ماشینی به یافتن متون مشابه اقدام میکند، از بانک اطلاعات پایگاه مجلات تخصصی نور (4) برای مقایسه مشابهت میان مقالات عرضهشده کاربر بهره میبرد که در آینده از منابع پایگاه کتابخانه دیجیتال نور (5) و نیز کتابهایی که در بخش خدمات فرهنگی این مرکز و با همکاری تولیدکنندگان محتوا تبدیل به نرمافزارهای نور شده، در بانک دادگان پایگاه استفاده خواهد شد. شاید نقطه قوت مرکز تحقیقات کامپیوتری علوم اسلامی نور در انجام این کار، دارابودن انبوهی از متون و واژگان ماشینخوان در حوزه علوم انسانی و اسلامی است. این پشتوانه، ابزارها و مواد اولیه بسیار مناسبی در یادگیری ماشینی و نیز نمونههای غنی برای تطبیق و مشابهت به دست میدهد.
کارهای مشابه
پیشینه عرضه پایگاهی در زمینه مشابهتیابی در دنیا، شاید سابقهای طولانی نداشته باشد؛ اما چندین پایگاه مطرح در این زمینه وجود دارند که شاید یکی از مشهورترین آنها تِرنیتین باشد.
پیشینه استفاده از مشابهتیابی در نرمافزارها و پایگاه های مرکز نور، به برنامه جامع الأحادیث بازمیگردد که در آن امکان یافتن احادیث مشابه با حدیث منتخب کاربر وجود دارد. همچنین پایگاه اینترنتی textmining.noorsoft.org به شکل آزمایشگاهی در زمینه دادهکاوی متون به عرضه خدمات میپردازد که یکی از این خدمات، یافتن احادیث و مقالات مشابه است.
مخاطبان پایگاه سمیم
مخاطبان هدف این پایگاه، را میتوان این چنین برشمرد:
- ـ صاحبان نشریات علمی، برای بررسی مقالات رسیده، از نظر یافتن نمونههای احتمالی انتحال؛
- ـ بخشهای تحصیلات تکمیلی برای بررسی پایاننامه ها، از نگاه تشخیص دستبرد علمی؛
- ـ معاونتهای آموزشی و پژوهشی مراکز آموزش عالی برای سنجش طرحهای تحقیقاتی و پژوهشهای دانشجویان، برای تشخیص دستبرد فکری احتمالی؛
- ـ استادان، برای ارزیابی مقالات و پژوهشهای دانشجویان، از نگاه درستی استنادها و میزان تلاش آنها؛
- ـ پژوهشگران و دانشجویان برای یافتن مقالات مشابه در حوزه موضوع انتخابی خود، جهت استفاده در نگارش مقالات، تحقیقات علمی، پایاننامهها و کتابها.
پینوشتها:
1. http://www.turnitin.com/2. بیشتر مطالب این عنوان، برگرفته از ویکیپدیای انگلیسی، ذیل مدخل « Plagiarism detection» است.3. سامانه مشابه یاب متون (سمیم) نور به نشانی: http://samimnoor.ir/view/fa/default4. http://www.noormags.com/view/fa/default
5. http://www.noorlib.ir
منابع:
1. Markus Dickinson (2007), Language and Computers;Text Classification, Dept. of Linguistics, Georgetown,2. Madigan, D., Genkin, A., Lewis, D., Argamon, S., Fradkin, D., & Ye, L. (2004). Author Identifcation on the Large Scale.
3. Nirkhi, S., & Dharaskar, R. (2013). Comparative study of Authorship Identification Techniques for Cyber Forensics Analysis. Techniques for Cyber Forensics Analysis, 32-35.
4. Sreeraj.M & Sumam Mary Idicula (2011) "A Survey on Writer Identification Schemes ", International Journal of Computer Applications, Volume 26– No.2.
5. Claremont Graduate University. (2014, 08 25). Plagiarism: how to identify and aviod it. Retrieved from Claremont Graduate University: www.cgu.edu/include/.../Plagiarism.pd
6. Ballard, S. (2010). Give Credit Where Credit is Due: Avoiding Plagiarism and Copyright Infringement. Ethical Principles of Psychologists and Code of Conduct, 1-9.
7. Burrows, S., & Tahaghoghi, S. (2007). Source Code Authorship Attribution using n-grams. Proceedings of the 12th Australasian Document Computing Symposium, (pp. 32-39). Melbourne, Australia: RMIT University.
8. Clough, P. (2003, February). Old and new challenges in automatic plagiarism detection. Retrieved 04 29, 2014, from University of Sheffield: http://ir.shef.ac.uk/cloughie/papers/pas_plagiarism.pdf
9. Plagiarism: how to identify and aviod it. (n.d.).
Wikipedia, the free encyclopedia. (2014, April 3). Plagiarism detection. Retrieved from Wikipedia: http://en.wikipedia.org/wiki/Plagiarism_detection