جستجوی هوشمند عبارات قرآنی در متون دیجیتال

سه شنبه, 31 خرداد 1390 ساعت 14:57
    نویسنده: محمد حبیب‌زاده بیژنی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید
این مورد را ارزیابی کنید
(1 رای)

چکیده

برجسته کردن عبارات قرآنی در متون مکتوب - چه با تغییر در نوع نوشتار و چه با استفاده از علائم ویرایشی - موضوعی است که قرن‌ها مورد توجه مؤلفان، نسخه‌برداران و ناشران قرار گرفته است. همچنین، فهرست‌برداری از این عبارات و درج آنها به صورت آماری در بخش پایانی کتب نیز در تألیفات دهه‌های اخیر متداول بوده است. مرکز تحقیقات کامپیوتری علوم اسلامی، طی بیش از دو دهه فعالیت خود تلاش نموده تا محوریت قرآن و حدیث را در نرم‌افزارهای تولیدی حفظ نماید که این تلاش‌ها ابتدا تفاوت چندانی با مدل مکتوب نداشته است؛ اما به مرور زمان روش‌های ابتکاری نوینی برای سرعت و دقت بیشتر به کار گرفته شده که آخرین آنها طرح «جستجوی هوشمند عبارات قرآنی در متون دیجیتال» می‌باشد.

 مقدمه

به دنبال گسترش صنعت نشر مکتوب، هنر ویرایشگری نیز رشدی سریع داشت. تفکیک آیات قرآن، روایات، اشعار، نام‌ها، ... و قرار دادن هر یک از آنها در محدوده‌ای که با علامت ویرایشی خاصی مشخص می‌شد و نیز پاراگراف‌بندی، ویرگول گذاری و ... به‌تدریج هنری به نام «ویراستاری» و شغلی با عنوان «ویراستار» را به وجود آورد. امروزه، ویرایش مناسب، یکی از شاخصه‌هایی است که در جذب مخاطب برای استفاده از کتاب، تأثیر بسزایی دارد.

با ظهور فناوری دیجیتال و تدوین کتابخانه‌های بزرگ الکترونیکی، ویراستاری در متون رایانه‌ای لازم به نظر می‌رسید؛ چون علاوه بر فواید شناخته شده‌ی ویرایش در نسخه‌های مکتوب، این امکان را نیز در اختیار پژوهشگر قرار می‌داد که با همین داده‌های ویرایشی، آمارهای مختلفی را از کتاب‌ها استخراج کرده و با توجه به نیاز خود، پژوهش را در محدوده‌های انتخابی دنبال کند.

از مهم‌ترین مواردی که از دیرباز در ویرایش‌ها مورد توجه قرار گرفته است، برجسته‌سازی متون قرآنی در کتاب‌ها است. با نگاهی به نرم‌افزارهای تولید شده در مؤسسات مختلف نیز مشاهده می‌کنیم که چنین تفکیکی، کم و بیش در بیشتر آنها به چشم می‌آید.

فرایند ویرایش متون قرآنی در نرم‌افزارهای مرکز تحقیقات کامپیوتری علوم اسلامی، ابتدا تنها با استفاده از حافظه پژوهشگران و احیاناً مراجعه به برخی معاجم، انجام می‌شد و به‌تدریج، فعالیت‌های پراکنده‌ای جهت استفاده از ماشین انجام شده و اکنون با استفاده از تجارب قبلی، طرح استفاده از شیوه‌های متن‌کاوی برای دقت و سرعت کار در حال پیاده‌سازی است.

در این نوشتار، تلاش بر آن است که از این روند تدریجی، گزارشی ارائه شود که در ضمن آن، مشکلات و موانع هوشمندسازی و نیز برخی چشم‌اندازهای فرارو مورد بررسی قرار گیرد.

فصل اول: نگاهی به قرآن در دیتای مرکز

1. انتقال ویرایش از کتاب به ماشین

اولین مرحله جداسازی متون قرآنی در مرکز مانند دیگر متون خاص، بدین شیوه بود که پژوهشگر با استفاده از حافظه، علائم ویرایشی و احیاناً مراجعه به معاجم، متنی را که به عنوان آیه شناخته بود، نشان‌گذاری می‌کرد؛ بدون آنکه نتیجه تلاش او از طرف ماشین، مورد بازنگری قرار گرفته، آدرس‌دهی و اعراب گذاری شود و ارتباطی بین آیات و متون برقرار گشته و یا دست کم آماری از آن ارائه گردد.

این شیوه، کاستی‌های فراوانی داشت که برخی از آنها عبارت بودند از:
متکی بودن بیش از حد بر حافظه پژوهشگر و به دنبال آن، دور ماندن برخی آیات از چشم او، نشان‌گذاری برخی متون غیر قرآنی، تصحیح نشدن اغلاط املایی و... .

2. ایجاد پیوند بین قرآن و متون وابسته

در گام بعدی، آدرس آیات نشان‌گذاری شده، بدون استفاده از ماشین، مشخص شده و با کمک آن، پیوند میان قرآن کریم و تفسیر المیزان برقرار شد. با این قابلیت جدید‌، دامنه «آیات در کتب» در نرم‌افزارهای مرکز برای اولین بار شکل گرفت و دیسکت حاوی قرآن مرتبط با این تفسیر، زیربنای نرم‌افزار «نور الانوار 2» شد.

3. بررسی صحت متن و آدرس آیات

در دو مرحله قبل دیدیم که آیات، نشان‌گذاری و آدرس‌دهی شده بودند و با کمک آدرس‌ها، ارتباط بین آیه و متن نیز برقرار گشت؛ اما به دلیل عدم کنترل کار توسط ماشین، اولاً: ممکن بود آدرس‌های اعمال شده و در پی آن، ارتباط ایجاد شده اشتباه باشند و ثانیاً: این امکان نیز وجود داشت که در متون قرآنی، اشتباهات ناشی از تایپ نادرست، همچنان باقی مانده باشد.

بر این اساس، سیستمی طراحی شد که تمام آیاتی که از قبل نشان‌گذاری و آدرس‌دهی شده بودند، با متن قرآنِ تصحیح شده و دارای آدرس، منطبق شده و هرگونه اشکالی در متن یا آدرس به اطلاع پژوهشگر برسد تا در برطرف شدن آن اقدام شود.

در ضمن، قابلیت دیگری نیز در این سیستم وجود داشت که بعد از انجام این مراحل، اعراب صحیح قرآن نیز به متون یاد شده منتقل می‌شد. (1)

آیات نرم‌افزار «جامع الأحادیث» با این شیوه، ویراستاری گردید که طی آن، نشان‌گذاری و آدرس‌دهی به صورت دستی و غیر ماشینی انجام شده؛ اما ارزیابی درستی آدرس‌ها، صحت متن و نیز اعراب گذاری توسط ماشین انجام می‌شد.

4. آدرس‌دهی خودکار

با آغاز پروژه‌های جدیدی در مرکز، مانند: جامع فقه، عرفان، منهج النور و...، تصمیم به استفاده از قابلیت «آیات در کتب» در آنها گرفته شد که با توجه به حجم سنگین کار، قابلیت جدیدی طراحی شد که بر اساس آن، بعد از آنکه کاربر به صورت غیر ماشینی، محدوده آیات را مشخص می‌نمود، ماشین علاوه بر هشدار در مورد اشتباهات تایپی، توانایی آدرس‌دهی و به دنبال آن، اعراب گذاری خودکار را نیز ـ البته تنها در محدوده آیات نشان‌گذاری شده ـ به دست آورد.

مجموعه این قابلیت‌ها به همراه چند سیستم کمکی چون جایگزینی‌های کلی در محدوده آیات، سرعت کار را به طرز چشمگیری بالا برد؛ اما هنوز مشکلاتی چون: آدرس‌های تکراری، اختلاف قرائات، نشان‌گذاری اولیه مبتنی بر حافظه فردی و... وجود داشت که ادامه تحلیل و طراحی را برای سرعت و دقت هر چه بیشتر می‌طلبید.

5. ورود به لایه‌های معنایی

با مروری در کتب روایی، اخلاقی، عرفانی و حتی اشعار، با متونی مواجه می‌شویم که بدون استفاده از الفاظ قرآن، بخشی از معنا و مفهوم آن را در قالبی دیگر ارائه می‌کنند. ارتباط بین این متون و آیات مورد نظر، مستلزم فعالیت‌های فکری دشوار و زمان‌بری بود که با توجه به اولویت‌ها، جز در موارد محدودی چون احادیث موجود در نرم‌افزار «نور الانوار» و نیز اشعار موجود در نرم‌افزار «مثنوی» بدان پرداخته نشد.

فصل دوم: متن‌کاوی متون قرآنی

1. پیش درآمدی بر طرح

با توجه به نیازهای بیان شده، این اندیشه از سال‌ها قبل وجود داشت که با استفاده از ماشین، قابلیتی به وجود آید که بدون استفاده از نیروی انسانی به جستجو و نشان‌گذاری آیات بپردازد. در همین راستا، برنامه‌ای مقدماتی نیز در همین زمینه ارائه شد که با وجود مشکلات بسیاری که در آن بود، گام مناسبی برای هوشمند‌سازی جستجو به شمار می‌آمد؛ مشکلاتی که جامعیت و مانعیت برنامه را زیر سؤال می‌برد؛ زیرا این برنامه می‌توانست متونی را جستجو نماید که صحیح و تنها با یک رسم الخط و با یک فونت نگاشته شده باشد، سه کلمه و یا بیشتر از آن مشابه قرآن باشد و... . تمام این موارد، جامعیت آن را زیر سؤال برده و با توجه به آنکه عملکرد آن در تمام مراحل به صورت کاملاً خودکار بوده و پژوهشگر در تأیید، رد، افزایش و یا کاهش متنِ مشخص شده، هیچ نقشی نداشت، از مانعیت لازم نیز برخوردار نبود و به همین دلیل، خروجی برنامه چیزی نبود که توجیه‌گر استفاده از آن باشد.

سپس، مدت‌ها پیگیری این برنامه به فراموشی سپرده شده و کار با همان روش‌های گذشته ادامه یافت تا آنکه از سال گذشته، با در نظر گرفتن مشکلات قبلی و چشم‌اندازهای موجود، طرح نسبتاً جامعی تهیه شد تا نرم‌افزاری چند مرحله‌ای تدوین شده و به‌تدریج و با در نظر گرفتن رشد متونِ رفع ابهام‌شده، هوشمندی آن افزایش یابد.

سیستم این نرم‌افزار که بر پایه بانک‌ها و قواعد گوناگون در حال اجرا است، به شیوه‌ای طراحی شده که تا رسیدن به هدف نهایی، نباید منتظر ماند و از دیگر قابلیت‌های آن استفاده نکرد؛ بلکه با تکمیل هر بخش، می‌توان آن را به صورت کاربردی درآورد و سپس به‌تدریج و در فرایندی نسبتاً طولانی، بر هوشمندی، سرعت و قابلیت‌های آن افزود.

نکته مهم دیگر در طراحی این نرم‌افزار، آن است که نقش پژوهشگر در تأیید نهایی عملکرد ماشین، نقشی ضروری است و به عبارتی، این برنامه حتی اگر سرعت و دقت او را ده‌ها برابر افزایش دهد، جایگزینی برایش نخواهد بود.

2. تفاوت‌ها در متون قرآنی، مانعی مهم

شاید در نگاه اول، جستجو و نشان‌گذاری متون قرآنی، آن هم با استفاده از ماشین، موضوعی ساده به نظر آید؛ اما تنها بعد از شناخت تفاوت‌ها است که دشواری‌ها را می‌توان دریافت؛ به عنوان نمونه، ویرایش هر یک از موارد متفاوت ذیل و یا صرف نظر کردن از هر کدامشان می‌تواند در نتایج آماری برگرفته از نشان‌گذاری به‌شدت تأثیرگذار باشد:

  1. متن صریحی که در قرآنی بودن آن هیچ جای تردید نیست، متنی است که منطبق با قرائت متداول و بدون توجه به رسم الخط خاصی نگاشته شده باشد که البته درصد بالایی از متون قرآنی موجود در کتاب‌ها، از همین نوع بوده و در کتاب‌های غیر تخصصی، کمتر می‌توان به موردی غیر از آن برخورد نمود؛ اما در هر یک از موارد بعدی، اما و اگرهایی وجود دارد.
  2. متنی که با آیه‌ای از قرآن شباهت فراوان داشته، ناظر به آن آیه نیز می‌باشد؛ ولی از برخی جهات مانند اعراب و ضمیر، تفاوت‌هایی دارد، نظیر متون موجود در این روایات:
    «أَبْشِرْ بِنُزُلٍ مِنْ حَمِیمٍ وَ تَصْلِیَةِ جَحِیم‏»(2) و «لَمْ تَلِدْ وَ لَمْ تُولَدْ وَ لَمْ یَکُنْ لَکَ کُفُواً أَحَد»(3) که اولی مشابه آیه‌ای از سوره واقعه، و دومی شبیه قسمت پایانی سوره توحید است و متن هر دوی آنها نیز ناظر به آیات می‌باشند؛ اما در سیستم فعلی، ارتباطی میان آنها و قرآن وجود ندارد.
  3. متنی که کاملاً با قرآن مشابه بوده، اما نتوان ارتباط چندانی میان آنها مشاهده کرد؛ به عنوان نمونه، در مقایسه روایت «مَنْ مَاتَ وَ هُوَ یَعْلَمُ أَنَّهُ لَا إِلَهَ إِلَّا اللَّهُ دَخَلَ الْجَنَّة»(4) با آیه «فَاعْلَمْ أَنَّهُ لا إِلهَ إِلاَّ اللَّهُ»(5) مشاهده می‌کنیم که پنج کلمه پیاپی آنها با هم مشابهت دارد؛ در حالی که ایجاد پیوند بین این آیه و روایت شاید فایده‌ای نداشته باشد؛ گرچه ممکن است با توجیهاتی، نوعی از ارتباط را نیز در نظر گرفت.
    در این موارد، مشکل اختلاف سلیقه پژوهشگران، موجب ناهماهنگی ویرایش‌ها خواهد شد.
  4. آیه‌ای که مراد از آن، تمام سوره باشد، مانند:
    «ثُمَّ یُقْرَأُ قُلْ هُوَ اللَّهُ أَحَدٌ خَمْسَ عَشْرَةَ مَرَّة».(6)
    مشخص است که مراد روایت، خواندن تمام سوره برای 15 بار است و نه تنها اکتفا به آیه اول آن. به همین دلیل، به نظر می‌رسد که ارتباط این متن باید با تمام سوره برقرار شود و نه تنها با آیه اول آن.
  5. بسمله، حمد و مانند آن که در آغاز و پایان کتب، نامه‌ها، سخنان و... از آنها استفاده می‌شود، مانند:
    «فَأَخَذَ الْقِرْطَاسَ وَ کَتَبَ بِسْمِ اللَّهِ الرَّحْمَنِ الرَّحِیمِ أَمَّا بَعْد...».(7)
    برجسته کردن بسمله در این متون به عنوان متنی قرآنی می‌تواند مورد تردید قرار گیرد.
  6. متونی که هیچ شباهت لفظی با قرآن نداشته و حتی با زبانی غیر عربی نگاشته شده‌اند؛ اما ارتباط معنوی آشکاری با بخش‌هایی از قرآن دارند. در این موارد نیز مانند آنچه در نرم‌افزار «مثنوی» انجام شد، می‌توان با نشان‌گذاری‌های خاصی، ارتباط دوجانبه میان این متون و قرآن برقرار کرد.
  7. اختلاف قرائاتی که در کتاب‌ها، به‌ویژه متون تفسیری وجود دارد.
    اینکه آیا اختلاف قرائات را می‌توان بخشی از قرآن برشمرد یا خیر، موضوعی است که اینجا در صدد اثبات و یا نفی آن نیستیم؛ اما به هر حال و به دلیل وجود این قرائت‌ها در کتب مختلف و حتی نگارش ده‌ها و صدها کتاب که تنها به مباحث ویژه اختلاف قرائت می‌پردازند، لزوم تفکیک این قرائات از قرائت مشهور و نیز از متن اصلی، ضروری به نظر می‌رسد.
    اختلاف قرائات خود به چند دسته تقسیم می‌شوند:
    7-1. اختلاف تنها در حرکت: «ما وَدَّعَکَ ما قطعک أو فارقک قطع المودّع أو مفارقته، و قرئ وَدَعَکَ بالتخفیف، أی ترکک.»(8)
    7-2. اختلاف در حروف: که علاوه بر تغییر اعراب، برخی حروف نیز تغییر می‌یابند، همانند: « لَنُبَوِّئَنَّهُمْ»(9) که در برخی قرائات، «لنثوینهم» خوانده شده است.(10)
    7-3. اختلاف در نقیصه: هم در کتب اهل سنت(11) و هم در کتب شیعه(12) ادعا شده که متنی چون «الشیخ و الشیخه اذا زنیا فارجموهما» قسمتی از قرآن بوده؛ اما بدون آنکه حکم آن نسخ شود، تلاوت آن نسخ شده است.
    7-4. اختلاف در زیاده: تفاسیر اهل سنت از ابن مسعود نقل کرده‌اند که سوره‌های ناس و فلق جزئی از قرآن نیستند؛(13)  هر چند این ادعا از جانب امامان شیعه مردود می‌باشد.(14)
  8. اختلاف کتابت: در شیوه نگارش برخی متون قرآنی، بدون آنکه در چگونگی تلاوت آنها تغییری ایجاد شود، تفاوت‌هایی وجود دارد؛ به عنوان مثال، عبارات «شرکاء» و «یا ابن ام»، به شکل «شرکؤا» و «یبنؤم» نگاشته می‌شوند.
    در حالت عادی به نظر می‌رسد که استفاده از هر رسم الخط و یا تغییر آنان به یکدیگر، مشکلی نداشته باشد؛ ولی در مواردی که رسم الخطی خاص مورد نظر باشد، هرگونه تغییری در آن با هدف مؤلف ناهمخوان تلقی خواهد شد. این نکته زمانی بیشتر نمودار می‌شود که هدف از تألیف کتاب و یا تدوین سرفصل خاصی از آن، بررسی اختلاف کتابت‌ها باشد که به عنوان نمونه می‌توان به کتاب «المقنع فی رسم مصاحف الامصار» از مؤلفی در قرن پنجم و موجود در نرم‌افزار «مشکات الانوار» اشاره کرد.
    بر همین اساس، این متون باید به همان صورتی که در کتاب وجود دارند، در کتابخانه مجازی قرار گیرند.
  9. آیات تکرار شونده: عباراتی به صورت کاملاً مشابه، یا با تلفظی یکسان و رسم الخطی متفاوت در نقاط مختلف قرآن تکرار شده‌اند. مواردی نیز وجود دارد که اختلاف قرائتی از یک آیه، مانند متن متداولی از آیه‌ای دیگر است، مانند کلمه: «فَکِهِین» که  به عنوان قرائت مشهور در سوره مطففین و به عنوان اختلاف قرائت در سوره طور وجود دارد و از این جنبه، تکرار شونده به شمار می‌آید.
  10. نشانگر آیات: متونی که در آن، کلماتی چون «آیة الکرسی» و «آیة السخرة» به کار گرفته شده که همان آیات 255 سوره بقره و 54 سوره اعراف است. با نشان‌گذاری می‌توان این موارد را نیز در محدوده مرتبط با آیات مورد نظر مورد جستجو قرار داد.
  11. و ...

3. پیشرفت‌ها و چشم‌اندازها

نظر به اینکه فعالیت‌های متن‌کاوی باید بر محورهایی چون: داده‌های آماری، قواعد عام الشمول و بانک‌های محدود تمرکز یابد، لازم است بانک‌های متعددی پشتیبان نرم‌افزار بوده و نیز دیتای قابل توجهی با استفاده از آنها رفع ابهام شود.

برای اجرای صحیح این برنامه و نیز گرفتن آمار صحیح از دیتاهای رفع ابهام‌شده، لازم است تا تکمیل هوشمندی سیستم، افرادی که در روند تولید دیتا نقش دارند، در هرگونه تغییر، دقت لازم را مبذول دارند؛ زیرا به عنوان نمونه، ممکن است مواردی چون: «انا انطیناک الکوثر»(15) و «أ إذا صللنا»(16) در نگاه اول، اشتباه به نظر آیند که با دقتی در متن مشخص خواهد شد که این عبارات با همین شکل، صحیح می‌باشند و اگر به اشتباه، تغییراتی انجام شود، به داده‌های آماری استخراجی از این متون نمی‌توان اعتماد کرد.

اکنون به برخی از بانک‌هایی که تا کنون در ارتباط با متن‌کاوی متون قرآنی ایجاد شده و برخی از بانک‌های مورد نیاز در مراحل بعدی، اشاره می‌کنیم:

  1. بانک رسم الخط‌های متفاوت: چون جستجوی متون قرآنی تنها با استناد به یک رسم الخط، عملاً به خروج متون بسیاری از دامنه جستجو می‌انجامد، بانکی مورد نیاز است که تمام رسم الخط‌های قرآنی در آن گردآوری شود. این بانک، اکنون ایجاد شده است.
  2. بانک عبارات تک‌کلمه‌ای و دوکلمه‌ای: بدیهی است که نمی‌توان تمام کلمات مشابه با قرآن را در جستجو لحاظ کرد؛ زیرا بیشتر کلمات غیر تکراری قرآن، در سایر متون نیز به مقیاس وسیعی وجود داشته و هشدار یکایک آنها غیر مفید بوده و سرعت کار را بسیار کاهش خواهد داد. به همین دلیل، مبنای جستجو در این نرم‌افزار، تطابق سه کلمه پیاپی از متن مورد جستجو، با بانک‌های قرآنی در نظر گرفته شد که در بیشتر موارد، پاسخ ناشی از این انطباق، مثبت خواهد بود.
    اما نکته دیگر اینکه درصد استفاده قرآنی تقریباً یک چهارم تک‌کلمه‌ای‌های قرآنی مانند: «فسیکفیکهم»، «مدهامتان» و نیز نیمی از عبارات دوکلمه‌ای نظیر: «ألهاکم التکاثر» و... به اندازه‌ای است که هشدار در مورد آن را توجیه‌پذیر می‌نماید.
    این دسته از عبارات تک و دوکلمه‌ای که استثنایی از اصل عدم جستجو در این موارد هستند، در دو بانک متفاوت گردآوری شده‌اند.
  3. بانک عبارات سه‌کلمه‌ای: بر خلاف مورد قبل، متونی چون: «و إن کان»، «و فی ذلک» و ... با وجود آنکه سه کلمه پیاپی آن مشابه با برخی از بخش‌های قرآن است و از این لحاظ بر اساس تعریف اولیه باید مورد جستجو قرار گیرند، اما استعمال آنها به عنوان متنی غیر قرآنی در دیتاها به اندازه‌ای است که هشدار در مورد آنها را توجیه‌پذیر نمی‌کند. چنین عباراتی به عنوان استثنائی از اصل جستجو، در بانکی مستقل گردآوری و در طراحی نرم‌افزار گنجانده شده است. گفتنی است که محتوای این بانک، در حال تکمیل است.
  4. بانک‌هایی از اختلاف قرائات، متون کمکی، متون تکرار شونده، تفاوت آدرس‌ها و ... در مراحل بعدی قابل تدوین و اضافه شدن به قابلیت‌های نرم‌افزار است.

در حال حاضر، گام اول تدوین نرم‌افزار، یعنی «موتور جستجو» برداشته شده که ضریب اطمینان بسیار بالایی از حیث جامعیت و درصد مناسبی از مانعیت را دارا می‌باشد و جهت‌گیری کنونی آن است که مانعیت نرم‌افزار افزایش یافته (هشدارهای غیر مفید کاهش یابند) و نیز رابط کاربری (Enterface) مناسبی طراحی شود که با گنجاندن نتایج حاصل از موتور جستجو در آن، پژوهشگران بتوانند در فضایی مناسب، به تأیید، رد، کاهش، افزایش، آدرس‌دهی، اعراب گذاری و هر اقدام لازم دیگر در مورد متونی بپردازند که با متن‌کاوی‌های انجام شده توسط موتور جستجو، به عنوان متنی مشابه با قرآن اعلام شده است.

طبیعی است که در مقطع فعلی، این نرم‌افزار نمی‌تواند پاسخگوی تمام نیازهایی باشد که به پاره‌ای از آنها در بخش دوم همین فصل اشاره شد؛ اما می‌توان آن را زمینه‌ای برای فعالیت گسترده‌تر در متن‌کاوی عبارات خاص قلمداد کرد.

برخی چشم اندازهای دیگری که در ادامه این طرح وجود دارد، عبارت‌اند از:

  1. ایجاد سیستم‌های هوشمند مکمل جستجو، مانند:
    الف ـ جستجوی تکمیلی با استفاده از متون کمکی، نظیر: «قال تعالی»، «قوله عز و جل»، «فی کتاب الله» و... که در اطراف متون قرآنی مشاهده می‌شوند. و نیز با استفاده از علائم ویرایشی چون: پرانتز، گیومه و... که با توجه به نوع ویرایش هر کتاب توسط پژوهشگر تعیین خواهد شد.
    ب ـ جستجوی تکمیلی متونی که با معیارهای اولیه در محدوده جستجو نبوده، اما با توجه به متون پیرامونی می‌توانند به این محدوده وارد شوند.
    به عنوان نمونه، عبارت «اولوا القربی» طبق معیارهای اولیه نباید به عنوان متنی قرآنی اعلام شود؛ اما اگر همین عبارت در متنی چون «و إِذا حضر القسمة ‌ای إذا شهد قسمة الترکة اولوا القربی» قرار گیرد، به دلیل معیاری ثانویه (وجود آن بعد از آیه‌ای که این عبارت نیز در همان آیه وجود دارد) در لایه مکمل، قابل جستجو است.
  2. تشخیص هوشمند اختلاف قرائات و رسم الخط‌ها و ارائه توضیحاتی در مورد آنها.
  3. انتخاب و یا دست کم هشدار هوشمند آدرس صحیح از میان آدرس‌های مشترک.
  4. گسترش سیستم متن‌کاوی به متون خاص دیگری چون: روایات، اشعار، ضرب المثل‌ها و... .
  5. ایجاد ارتباط میان متون خاص و عباراتی که تشابه معنایی با آنها دارند.

در پایان آرزو می‌کنیم تلاشمان در جهتی باشد که هدایت الهی را به دنبال داشته باشد؛ «والذین جاهدوا فینالنهدینهم سبلنا و ان الله مع المحسنین»(عنکبوت/69)

پی نوشت ها:

اطلاعات تکميلي

  • تاریخ انتشار نسخه چاپی: پنج شنبه, 26 خرداد 1390
  • صفحه در فصلنامه: صفحه 77
  • شماره فصلنامه: فصلنامه شماره 34
بازدید 30329 بار
شما اينجا هستيد:خانه فهرست موضوعی فصلنامه شماره 34 (بهار 1390) جستجوی هوشمند عبارات قرآنی در متون دیجیتال