ره آورد نور

Skip to content

متن کاوی نور از نگاه پژوهشی و فنی

یکشنبه, 31 خرداد 1394 ساعت 14:52

اندازه قلم کاهش اندازه قلم افزایش اندازه قلم
چاپ
پست الکترونیکی

این مورد را ارزیابی کنید

1
2
3
4
5

(3 رای‌ها)

اشاره

مرکز تحقیقات کامپیوتری علوم اسلامی، در بیش از بیست سال فعالیت خود، تاکنون توانسته است با رقومی نمودن منابع مکتوب، حجم عظیمی از دادگان متنی را فراهم آورد. در مرحله بعد، به فرآوری و غنی سازی متون پرداخت و سپس با به کارگیری فناوری های رایانه ای، محیط پژوهشی مناسبی را در ارائه محتوای این متون به گونه ای کارآمد ایجاد نمود و در این مسیر، همواره به توسعه این امکانات می اندیشد. روایات مشابه، صرف ماشینی، برچسب گذاری، خلاصه ساز، خوشه بندی، اِعراب گذاری، رده بندی متن و نیز تحلیل صرفی و نحوی قرآن، از جمله محصولات نور است که تا کنون در حوزه متن کاوی تولید و عرضه شده است.

نظر به جایگاه و اهمیت بحث متن کاوی (Text Mining) در پردازش و تحلیل اطلاعات، خاصه مقوله جدید نظام هوشمند واژگان، مناسب دیدیم گفت وگویی با متولیان این امر در مرکز تحقیقات کامپیوتری علوم اسلامی داشته باشیم. حجت الاسلام مسیح توحیدی، مدیر گروه ادبیات و متن کاوی معاونت پژوهشی، و مهندس احمد ربیعی زاده، مسئول بخش متن کاوی معاونت فنی، هر یک از منظر حوزه کاری و حیطه فعالیت خویش، توضیحات مفیدی را در این باره ارائه نمودند که امید است مورد استفاده علاقه مندان و کارشناسان قرار گیرد.

نگاه اوّل: نظام هوشمند واژگان، پروژه طلایی مرکز

حجت الاسلام والمسلمین مسیح توحیدی: اتفاقی که طی این چندساله در مرکز تحقیقات کامپیوتری علوم اسلامی افتاده، این بوده است که متون اسلامی در حال دیجیتالی شدن است. گام بعدی، کارهای پژوهشی است که توسط متخصصان و مهندسان نور، روی این متون انجام شده است؛ مثل فرمت های تخصصی یا چکیده نویسی و موضوع برداری. گام دیگر، عرضه این اطلاعات در قالب های مختلف، مانند: موبایل، وب و دسکتاپ می باشد.

به هر حال، بعد از گذشت بیش از دو دهه از فعالیت مرکز، حجم عظیمی از اطلاعات فراهم شده و اساساً کار متن کاوی، از سال 1389 در مرکز کلید خورد و گروهی که از معاونت فنی و پژوهشی بودند، به این کار مبادرت ورزیدند. اگر بخواهیم به طور خاص به متن کاوی نگاه کنیم، از دو جنبه قابل تحلیل است: یکی اینکه به صورت متمرکز، روی محتوا و اطلاعاتی که داریم، چه کارهایی می توانیم به شکل هوشمندانه و ماشینی انجام دهیم؛ یعنی نگاه ما روی دیتا یا اطلاعات است. دوم اینکه ببینیم چه فضاهای علمی و فناورانه ای فراهم شده تا بتوانیم این اطلاعات را عمومی سازی و عرضه کنیم. در قسمت دوم، نگاه ما بیشتر به جنبه فنی قضیه است؛ مانند آنچه در موتور جست وجوی پایگاه نورمگز شاهد آن هستیم. به همین جهت، روند کار متن کاوی در دو معاونت پژوهشی و فنی مورد تجزیه و تحلیل قرار گرفته و به طور جدی دنبال می شود. به هر صورت، کار متن کاوی که در مرکز از سال 89 آغاز شده، در زمینه ادبیات نتایج خوبی داشته و این مسئله، بستر خوبی را برای پژوهش های بعدی فراهم نموده است.

از جمله فعالیت های ما که با کمک گروه متن کاوی فنی سامان یافت و حدود شش سال به طول انجامید، آماده سازی و تولید موتور صرف است؛ یعنی قواعد صرفی را که در ادبیات عربی وجود دارد، کدنویسی کردیم و به مرور زمان فرایند اصلاح و تکمیل انجام گرفت و البته هنوز هم در فرایند رفع ابهام آن قرار داریم و به عنوان متکفل این کار، به دنبال تکمیل و ارتقای آن هستیم. به هر حال، این کار را در مرکز ماشینی کردیم و الآن هم در پروژه هایمان از این موتور صرف بهره می بریم.

از آنجایی که آنچه تاکنون در معاونت پژوهشی در حوزه متن کاوی انجام گرفته، مرتبط با ادبیات بوده، این گروه، به عنوان «گروه ادبیات و متن کاوی» نام گرفت؛ ولی آنچه ایده آل می باشد، این است که ان شاءالله مباحث متن کاوی در همه حوزه های پژوهشی مورد دقت و توجه قرار گیرد.

توضیح بیشتر آنکه گروه ادبیات، متکفل تمامی فعالیت هایی است که پیش از این، به صورت مجزا تحت عناوین «گروه اعراب»، «گروه لغت» و «گروه ریشه» در معاونت پژوهشی صورت می گرفت که به این مجموعه، فعالیت های متن کاوی در حوزه ادبیات نیز اضافه گردیده و گروهی با نام «ادبیات و متن کاوی» تشکیل شده است.

از آنجایی که محتوای ما، از مجموعه کلمات و واژگان تشکیل شده، باید فرایندی را ترسیم کنیم که ماشین به بهترین شکل ممکن بتواند روی این محتوا به تجزیه و تحلیل بپردازد و زمینه های لازم را برای فرآوری اطلاعات فراهم سازد.

این نگرش، یک نگاه فرابخشی است و کاری به نوع دیتا ندارد و در هر حوزه ای باشد، این اتفاق باید بیفتد. برای این منظور، باید واژگانمان را ساماندهی کنیم که قدم های مختلفی دارد. اگر بخواهیم مفهومی را از متن استخراج نماییم، باید ارتباط واژگان ما با لغت نامه ها برقرار باشد؛ یعنی بدانیم این کلمه در هر جایی که باشد، چه مفهومی دارد. وقتی یک استخراج مفهومی را از ماشین مطالبه می کنیم، طبیعتاً باید زمینه های آن را نیز برایش فراهم کرده باشیم.

در گذشته، گروه لغت و ریشه ای داشتیم که تعدادی از کتب حدیثی را به صورت دستی ساماندهی کردند؛ یعنی هر کلمه را به یک ریشه پیوند دادند و از طریق آن ریشه که در کتب لغت فرمت داشت، به کتاب لغت مربوطه متصل می شدند. مجموعه لغاتِ اتصال داده شده به ریشه در آن زمان، چیزی حدود پانصد هزار کلمه غیرتکراری بود.

با گذشت زمان و به تدریج بر تعداد کلمات در دیتای مرکز افزوده شد؛ به صورتی که هم اکنون بعد از گذشت بیست سال، تعداد کلمات غیرتکراری ما به بیش از دو میلیون و ششصد هزار کلمه رسیده است که لازم است علاوه بر بازبینی پانصد هزار کلمه کارشده، نسبت به تعیین تکلیف بیش از دو میلیون کلمه جدید نیز اقدامی صورت گیرد.

عمده فعالیت مجموعه گروه ادبیات و متن کاوی، معطوف به همین قسمت است و ابزاری تهیه شده تا از طریق آن، به ساماندهی و تعیین تکلیف بیش از دو میلیون و ششصد هزار کلمه غیرتکراری از متون عربی بپردازد. هر یک از کلمات غیرتکراری، اگر دارای ریشه باشد، آن ریشه برای کلمه ثبت می شود و چنانچه ریشه نداشته باشد، برچسب زده می شود که این چه کلمه ای است؛ ادات است، کلمه دخیل در عربی است یا چیز دیگری است.

به منظور هر چه بالاتر رفتن دقت و آسان سازی کار، در این ابزار، متناسب با هر کلمه، پیشنهادهایی در خصوص ریشه به محقق ارائه می شود. این پیشنهادها، از دو بانک استخراج می شوند: یکی بانک پانصد هزار کلمه تعیینِ ریشه شده توسط گروه ریشه سابق، و دیگری بانکی که از تحلیل موتور صرف بر روی کلمات تهیه گردیده است.

از جمله فواید این ساماندهی، شناسایی و برچسب گذاری اغلاط متنی است. این غلط های متنی را می توان به سه دسته تقسیم کرد: برخی غلط ها، اشتباهات تایپی هستند؛ مثل اینکه حرف «س»، «ص» تایپ شده باشد. البته این نوع اغلاط، تعدادش محدود است. دسته دیگر از غلط ها هستند که به حوزه فونت کلمات مربوط می شود. برخی واژگان باید از نظر فونتی تفکیک شوند؛ مثلاً «عَلی» (اسم) با «عَلی» (حرف جر) متفاوت است؛ ولی به یک شکل نوشته شده است که باید تفکیک شوند. و بالأخره، دسته سوم از اغلاط، به اتصال یا انفصال کلمات از یکدیگر مربوط می باشند؛ به این معنا که مثلاً دو کلمه به واسطه متصل شدن به همدیگر، یک کلمه لحاظ شده اند که باید با تفکیک کردن آنها از هم، هر کلمه را به صورت مستقل لحاظ کرد.

شایان ذکر است، آنچه هم اکنون در گروه ادبیات در خصوص اغلاط متنی در حال انجام می باشد، صرفاً برچسب گذاری و تشخیص این گونه کلمات است که در تکمیل این فرایند، لازم است اقدام جدی در اداره کل آماده سازی اطلاعات نسبت به اعمال اصلاحات در دیتای اصلی مرکز صورت گیرد.

قدم بعدی، پس از ساماندهی و تعیین تکلیف واژگان، آن است که این کلمات را به لغت نامه ها اتصال دهیم. گاهی با اضافه شدن پیشوند یا پسوند به یک کلمه، ممکن است شکل آن عوض شود و در آن فهرستِ دو میلیون و ششصد هزارتایی، جای جداگانه ای به خودش اختصاص دهد؛ اما از نظر معنایی، این پیشوندها و پسوندها، در مفهوم اصلی کلمه که ماشین می خواهد تحلیل کند، دخالتی ندارند. بنابراین، باید این دو میلیون و ششصد هزار کلمه را پیراسته کنیم و یک سری «سرواژه» یا «مدخل» یا «کلمات نماینده» از میان اینها انتخاب نماییم و آنها را به بانک واژگان لغت نامه ها متصل سازیم؛ نتیجه این می شود که وقتی کاربر در یک متن، معنای کلمه ای را می خواهد، برنامه در وهله نخست، واژه اصلی و پیراسته شده را پیدا می کند؛ به بیان دیگر، در لغت نامه ها همه استعمالات معنا نشده اند؛ بلکه مداخل اصلی معنا شده اند.

از دیگر سو، لازم است تا ساماندهی دیگری در فهرست ریشه و مشتقاتِ استخراج شده از کتب لغت نیز انجام گیرد. کاری که در مرکز تاکنون روی کتاب های لغت شده، این است که تمامی مشتقاتی که ذیل یک ریشه در کتاب لغت ذکر گردیده، فرمت خورده و فهرست شده اند؛ در حالی که بسیاری از این مشتقات، دارای توصیف مشخصی در آن کتاب لغت نبوده و مثلاً ممکن است در خلال یک شاهد مثال، استعمال شده باشند و به عبارت دیگر، بسیاری از این مشتقات، «مدخل» و «سرواژه» نمی باشند. به همین جهت، فهرست مشتقات نیز نیازمند پیراسته سازی و استانداردسازی است.

قدم بعدی که در پروژه نظام هوشمند واژگان باید برداشته شود، استخراج توصیفات ارائه شده در کتب لغت از هر واژه است. از آنجایی که مؤلفان کتب لغت، از شیوه واحدی در نگارش کتب خود پیروی نکرده اند، فرایند استخراجِ این توصیفات، فرایندی دقیق و در عین حال، زمان بر خواهد بود که کمک گرفتن از ماشین در انجام این مهم، می تواند سهم بسزایی در کاهش زمان و افزایش دقت داشته باشد.

بحمدالله، آغازبه کارِ پروژه کتابخوان نور و نیاز به آماده سازی فرهنگ «عربی به فارسی» و «عربی به عربی» برای این پروژه، موجب شد تا فرایند استخراج اطلاعاتِ دو کتاب «قاموس المحیط» و «فرهنگ ابجدی»، زودتر از موعد مقرر و در کنار فعالیت های دیگر گروه آغاز شود. به منظور استفاده حداکثری از وقت و بالابردن دقت و کاهش زمان کار محققان، متن این دو کتاب مورد بررسی قرار گرفت و قواعدی برای استخراج ماشینی اطلاعات مبتنی بر علائم ویرایشیِ به کاررفته در دو کتاب به دست آمد و در اختیار همکاران فنی قرار گرفت که هم اکنون مشغول بازبینی اطلاعات استخراج شده هستیم.

در ادامه مسیر، باید مجموعه اطلاعاتِ استخراج شده از کتب لغت را درون بانک اطلاعاتی با ساختار استاندارد قرار داد تا زمینه ای برای تولید یک لغت نامه استاندارد فراهم آید.

مراحل اجراییِ بیان شده، می تواند دورنمایی از پروژه نظام هوشمند واژگان را که از پروژه های طلایی مرکز و با بالاترین اولویت می باشد، در اختیارمان قرار دهد.

نگاه دوم: تکمیل کننده فرایند متن کاوی هستیم

مهندس احمد ربیعی زاده: ضمن تشکر از مجموعه دست اندرکاران فصلنامه ره آورد نور، در خصوص موضوع متن کاوی در مرکز تحقیقات کامپیوتری علوم اسلامی باید عرض کنم که اساساً متن کاوی (Text Mining) یعنی به کارگیری تکنیک های هوشمند پردازش متن جهت کشف اطلاعات نهفته از متون برای کاربردهای مختلف. به طور کلی، متن کاوی، یکی از شاخه های داده کاوی (Data Mining) است که در دو دهه اخیر، پیشرفت های چشمگیری داشته است و با به کارگیری آن در کنار فناوری های دیگری از قبیل پردازش زبان های طبیعی (Natural Language Processing) و یادگیری ماشین (Machine Learning)، فرآورده های بسیار ارزشمندی برای آن قابل تصور خواهد بود.

با توجه به نیازهای موجود در حوزه پردازش متون علوم اسلامی و انسانی در زبان های فارسی و عربی، این تکنیک ها را توسعه داده، برای ارتقای کمی و کیفی محصولات نور، از آنها بهره می بریم. به طور کلی، می توان روال اصلی جریان اطلاعات در مرکز را در سه مرحله ذیل خلاصه نمود:

«ورود اطلاعات» و یا رقومی سازی محتوای موجود در زمینه علومی، از قبیل: قرآن، حدیث، فقه، لغت و علوم انسانی؛
«غنی سازی محتوا» و یا فرآوری متون تولیدشده با به کارگیری متخصصان هر حوزه کاربردی؛
«عرضه محتوای فرآوری شده» در بسترهای مختلف، از جمله: نرم افزارهای تحت ویندوز، موبایل و یا پایگاه های تحت وب.

در گذشته، حجم عظیمی از هر یک از فرآیندهای دو مرحله ابتدایی، به صورت دستی سامان می یافت و امروزه، تلاش ما و تمامی همکاران بر این است که این فرآیند تا جای ممکن، با بهره گیری از تکنیک های هوشمند و به صورت ماشینی انجام شود. به همین جهت، در چند سال اخیر، در مرکز نور بیش از پیش به فناوری های نوین در حوزه متن کاوی بها داده شده و برای پیشبرد کارهای جاری، از آنها بهره برداری می شود.

از جمله اهداف و مزایای به کارگیری این تکنیک ها می توان به موارد ذیل اشاره نمود:

• افزایش سرعت تولید اطلاعات، تصحیح و غنی سازی محتوا و کاهش هزینه های مرتبط؛
• افزایش دقت و کیفیت نهایی محتوا؛
• استخراج دانش و کشف اطلاعات نهفته از متون؛
• ارائه امکانات و محصولات جدید، جهت آسان سازی فرآیندهای بازیابی اطلاعات توسط پژوهشگران.

در ادامه، برای آشنایی هرچه بیشتر با جایگاه تکنیک های هوشمند پردازش متن در فعالیت های مرکز، به معرفی اجمالی نمونه هایی از دستاوردهای مربوطه می پردازیم. برخی از این دستاوردها عبارت اند از:

• اِعراب گذاری خودکار متون؛
• استخراج خودکار آیات از متون؛
• مشابه یابی متون؛
• سیستم های بازیابی اطلاعات و جست وجوی هوشمند؛
• استخراج خودکار اَعلام از متون؛
• استخراج متن از تصاویر متون؛
• دسته بندی موضوعی متون؛
• استخراج خودکار کلیدواژه ها؛
• تجزیه صرفی کلمات عربی؛
• همترازی متن و ترجمه.

نقش متن کاوی در فرآیندهای اصلی مرکز، از همان ابتدای امر با به کارگیری در ورود اطلاعات شروع می شود. برای تولید محتوای دیجیتالی می توان از تکنیک هایی مثل OCR استفاده نمود. در این زمینه، ابزارهای بنامی جهت استخراج متن از تصاویر متون وجود دارند؛ اما به دلیل ضعف آنها در زبان هایی مثل فارسی و عربی و همچنین کیفیت بالای مورد انتظار در نرم افزارهای مرکز، نمی توان به طور مستقیم از داده هایی که از این گونه ابزارها تولید شده اند، در نرم افزارهای مرکز استفاده نمود. به همین دلیل، همکاران ما با فراهم کردن تکنیک هایی بومی و اعمال پردازش های ماشینی متعدد، توانستند کیفیت خروجی این گونه سیستم ها را به حد قابل قبول برسانند. البته حتی در این گونه سیستم های ماشینی هم به منظور بی اشکال بودن متن نهایی، در مورد کلمات مشکوک، اعمال نظر نهایی انسان در حد بسیار محدود مورد نیاز می باشد. مجموعه این ابزار، هم اکنون در سطح آزمایشگاهی در حال تست می باشد و با استقرار نهایی آن در چرخه تولید محتوای مرکز، قادر خواهیم بود در عین حفظ کیفیت مطلوب، سرعت فرآیند تولید محتوا را به شدت افزایش دهیم.

در مورد تصحیح متون، پیش از این، رویه های مختلفی طی می شد و عملیات تصحیح و مقابله صورت می گرفت؛ یعنی ابتدا مثلاً دو نفر یک متن واحد را تایپ می کردند و بعد، سیستم این دو متن را با هم مقابله می نمود و مواردی را که با هم فرق داشت، گزارش می داد و همکاران ما باید موارد گزارش شده را بررسی نموده، مورد صحیح را انتخاب می کردند و پس از آن نیز رویه هایی جهت تصحیح کل فهرست غیرتکراری کلمات طی می شود. مجموعه این روش ها، در مقایسه با یک بار تایپ، از کیفیت بالاتری برخوردار می باشد؛ اما به هر حال، این مراحل نیز از نظر زمانی و هزینه ای، مطلوب نمی باشد. در حال حاضر، کار خوبی معاونت تهران انجام داده و آن، نرم افزار ویراستیار است که کاربر می تواند با استفاده از این ابزار، متن خودش را تصحیح کند و خطاها و اشکالات متنش را کشف و اصلاح نماید. البته این نرم افزار در متون فارسی کوتاه کاربرد دارد و با توجه به اینکه درصد بالایی از متون مرکز، عربی و در حجم بالا می باشد، نیازمند برنامه ای خاص برای این منظور بودیم. ازاین رو، بحث تصحیح متون را به صورت ماشینی دنبال کردیم که بحمدالله تاکنون پیشرفت های خوبی هم داشته ایم و ان شاءالله به این سَمت پیش می رویم که تصحیح دستی نداشته باشیم یا آن را به حداقل برسانیم؛ زیرا کشف خطا و تصحیح دستی و موردی اغلاط توسط انسان، فرآیند بسیار پُرهزینه و زمان بری خواهد بود و در نهایت نیز احتمال خطا برای کار انسان وجود دارد. البته این پروژه، فعلاً در مرحله آزمایشی است و هنوز به مرحله بهره برداری نهایی نرسیده است.

آن گاه، بحث غنی سازی و فرآوری متون مطرح می شود و با توجه به حجم عظیم داده های نور که روزبه روز نیز افزایش می یاید و نیز گستره مخاطبان محصولات نور و انتظاراتی که از نرم افزارهای مرکز دارند، نیاز به استفاده از فنون متن کاوی برای تولید متون غنی، بیش از پیش احساس می شود.

به طور مثال، در مورد فرآیند اِعراب گذاری، برای سهولت کاربر در جهت شناسایی معنای اصلی کلمه با توجه به اِعراب متن، در گذشته محققان ما باید به صورت دستی کلمات احادیث و سایر متون را اِعراب گذاری می کردند که این فرآیند، طبیعتاً بسیار وقت گیر و پُرهزینه بود و احتمال خطای انسانی نیز در آن وجود داشت؛ اما با استفاده از فناوری های جدید و یادگیری ماشین از دیتای آماده شده انسانی، توانسیتم این روند را در زمان خیلی کوتاه تر و با کیفیت بالاتر تحقق بخشیم.

بحث شناسایی آیات، از دیگر کاربردهای متن کاوی در زمینه غنی سازی اطلاعات متون است. یکی از نیازهای برنامه های دسکتاپی مرکز، این بود که آیات در متون مشخص می شدند تا کاربر بتواند در بخش نمایش، از این امکان استفاده کند و همچنین با استفاده از بخش «آیات در کتب»، موارد اشاره شده به آیه مورد نظر را از بین متون کتب استخراج کند. شما تصور کنید که مثلاً در متون تفسیری در هر صفحه از کتاب، یک یا چند آیه از قرآن به کار رفته باشد. در این گونه موارد، در صورت عدم وجود نشانه های خاص از آیه بودن متن، محقق ما باید متن را مطالعه می نمود و زمان بسیاری را صرف می کرد تا آیات را تشخیص دهد و آنها را در متن مشخص نموده، فرمت بزند؛ اما با ماشینی شدن این نیاز، هم اکنون با صرف زمان اندک قادر خواهیم بود حتی در صورت تفاوت نگارشی و رسم الخط، آیات را به صورت خودکار شناسایی و نشانی گذاری کنیم.

البته باید عرض کنم که در اغلب موارد، مسائل متن کاوی نور، به دو نوع دیدگاه خاص نیاز دارد: 1. شناخت ماهیت علمی آن مسئله در حوزه کاربردی خاص و حتی در برخی موارد استخراج قوانین و قواعد مربوطه، مثل: ادبیات، حدیث، تفسیر، فقه و اصول فقه؛ 2. شناخت تمامی ابعاد تکنیک های پردازش هوشمند در مورد آن مسئله. در برخی مسائل نیز باید متون مورد نظر ابتدا توسط پژوهشگران حوزه مربوطه، مثلاً علوم اسلامی و متخصصان ادبیات عرب، غنی سازی شود و پیکره و دادگان مورد نیاز برای پردازش های هوشمند مهیا گردد؛ مانند کاری که در موتور صرفی نور انجام شد.

در این موتور، به دنبال این مطلب بودیم که ماشین به طور خودکار و بدون دخالت انسان، بتواند تجزیه صرفی کلمه را تشخیص دهد. شناسایی و تجزیه ساخت واژی کلمه، از جمله پیش نیازهای بسیاری از پردازش های هوشمند به شمار می آید. دستاورد این کار، برای اوّلین بار خود را در قسمت جست وجوی نرم افزارهای دسکتاپی مرکز، از جمله جامع الأحادیث نشان داد؛ به این صورت که با زدن تیک مربوط به پیراسته سازی، سیستم با دانشی که در مورد تجزیه صرفی کلمات دارد، از پیشوندها و پسوندهای کلمات متون و کلمات جست وجوی کاربر صرف نظر کرده و در نتیجه، این قابلیت برای کاربر فراهم می آمد که اشکال گوناگون کلمه در دامنه جست وجوی او قرار گیرد و به نوعی کنترل شده و محدود تحقیق کاربر گسترش یابد.

از دیگر کاربردهای پیراسته سازی کلمات، شناسایی هسته کلمه و اتصال کلمه به مدخل مربوطه از کتاب لغت می باشد که از قابلیت های بسیار کاربردی به شمار می آید و در آینده ای نزدیک، در نرم افزارهای نهایی ارائه خواهد شد.

پیش از این، برای اتصال بین کلمات متن و معنای متناظر آنها در داخل لغت نامه، بانکی تهیه شده بود مبنی بر اینکه هر کلمه، چه ریشه ای دارد و بر اساس این اندوخته و فهرست کلمات، کاربر نهایی به مدخل مربوطه در لغت نامه منتقل می شد. چون این بانک، به صورت دستی تهیه شده بود، همه کلمات را پوشش نمی داد و کامل نبود و حتی در موارد محدودی، اشتباه بود که البته این مقدار اشتباه، در کارهای دستی اجتناب ناپذیر بوده است. با این حال، در صورت برقراری اتصال صحیح بین کلمه متن و مدخل کتاب لغت، کاربر نهایی، خود باید روند فهم معنا در لغت نامه را به صورت دستی دنبال می کرد و از بین مشتقات مربوطه ذیل آن ریشه، مشتق مورد نظرش را پیدا می کرد.

برای حل این مشکل، با زحمات بسیاری که پژوهشگران و متخصصان متن کاوی مرکز نور کشیدند، موتور صرفی پیاده سازی شد که به صورت ماشینی، ریشه صرفی واژگان را استخراج می کند و ریشه های مرتبط با واژه مذکور را به کاربر پیشنهاد می دهد و با وجود قابلیت پیراسته سازی وندها، ارتباط بین کلمه متن و مدخل کتاب لغت به شکل خودکار و فراگیر تحقق پیدا خواهد کرد.

کاربرد دیگری که موتور تجزیه صرفی نور دارد، هماهنگ سازی کلیدواژگان است که در نرم افزارهای معجم موضوعی، از این قابلیت استفاده شده است؛ چون گاهی کلیدواژه ای به شکل های مختلف در متن آمده است، گاهی مفرد است، گاهی جمع و در بعضی موارد نیز تثنیه است و یا با پیشوند یا پسوند خاص آمده است. با کمک این موتور، در کنار مشابه یابی لفظی کلمات و بهره گیری از بانک لغات مترادف، توانستیم این کلیدواژگان را در قالبی واحد، یکپارچه و دسته بندی کنیم.

از دیگر ارزش های متن کاوی، این است که با به کارگیری فناوری های جدید، قابلیت ها و ارزش افزوده های جدیدی قابل تصور خواهند بود که تا کنون وجود نداشته است؛ مثلاً سیستم کشف تقلب که هم اینک در پایگاه سمیم نور پیاده سازی شده است، از جمله نمونه های به کارگیری پردازش هوشمند متون است که تصور چنین سیستمی برای کشف استناددهی بدون ذکر منبع با استفاده از انبوهی از مقالات در کمترین زمان ممکن، بدون به کارگیری تکنیک های نوین متن کاوی امکان پذیر نیست. با استفاده از این سامانه، کاربر قادر خواهد بود استناددهی میان مقالات را مورد بررسی قرار دهد، سرقت های علمی و ادبی یک مقاله را شناسایی کند و در مقالات مشابه یک مقاله، به پژوهش بپردازد.

بحث خوشه بندی اسناد متنی و شناسایی اسناد مشابه، با تلاش همکاران ما در ابتدای امر در نرم افزار جامع الأحادیث و در بخش «احادیث مشابه» به کارگرفته شد و به دلیل کاربردی بودن آن، با استقبال زیاد پژوهشگران این حوزه مواجه گردید. کشف دستی نسخه های متعدد یک حدیث نیز به صورت فراگیر قابل تصور نیست و خیلی هزینه بر و وقت گیر است. با استفاده از این قابلیت، پژوهشگر حدیثی قادر خواهد بود تمامی نسخه های تقریباً برابر با یک حدیث را یکجا بررسی کرده، روند نقل یک حدیث در طول تاریخ را مورد کاوش قرار دهد و بدین ترتیب، حتی زمینه برای شناسایی اوّلین روایتگر یک حدیث نیز در طول تاریخ وجود دارد. این مقوله نیز رهاورد به کارگیری فناوری های ماشینی متن کاوی است که البته فاز نخست کار، کشف احادیث مشابه از نظر لفظی است و ما در حال توسعه این محصول می باشیم و می خواهیم در گام بعدی، از لایه های لفظ عبور کنیم و به سمت معنا برویم و سامانه مشابه یابی نور را در حوزه معنایی نیز پدید آوریم و احادیثی را که از نظر مفهومی نیز مشابه حدیث انتخابی کاربر است، گزارش بدهیم؛ چون خیلی اوقات هست که روایتی از نظر لفظی، کاملاً با روایت دیگر متفاوت است؛ ولی از نظر معنایی، دقیقاً به یک مفهوم اشاره می کنند. این اقدام، جهشی در حوزه داده پردازی متون علوم اسلامی به شمار می رود و خیلی به ما و محققان کمک می کند. ان شاءالله در آینده به کمک این قابلیت، دریچه جدیدی را فراسوی مخاطبان محصولات نور خواهیم گشود.

یکی دیگر از دستاوردهای متن کاوی، موتور جست وجو نور می باشد که فعلاً در محصولات برخط ما، از جمله پایگاه نورمگز، بروز پیدا کرده و با تلاش همکارانمان، امیدواریم به زودی در نرم افزارهای دسکتاپی نیز بتوانیم از آن بهره مند شویم؛ همان طورکه می دانید، موتورهای جست وجو سهم بسزایی در پژوهش و بازیابی اطلاعات ایفا می کنند.

در اینجا به چند نمونه از قابلیت های اصلی این موتور اشاره می کنم؛ همانند امکان پیراسته سازی در جست وجوی نرم افزار جامع الأحادیث. این قابلیت، به صورت پیش فرض در این موتور جست وجو اعمال می شود و جست وجوی کاربر در کنار جست وجوی دقیق عبارات کاربر، قادر است از وندهای کلمات جست وجوشده توسط کاربر و کلمات متون صرف نظر کرده و فرآیند جست وجو را به صورت فراگیر انجام دهد. از دیگر قابلیت های آن می توان به انعطاف در برابر خطای املایی کاربر و محتوای متون اشاره کرد که با تلاش همکاران ما این قابلیت هم اکنون در حال توسعه و بهبود می باشد. ویژگی دیگر، بهبود معیار رتبه بندی نتایج در این موتور جست وجوست؛ با این تفاوت که در اینجا قابلیت مذکور برای زبان فارسی پیاده سازی شده است و با وجود این قابلیت ها، کاربر با صرف کمترین زمان در سامانه، به محتوای مورد نظر خود هدایت می شود. در همین راستا، این امکان فراهم آمده که به ازای هر مقاله، مقالات مرتبط با آن نیز ارائه شوند. مقالات مرتبط، به دو گونه شناسایی می شوند؛ در شیوه اوّل، بر اساس تشابه لفظی عناوین مقالات، مقاله های مرتبط شناسایی می شوند و در شیوه دوم، بر این اساس که کاربران دیگری که این مقاله را خوانده یا دانلود کرده اند، چه مقالات مرتبط دیگری را مطالعه یا دریافت نموده اند، امر شناسایی صورت می گیرد. اگر تعداد رخداد این موضوع بالا باشد، درصد قابل قبولی از اطمینان بخشی را به ما می دهد که این مقاله با چه مقالاتی ارتباط نزدیک دارد. چنین قابلیتی، نتیجه داده کاوی متون و تحلیل متنی است که توسط گروه متن کاوی مرکز در معاونت پژوهشی و فنی انجام شده است.

استخراج خودکار کلیدواژگان متن، از جمله دستاوردهای دیگر تحلیل هوشمند متون است که فعلاً در پایگاه حوزه نت به کارگرفته شده است و محقق می تواند به کمک این قابلیت، پژوهش خود را به سایر مقالات و متون مرتبط گسترش بدهد. چالش موجود در بحث استخراج کلیدواژه از متون، در معتبربودن کلیدواژه از نظر لفظی و زبان شناسی، خود را نشان می دهد؛ چراکه در حالت ساده ممکن است برخی کلیدواژه های پیشنهادی سیستم، معتبر نباشند یا ناقص باشند؛ مثل عبارت «سبک زندگی» که در آن، هریک از واژگان به تنهایی، معنای مورد نظر ما را ندارند و فقط وقتی با هم جمع می شوند، مفهوم خاصی را می رسانند و سیستم باید مجموعه آنها را در کنار هم به عنوان کلیدواژه پیشنهاد دهد. در اینجا سیستم با استفاده از تحلیل های پیچیده زبان شناسی، از جمله تحلیل کسره اضافه، سعی می کند عبارت صحیح و کامل را به محقق پیشنهاد بدهد.

از دستاوردهای دیگر، همترازی ماشینی متن و ترجمه است. در برخی نرم افزارهای نور، بخشی به نام «متن و ترجمه» یا «متن و شرح» وجود دارد. گاهی برخی کتب، ترجمه های متعدد دارند و محقق نیاز دارد یک قسمت از یک کتاب را در کنار چند ترجمه بررسی کند؛ برای برطرف کردن این نیاز، پیش تر این پیوند و ارتباط میان قسمت های متن اصلی و ترجمه یا شرح آن، به صورت دستی انجام می شد که این کار، زمان بسیاری از اُپراتورها خواهد برد. بحمدالله، امکان این کار نیز به همت همکاران ما در متن کاوی به شکل ماشینی فراهم شده تا کاربر با کیفیت بیشتر و سریع تر به ترجمه یا شرح متن مورد نظر خویش دسترسی داشته باشد. این قابلیت، به طور خاص، در نرم افزار کتابخوان نور در حال توسعه است تا بتوانیم پاسخگوی نیاز محققان و کاربران در این زمینه باشیم.

از دیگر غنی سازی های ممکن بر روی متون، مشخص کردن اَعلام و اسامی خاص یا به طور کلی، موجودیت های اسمی است؛ این موضوع، از این نظر اهمیت پیدا می کند که غالباً اسم افراد و یا مکان ها، نقش ویژه ای در پژوهش ها ایفا می کنند و به همین دلیل، مشخص بودن آنها برای کاربر، می تواند در گسترش صحیح دامنه پژوهش به آنها کمک کند. همچنین، این قابلیت می تواند خدمتی کاربردی برای ناشران باشد و با استفاده از آن قادر خواهند بود اَعلام پایانی کتب را با سرعت و دقت بالا تنظیم کنند. به هر حال، امیدوار هستیم در آینده ای نزدیک بتوانیم این قابلیت را در برخی نرم افزارها و پایگاه ها از قبیل کتابخانه دیجیتال نور (نورلایب) به کارگیریم.

یکی دیگر از شاخه های مرتبط با متن کاوی یا به عبارت بهتر، پردازش زبان های طبیعی، پردازش صوت است که فعلاً با توجه به اولویت محتوای متنی، در این مسیر گام برنداشته ایم؛ چون هنوز در حوزه متن و داده کاوی متون اسلامی، کارهای بسیاری داریم که باید انجام دهیم و بعد از این، می توانیم به سوی پردازش صوت هم پیش برویم؛ مثلاً بحث همترازی میان صوت و متن، در پژوه هایی مثل نرم افزار «حافظ»، به صورت دستی انجام شده و ارتباط بین قطعه های صوتی و محدوده های متن، برقرار گردیده است که باید ان شاءالله در برنامه های آینده مان، به این مقوله هم بپردازیم و تطبیق بین متن و صوت را در تولیدات خودمان به صورت ماشینی انجام دهیم تا با صرف وقت و هزینه کمتر بتوانیم این امکان را در حجم بالایی از منابع پیاده سازی کنیم.

در پایان، به نوبه خود، از زحمات تمامی همکارانی که در جهت بهبود فرآیندهای پژوهش در حوزه علوم اسلامی تلاش می کنند، تشکر می کنم. باید اضافه کنم که نمونه عملیاتی برخی از این دستاوردها و اخبار مربوطه نیز در پایگاه متن کاوی نور به نشانی: http://textmining.noorsoft.org قابل مشاهده و استفاده عموم می باشد.