اشاره

حدیث، از منابع متنی مهم در استنباط آموزه های شرعی، عقیدتی و اخلاقی در اسلام است. فزونی منابع حدیثی و ضرورت استفاده از آن در شناخت احکام اسلام، استفاده از فنون خودکار استخراج دانش از متون حدیثی را ضرورت می‏ بخشد. خصوصیات زبانی ویژه متون حدیثی (زبان عربی قدیم و متون روایت‏گونه)، مستلزم گردآوری و بهره گیری از شیوه های خاص پردازش زبان طبیعی شده است که در متون و زبان‏های دیگر استفاده از چنین پردازش‏های خاص نبوده است. در این مقاله، نخست استخراج خودکار دانش بر پایه فنون متن‏ کاوی بیان، و پژوهش‏های انجام شده برای استفاده از این شیوه ها در استخراج دانش از متون حدیثی، بررسی می‏ شود.

منتشرشده در فصلنامه شماره 60
چهارشنبه, 31 خرداد 1396 ساعت 15:30

استخراج مفهوم در داده کاوی

مقدمه

استفاده از رایانه در امور مختلف، باعث شده تا داده های بسیاری با سرعت های زیاد در پایگاه داده ها انباشته و ذخیره شوند. پردازش این داده های حجیم، خارج از توان انسان است. تلاش های فراوانی تاکنون انجام شده است تا نرم افزارها و سخت افزارها توسعه پیدا کنند و تولید، ذخیره و انتقال داده ها انجام گردد؛ اما تجزیه و تحلیل این حجم از داده ها توسط رایانه ها، بعد از ذخیره و پردازش، تاکنون انجام نشده است. داده ها در عصر حاضر، قلب تپنده هر سازمان را تشکیل می دهند و هر روز به میزان داده ها در سیستم های اطلاعاتی افزوده می شود. در واقع، سازمان ها در اطلاعات غرق شده اند؛ درحالی که تشنه دانش هستند. این امر، نشانگر آن است که سازمان ها نتوانسته اند از دانش درون داده ها به نحو مناسب استفاده نمایند. در درون حجم عظیمی از داده ها، الگوها و روابط بسیاری میان پارامترهای مختلف به صورت پنهان باقی می ماند که برای برنامه ریزی های استراتژیک و طولانی مدت می تواند حیاتی باشد. بنابراین، نیاز به ابزاری است تا داده ها را به گونه ای پردازش کند تا دانش حاصل از آن را در اختیار تصمیم گیران سازمان قرار دهد. یکی از راهکارهایی که امروزه در این زمینه ایجاد و در حال گسترش است، داده کاوی(1) است. داده کاوی، فرآیند کشف دانش پنهان درون داده هاست که با توصیف، تشریح، پیش بینی و کنترل پدیده های گوناگون پیرامونی، دارای کاربرد بسیار وسیعی در حوزه های مختلف است؛ به گونه ای که مرز و محدودیتی برای کاربرد آن در نظر گرفته نشده و زمینه های کاربردی آن را از ذرات کف اقیانوس تا اعماق فضاء می دانند (شهرابی، 1386).

منتشرشده در فصلنامه شماره 58

چکیده

غنی سازی محتواهای علوم انسانی و اسلامی، از اهمیت ویژه ای برخوردار است. استفاده از شبکه واژگانی، از مهم ترین راهبردهای تحقیقاتی در رشته های مرتبط با علوم انسانی است. شبکه واژگانی، مجموعه ای از کلمات است که به واسطه ارتباطات معنایی به یکدیگر متصل شده و در سطحی جامع تر از یک لغت نامه در یادگیری یا استخراج اطلاعات مورد نیاز محققان کاربرد دارد. روند فعالیت در دستیابی خودکار به یک شبکه واژگانی منسجم، در گرو پردازش لفظی و پردازش معنایی بر اساس متن کاوی داده های عربی در منابع زبانی دقیق و مناسب است. استفاده از فرآیند ماشینی در هر یک از این مراحل پردازش و یافتن منابع عربی دقیق علوم اسلامی، با چالش های مختلفی رو به رو بوده که در این مقاله، به بررسی برخی جزئیات این طرح، به ویژه بر اساس دادگان موجود در مرکز تحقیقات کامپیوتری علوم اسلامی و روش مقابله با چالش ها پرداخته شده است.

منتشرشده در فصلنامه شماره 57
پنج شنبه, 27 اسفند 1394 ساعت 15:03

ابهام زدایی هوشمند صرفی نور

چکیده

یکی از چالش های پیش روی پردازش زبان طبیعی زبان عربی، رفع ابهام میان تحلیل های صرفی ممکن یک کلمه به تناسب جایگاه آن کلمه در جمله است. یک تحلیلگر صرفی، به ازای هر کلمه ورودی، ممکن است بیشتر از یک جواب صرفی داشته باشد. تشخیص اینکه کدام یک از تحلیل های ممکن، تحلیل صحیح کلمه مورد نظر است، توسط ابزارهای رفع ابهام صورت می گیرد. این مقاله، به یکی از قوی ترین ابزارهای رفع ابهام اشاره می کند که به صورت خاص، برای تحلیلگر صرفی نور (Noor Morphological Analyzer) طراحی شده است. این ابزار که ابهام زدای صرفی نور (Noor Morphological Disambiguation) نامیده شده، ترکیبی از الگوریتم های یادگیری و قاعده محور است. آزمایش های این تحقیق نشان می دهد که رفع ابهام صرفی نور می تواند با دقت 88 درصد خروجی های تحلیلگر صرفی نور را رفع ابهام نماید.

منتشرشده در فصلنامه شماره 53

چکیده

به دست آوردن سیر اشتقاق تصریف از ریشه تا کلمه، پیداکردن کلمات مرتبط و در نهایت، تشکیل خانواده کلمات مربوط به هم، شرایط مساعدی را برای محققان پردازش زبان طبیعی فراهم می کند تا بتوانند از مرحله لفظ به دامنه وسیع لغات هم معنا، آنتولوژی، شبکه معنایی، تحلیل محتوا و در نهایت، درک معنا قدم بگذارند. در این بین، ساخت درخت سلسله مراتبی کلمات مرتبط با هم از ریشه(صرفی) تا برگ(کلمات متن)، اهمیت بسزایی دارد. در این مقاله، به چندین فایده از فواید «تحلیلگر صرفی نور» اشاره شده است. بعضی از این موارد، عملیاتی شده و هم اکنون در حال استفاده هستند و بعضی دیگر نیز نزدیک به اجرا می باشند. از جمله این موارد، بهره برداری در شناسایی خودکار سیر اشتقاق تصریف و تشکیل درخت سلسله مراتبی می باشد. عناصر داخل این درخت، همگی توسط تحلیلگر صرفی نور تولید می گردند. بعد از آن، عملیات دسته بندی و در نهایت ایجاد درخت مذکور صورت می پذیرد. تمام مسیرهای موجود از برگ ها تا ریشه، موضوعیت دارند که در این نوشتار به چند فایده از آن اشاره شده است.

منتشرشده در فصلنامه شماره 53
یکشنبه, 31 خرداد 1394 ساعت 14:52

متن کاوی نور از نگاه پژوهشی و فنی

اشاره

مرکز تحقیقات کامپیوتری علوم اسلامی، در بیش از بیست سال فعالیت خود، تاکنون توانسته است با رقومی نمودن منابع مکتوب، حجم عظیمی از دادگان متنی را فراهم آورد. در مرحله بعد، به فرآوری و غنی سازی متون پرداخت و سپس با به کارگیری فناوری های رایانه ای، محیط پژوهشی مناسبی را در ارائه محتوای این متون به گونه ای کارآمد ایجاد نمود و در این مسیر، همواره به توسعه این امکانات می اندیشد. روایات مشابه، صرف ماشینی، برچسب گذاری، خلاصه ساز، خوشه بندی، اِعراب گذاری، رده بندی متن و نیز تحلیل صرفی و نحوی قرآن، از جمله محصولات نور است که تا کنون در حوزه متن کاوی تولید و عرضه شده است.

نظر به جایگاه و اهمیت بحث متن کاوی (Text Mining) در پردازش و تحلیل اطلاعات، خاصه مقوله جدید نظام هوشمند واژگان، مناسب دیدیم گفت وگویی با متولیان این امر در مرکز تحقیقات کامپیوتری علوم اسلامی داشته باشیم. حجت الاسلام مسیح توحیدی، مدیر گروه ادبیات و متن کاوی معاونت پژوهشی، و مهندس احمد ربیعی زاده، مسئول بخش متن کاوی معاونت فنی، هر یک از منظر حوزه کاری و حیطه فعالیت خویش، توضیحات مفیدی را در این باره ارائه نمودند که امید است مورد استفاده علاقه مندان و کارشناسان قرار گیرد.

منتشرشده در فصلنامه شماره 50

اعراب گذاری متون عربی کار با سابقه ای است و پیشینه آن به صدر اسلام باز می گردد. مشهور این است که اصول نقطه گذاری واعراب قرآن را ابوالاسود دوئلی به دستور امام علی ابن ابیطالب پایه گذاری کرده است. با وجود اینکه عربی، زبان مادری عربها بوده است، ولی آنان بر درست نویسی و درست خوانی متن قرآن کریم اهتمام ویژه ای داشته اند و ائمه دین هم بر این مسئله تأکید می نموده اند؛ چنان که وقتی کسی قرآن را نزد امیر مؤمنان(ع) به غلط خواند، حضرت به ابوالاسود دوئلی دستور داد تا اصول نحو عرب را تدوین نماید، که با راهنمایی آن حضرت(ع) و به کوشش ابوالاسود پایه بنیادین و اصول نحو عرب شکل گرفت.

گفته می شود نخستین نظام اعراب گذاری که در نظر گرفته شد، عبارت از این بود که فتحه (زبر) با گذاردن یک نقطه بالای حرف، و کسره (زیر) باگذاردن یک نقطه زیر حرف، و ضمه (پیش) با گذاردن یک نقطه در داخل شکل حروف نشان داده و روی حرف ساکن نیز دو نقطه می گذاشتند. این اقدام اوّلین گام در پیدایش علم نحو و ادبیات عرب محسوب میشود.

منتشرشده در فصلنامه شماره 06
یکشنبه, 30 آذر 1393 ساعت 15:32

کاربرد متن کاوی در سازمان دهی دانش

چکیده

سازمان دهی دانش و متن کاوی، در بازیابی دقیق اطلاعات کاربرد بسیاری دارند. از این رو، متن کاوی می تواند کارکردهای بسیاری در بهبود سازمان دهی دانش داشته باشد. اگرچه متن کاوی، به ویژه در بخش یادگیری ماشینی و به دست آوردن اسناد و نمونه های آموزشی، نیازمند نظام های اصطلاح نامه، طبقه بندی، فهرست نویسی و نمایه سازی است، سازمان دهی برای تسریع کار خود، نیازمند فنون متن کاوی و نتیجه کارهای آن خواهد بود تا هم سرعت کار خویش را افزایش دهد و هم هزینه هایش را بکاهد. در این نوشتار، به کارکردهای متن کاوی در حوزه سازمان دهی دانش پرداخته خواهد شد.

منتشرشده در فصلنامه شماره 48

چکیده

با گسترش روزافزون حجم اطلاعات، نیاز به سیستم‌های کامپیوتری جهت پردازش و تحلیل اطلاعات بیشتر احساس می‌شود. از آنجا که درصد قابل توجهی از اطلاعات تولید شده به صورت متنی غیر ساختار یافته(1) و نیمه‌ساختار یافته(2) است، سیستمی که بتواند این اطلاعات را تحلیل و پردازش کند، به‌شدت مورد توجه قرار خواهد گرفت. یکی از انواع سیستم‌هایی که در تحلیل و پردازش متون وجود دارد، سیستم‌های خلاصه‌ساز متن(3) است که حجم زیادی از متن را دریافت نموده و بر اساس الگوریتم‌ها و تکنیک‌های مختلف، آن را خلاصه می‌نماید. این مقاله به معرفی فرآیند خلاصه‌سازی متون فارسی می‌پردازد.

منتشرشده در فصلنامه شماره 34

چکیده

در این مستند، به یکی از دغدغه‏ های بزرگ در زمینه زبان‏شناسی محاسباتی(1) با نام برچسب‏گذاری ادات سخن (part of speech tagging) پرداخته شده است. برچسب‏گذاری ادات سخن که یکی از پایه‏ای‏ترین نیازهای پردازش هوشمند متن به شمار می‏آید، وابسته به زبان متن مورد پردازش است. از این رو، فراهم شدن برچسب‏گذاری قوی برای زبان فارسی، جزو اولویت‌های کار ما قرار گرفت. تکنیک مورد کاربرد ما برای حل این مسأله، استفاده ازمدل مخفی مارکوف(2) بوده است. این تکنیک در بسیاری از شیوه‏ های برچسب‏گذاری به کاربرده می‏شود؛ برای نمونه، در برچسب‏گذار TNT[2] که یکی از قوی‌ترین برچسب‏گذارها در زبان‏های مختلف است[4, 5, 8]. طبق آزمایش‌های انجام شده ما، با استفاده از این برچسب‏گذار می‏توان با دقت 94.3% برچسب گونه صرفی کلمات فارسی را مشخص نمود.

منتشرشده در فصلنامه شماره 34
صفحه1 از3
شما اينجا هستيد:خانه نمایش موارد بر اساس برچسب: متن کاوی