فصلنامه شماره 34 (بهار 1390)
سال دهم / پیاپی 51
«ویژه نامه سمینار فناوری های پردازش هوشمند متون اسلامی»
چکیده
در این گزارش، سعی شده است تا یکی از تکنیکهای موفق در زمینه ردهبندی متون را برای متون فارسی به کار بندیم. به عنوان تعریفی ساده از ردهبندی متون، میتوان روند شناسایی رده یا طبقه یک متن ناشناخته را بیان نمود. در این روش ما با استفاده از روش ردهبندی K نزدیکترین همسایه(1) و دو معیار فاصله متون، آزمایشهای خودمان را انجام دادهایم. یکی از این دو معیار، الگو گرفته از نوعی ردهبندی متون زبان عربی[4] بوده و دیگری، معیار ترکیبی تولید شده خودمان است. مجموعه آزمایشها بر روی پیکره همشهری[1] است. این دو نوع فاصلهسنجی، هر کدام با الگوریتم نزدیکترین همسایه ترکیب شده و ردهبند 1 تا 20 نزدیکترین همسایه را برای آزمایشهای ما آماده کردهاند. نتایج ما نشان میدهد که این روش میتواند با دقت(2) 89% عمل ردهبندی را انجام دهد.
- نویسنده: محمد حسين الهيمنش؛ دانشجوی ارشد هوش مصنوعی دانشکده مهندسی برق و کامپیوتر دانشگاه آزاد اسلامی قزوین/کارشناس گروه پژوهشی متنکاوی نور، دکتر بهروز مينايي؛ استادیار دانشکده مهندسی کامپیوتر دانشگاه علم وصنعت ایران/دبیر هیأت علمی مرکز تحقیقات كامپيوتري علوم اسلامی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید
اشاره
نرمافزار «ویراستیار»، یک خطایاب املایی متنباز (open source) فارسی است که نسخۀ اول آن در زمستان سال گذشته عرضه شد و به کاربر خود این امکان را میدهد که متن نگاشته شدۀ فارسی در محیط مایکروسافت وُرد را اصلاح کند. اگر چه این نرمافزار هنوز هم در حال توسعه و تجدید ویراست است و از زمان رونمایی آن در زمستان 1389 تاکنون، به ویژگیها و قابلیتهای آن افزوده شده است، اما نهاد توسعه دهندۀ آن، یعنی دبیرخانۀ شورای عالی اطلاعرسانی ترجیح داده است تا آن را به صورت متن باز عرضه کند تا باب همافزایی در این حوزه را باز کند.
- نویسنده: امید کاشفی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید
چکیده
در این مستند، به یکی از دغدغه های بزرگ در زمینه زبانشناسی محاسباتی(1) با نام برچسبگذاری ادات سخن (part of speech tagging) پرداخته شده است. برچسبگذاری ادات سخن که یکی از پایهایترین نیازهای پردازش هوشمند متن به شمار میآید، وابسته به زبان متن مورد پردازش است. از این رو، فراهم شدن برچسبگذاری قوی برای زبان فارسی، جزو اولویتهای کار ما قرار گرفت. تکنیک مورد کاربرد ما برای حل این مسأله، استفاده ازمدل مخفی مارکوف(2) بوده است. این تکنیک در بسیاری از شیوه های برچسبگذاری به کاربرده میشود؛ برای نمونه، در برچسبگذار TNT[2] که یکی از قویترین برچسبگذارها در زبانهای مختلف است[4, 5, 8]. طبق آزمایشهای انجام شده ما، با استفاده از این برچسبگذار میتوان با دقت 94.3% برچسب گونه صرفی کلمات فارسی را مشخص نمود.
- نویسنده: محمدحسین الهیمنش؛ دانشجوی کارشناسی ارشد هوش مصنوعی دانشکده مهندسی کامپیوتر دانشگاه آزاد اسلامی قزوین/ کارشناس گروه پژوهشی متنکاوی نور این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید ، دکتر بهروز مینایی؛ عضو هیأت علمی دانشگاه علم وصنعت ایران/ دبیر هیأت علمی مرکز تحقیقات کامپیوتری علوم اسلامی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید
چکیده
با گسترش روزافزون حجم اطلاعات، نیاز به سیستمهای کامپیوتری جهت پردازش و تحلیل اطلاعات بیشتر احساس میشود. از آنجا که درصد قابل توجهی از اطلاعات تولید شده به صورت متنی غیر ساختار یافته(1) و نیمهساختار یافته(2) است، سیستمی که بتواند این اطلاعات را تحلیل و پردازش کند، بهشدت مورد توجه قرار خواهد گرفت. یکی از انواع سیستمهایی که در تحلیل و پردازش متون وجود دارد، سیستمهای خلاصهساز متن(3) است که حجم زیادی از متن را دریافت نموده و بر اساس الگوریتمها و تکنیکهای مختلف، آن را خلاصه مینماید. این مقاله به معرفی فرآیند خلاصهسازی متون فارسی میپردازد.
- نویسنده: دکتر بهروز مینایی؛ عضو هیأت علمی دانشگاه علم و صنعت ایران/ دبیر هیأت علمی مرکز تحقیقات کامپیوتری علوم اسلامی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید ، احسان براتی؛ کارشناسی ارشد مهندسی فناوری اطلاعات دانشگاه قم این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید