ره آورد نور

Skip to content

شبکه ها و پردازش زبان طبیعی

جمعه, 30 شهریور 1397 ساعت 16:24

نویسنده:

دراگومیر رادف، دانشگاه میشیگان، این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید ؛ رادا میهالسی، دانشگاه تگزاس شمالی، این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید ؛ ترجمه: بهروز یل، کارشناسی ارشد علم اطلاعات و دانش شناسی دانشگاه خوارزمی تهران

اندازه قلم کاهش اندازه قلم افزایش اندازه قلم
چاپ
پست الکترونیکی

این مورد را ارزیابی کنید

1
2
3
4
5

(0 رای‌ها)

اشاره

در طول چند سال گذشته، برخی از حوزه های پردازش زبان طبیعی کار خود را با به کارگیری فنون تصویرمبنا آغاز کرده اند. این حوزه ها در کنار سایر موارد، شامل: خلاصه سازی متن، تجزیه نحوی، عدم ابهام معنای کلمه، ایجاد هستی شناسی، تجزیه و تحلیل احساسات، تجزیه و تحلیل ذهنیت و خوشه بندی متن می باشد. در این مقاله، برخی از موفّق ترین بازنمون ها و الگوریتم های تصویرمبنا را که در پردازش زبان مورد استفاده قرار می گیرد، ارائه می دهیم و سعی می کنیم ساز و کار عمل آنها را شرح دهیم.

1. مقدمه

واحدهای زبانی در یک متن یکپارچه ـ فارغ از اینکه کلمات، عبارات یا جملات کامل هستند ـ به طُرُق گوناگونی با هم مرتبط هستند که به مفهوم کلّی متن کمک می کند و ساختار یکپارچه متن و یکپارچکی گفتار را حفظ می نماید. از روزهای نخستین هوش مصنوعی، شبکه های پیوندی و معنایی به عنوان بازنمون هایی پیشنهاد شدند که قادر به ذخیره سازی چنین واحدهای زبانی هستند و رابطه هایی که آنها را به هم متّصل می کنند و انواع فرآیندهای استنباط و استدلال را امکان پذیر می سازد و برخی از عملکردهای ذهن انسان را شبیه سازی می کنند. ساختارهای رمزی که از این بازنمون ها پدیدار می شود، به طور طبیعی با نمودارها منطبق هستند که در آن سازه های متن به عنوان رأس ها [قلّه ها](1) ارائه می شوند و رابطه های مرتبط، لبه ها را در نمودار ایجاد می کنند.

در دهه گذشته، تعدادی مقاله پژوهشی قابل توجّه نوشته شد که روش های نمودارمبنا را برای طیف گسترده ای از مسائل زبان طبیعی، از یادگیری واژگانی گرفته تا تجزیه جمله و عدم ابهام معنای کلمه و خلاصه سازی متن استفاده می کنند. در این مقاله، روش های متعدّد و برنامه های کاربردی شان برای پردازش زبان طبیعی را بررسی می کنیم. برای نمایش این واقعیت که الگوریتم ها و بازنمون ها از جوامع متفاوت ـ پردازش زبان طبیعی و نظریه/ نمودار(2 ) ـ سرچشمه می گیرند، از یک واژگان دو وجهی برای توصیف این روش ها استفاده خواهیم کرد؛ یعنی شبکه ها، نمودارها هستند و گره ها، رأس ها هستند و پیوندها، لبه ها هستند.

از نظر بازنمون های نمودارمبنا، بسته به برنامه های کاربردی پردازش زبان طبیعی از انواع گره ها و یال ها استفاده شده است. واحدهای متنی از اندازه ها و مشخصه های متفاوت می تواند به عنوان رأس ها به نمودار اضافه کند؛ برای مثال، کلمات، همایندها(3 ) ، معانی کلمات، جملات کامل یا حتّی اسناد کامل.

توجّه داشته باشید که گره های نمودار، لزوماً متعلّق به همان دسته نیستند؛ به عنوان مثال، جملات و کلمات را می توان به صورت رأس به همان نمودار اضافه کرد. یال ها، هم ظهوری (مثلاً: دو کلمه ای که در همان جمله یا در همان تعریف واژه نامه ظاهر می شوند)، همایند (برای مثال: دو کلمه که فوراً در کنار یکدیگر ظاهر می شوند یا ممکن است توسط یک حرف ربط از هم جدا شوند)، ساختار نحوی (به عنوان مثال: والدین و کودک در یک وابستگی نحوی) و شباهت واژگانی (مثلاً: کسینوس بین بازنمون های بُردار از دو جمله) را ارائه دهند.

از نظر الگوریتم های نمودارمبنا، روش های اصلی مورد استفاده را می توان به 4 دسته تقسیم کرد:

طبقه بندی نیمه نظارتی(4) (Zhu and Ghahramani, 2002; Zhu and Lafferty, 2005; Toutanova et al., 2004; Radev, 2004; Otterbacher et al., 2005): جایی که سیر یا آزادسازی تصادفی در مجموعه های مختلط از گره های برچسب گذاری شده و بدون برچسب اعمال می شود؛
تحلیل شبکه (Masucci and Rodgers, 2006; Caldeira et al., 2006): که در آن، ویژگی های شبکه مانند: قُطر، مرکزیت(5 ) و ... محاسبه می شوند؛
روش های خوشه بندی نمودارمبنا (Pang and Lee, 2004; Widdows and Dorow, 2002): از جمله روش های کمینه برش(6)؛
الگوریتم های درخت پوشای کمینه [درخت فراگیر حداقلی](7) (McDonald et al., 2005).

در این مقاله، ما روش های متعدّد نمودارمبنا را برای وظایف پردازش زبان طبیعی بررسی می کنیم که به صورت کلّی، به سه دسته اصلی تقسیم می شوند. ابتداء فعّالیّت پژوهشی انجام شده در حوزه نحو، از جمله: تجزیه نحوی، پیوند اضافه ای(8) و وضوح هم ارجاعی(9 ) را بررسی می کنیم. سپس، روش های مورد استفاده در معناشناسی واژگانی(10)، از جمله عدم ابهام معنای کلمه، یادگیری واژگانی(11) و تجزیه و تحلیل احساس و ذهنیت را توصیف می کنیم. در نهایت، برنامه های کاربردی پردازش زبان طبیعی متعدّدی را بررسی می کنیم که بر روش های نموداری، از جمله: خلاصه سازی متن(12)، بازیابی متن(13) و استخراج کلیدواژه(14) متّکی هستند.

2. نحو

در این بخش، سه مقاله را بررسی می کنیم و روش هایی برای تجزیه نحوی (McDonald et al., 2005)، پیوند اضافه ای (Toutanova et al., 2004) و وضوح هم ارجاعی (Nicolae and Nicolae, 2006) ارائه می دهیم.

1.2. تجزیه وابستگی

مک دونالد و دیگران (McDonald et al., 2005)، رویکرد نامتعارفی را برای تجزیه جمله اتّخاذ کردند. آنها با درک اینکه هر درخت وابستگی، از جمله یک نمودار فرعی جهت دار(15) از پیوند تصویر کامل تمام کلمات در جمله است، آغاز به کارکردند؛ رویکردی مانند خودشان که روی درخت های سازه های خیلی شناخته شده کار نمی کند؛ همان طور آنها غیرپایانه ای ها(16) را در بر می گیرند. در تجزیه وابستگی، هر جمله به صورت یک درخت ارائه می شود. ریشه، به طور خاصّ، گزاره اصلی جمله است (یا آن یک گره ساختگی است و ریشه برچسب گذاری شده از آنچه گزاره اصلی (17)sole child است) و در کدام یال ها برای اتّصال هر کلمه به والدین وابستگی آن استفاده می شود؛ به عنوان مثال، در جمله John Likes green apples، گزاره اصلی likes است که دو استدلال را در نظر می گیرد: کسی که دوست می دارد؛ یعنی (John) و شیء دوست داشتنی یعنی(apples). درنهایت، از آنجا که سبز بودن، سیب ها را تغییر می دهد، به درخت به عنوان بچه سیب اضافه می شود. درخت نهایی Like به صورت زیر بود:

مک دونالد و دیگران یک نمودار کامل از برون داد جمله ایجاد کردند و سپس، نمره را با هر زیرشاخه جهت دار بالقوّه از آن نمودار که مساوی با مجموع نمرات تمام یال های دربرگیرنده آن است، همراه می کند. نمره هر یال در نمودار اصلی، محصول وزن بُردار w و بازنمون مشخصه یال (f(I,j است. هدف تجزیه کننده، یافتن درخت با بالاترین نمره است. توجّه داشته باشید که نقطه گذاری(18)، دوره نهایی از یک جمله است که در فرآیند تجزیه استفاده می شود.

الگوریتم چو ـ لیو ـ ادموندز(19) (J. and liu, 1965; Edmond, 1967)، این الگوریتم برای یافتن درخت پوشای بیشینه(20) در نمودارهای جهت دار استفاده می شود. روش این الگوریتم، بدین صورت است: هر گره، همسایه ای را انتخاب می کند که بالاترین نمره را دارد. نتیجه، یا درخت فراگیر است یا در بر دارنده آن چرخه است. روش الگوریتم چو ـ لیو ـ ادموندز، چنین چرخه ای را درون یک گره تکی می ریزد و نمره های هر رویداد یال را از چنین چرخه ای دوباره محاسبه می کند و حاکی از آن است که الگوریتم چو ـ لیو ـ ادموندز، روی نمودار فروپاشی(21) ایجاد می شود؛ همان طور الگوریتم چو ـ لیو ـ ادموندز، روی نمودار اصلی دوباره محاسبه می شود. این الگوریتم را می توان در (O(n² اجراء کرد.

اجازه دهید به مثالی در مورد مک دونالد و دیگران اشاره کنیم. جمله ای که باید تجزیه شود John Likes green apples است: نمودار متناظر در نمودار دست چپی در شکل 1 نشان داده شده است و هر گره در نمودار منطبق با کلمه در جمله است. پس از اوّلین تکرار الگوریتم، هیچ درختی پیدا نمی شود که تمام گره ها را پوشش دهد. بنابراین، دو تا از نزدیک ترین گره ها فرو می ریزند و منجر به نمودار دوم در شکل 1 می شود. این فرآیند تا زمانی ادامه می یابد که کل نمودار به گره تکی از طریق مجموعه ای از تکرار کاهش یابد.

پس از اینکه تمام گره ها به یک گره فرو می ریزند، الگوریتم چو ـ لیو ـ ادموندز، با معکوس سازی(22) روش ایجاد می شود و تمام گره ها را درون سازه شان بسط می دهند. نتیجه نهایی این مثال، در شکل 2 ارائه شده است.

مک دونالد و دیگران به پیشرفته ترین نتایج با تجزیه کننده شان در مجموعه داده های انگلیسی استاندارد و بهتر از پیشرفته ترین نتایج در زبان چِک نائل شدند (زبان منظم کلمه آزاد).

شکل 1: نمودارهای تهیه شده توسط مراحل میانی از الگوریتم چو – لیو – ادموندز

2.2. پیوند حرف اضافه

پیوند حرف اضافه، یکی از چالش برانگیزترین مسائل در تجزیه است. دستور زبان انگلیسی اجازه می دهد حرف اضافه، مانند with را به گزاره اصلی از جمله یا بی واسطه به عبارت اسمی قبل از آن اضافه کنیم.

شکل 2: برونداد تجزیه کننده الگوریتم چو – لیو – ادموندز

برای مثال، I ate pizza with olives نمونه ای از پیوند (اسمی) کوتاه است؛ درحالی که I ate pizza with a knife نمونه ای از پیوند (فعلی) بلند است. به طور طبیعی، در متن انگلیسی اتفاق می افتد و به طور معمول، هر دو نوع پیوند دیده می شود.

تاوتانوا(23) و دیگران (Toutanova et al., 2004)، به مشکل پیوند حرف اضافه با قالب گیری(24) آن به عنوان فرآیند یادگیری نیمه نظارتی در نمودارها می پردازند. هر گره از نمودار، برابر با یک فعل یا اسم است. دو گره به هم متّصل می شوند؛ اگر آنها در همان بافتار ظاهر شوند؛ به عنوان مثال، گره های فعلی hang و fasten به هم متّصل می شوند؛ زیرا هر دو در عبارات، با (25)nail ظاهر می شوند. در یک روش مشابه، گره های اسمی nail و (26)rivet به یکدیگر متّصل می شوند. انواع پیوندها (بیش از 10 نوع، از جمله پیوندها بین کلمات با قالب ریشه مشابه، مترادف ها و غیره) در این مقاله توصیف می شوند. سپس، الگوریتم با یک سیر تصادفی روی نمودار تا همگرایی ادامه می یابد. ارزیابی روی مجموعه آزمون استاندارد پِن تری بَنک(27) اجراء شده است. نتایج گزارش شده در مقاله عملکرد 87.54٪ دقت طبقه بندی را نشان می دهد که خیلی نزدیک به حدّ بالای، متناظر با عملکرد انسانی (88.20٪) است.

3.2. وضوح هم ارجاعی

وضوح هم ارجاعی، به عنوان مشکل شناسایی رابطه ها بین ارجاعات هویت در یک متن، تعریف می شود که آیا آنها توسط اسم ها یا ضمایر ارائه می شوند. الگوریتم های نمونه برای وضوح هم ارجاعی تلاش می کنند تا زنجیره ای از ارجاعات را با استفاده از سامانه های قاعده محور یا رده سازهای یادگیری ماشینی شناسایی کنند. در آثار اخیر (Nicolae and Nicolae, 2006) روش نمودارمبنا برای وضوح هم ارجاعی معرفی شد که تلاش می کند تخصیص صحیح ارجاعات به موجودیت هایی در یک متن را با استفاده از الگوریتم برش ـ نمودار به طور تخمینی محاسبه کند.

یک نمودار مجزاء برای هر نوع موجودیت مؤسسه ملّی استاندارد و فنّاوری(28) ـ مشخص، از جمله شخص، سازمان، محل سکونت، مهارت و مشارکت جهانی برای آموزش(29) ایجاد می شود. بعد، یال های وزن دار بین ارجاع های موجودیت ترسیم می شود، جایی که وزن ها برابر با اطمینان رابطه هم ارجاعی است. درنهایت، روش بخش بندی مبتنی بر برش ـ کمینه روی این نمودارها اعمال می شود که ارجاع های برابر با موجودیت یکسان را جدا می کند. هنگامی که معیارهای استاندارد برای وضوح هم ارجاعی ارزیابی شد، مشخص گردید که الگوریتم نمودارمبنا به عملکرد بسیار پیشرفته منجر می شود و به طرز قابل ملاحظه ای الگوریتم های قبلی را توسعه می دهد.

3. معناشناسی واژگانی

علاقه به تحلیل معناشناسی خودکار از متن برای پشتیبانی برنامه های کاربردی پردازش زبان طبیعی، قلمرو ترجمه ماشینی و بازیابی اطلاعات، سامانه پرسش پاسخ و یادگیری دانش در حال افزایش است. پژوهش های زیادی در این حوزه به ویژه روی عدم ابهام معنای کلمه، برچسب گذاری عملکرد معناشناسی، استلزام متنی(30)، یادگیری واژگانی و روابط معناشناختی انجام شده است. در این بخش ما روش های متعدّدی را بر اساس بازنمون ها و الگوریتم های نموداری بررسی خواهیم کرد که قبلاً برای پرداختن به وظایف متفاوت در تحلیل معنایی خودکار استفاده شده است.

1.3. شبکه های واژگانی

یکی از بزرگترین بازنمون های نموداری ایجاد شده برای پشتیبانی وظیفه پردازش زبان طبیعی شاید مدل نموداری ارائه شده توسط ویدوز و دورو(31) برای یادگیری واژگانی بدون نظارت(32) باشد (Widdows and Dorow, 2002). هدف این اثر ایجاد طبقه های معنایی با استخراج خودکار از پیکره پردازش نشده تمام عناصر متعلّق به یک دسته معنایی معیّن مانند میوه ها یا آلات موسیقی است.

این روش با ایجاد یک نمودار بزرگ متشکل از تمام اسم ها در یک پیکره بزرگ که توسط (پیکره ملّی بریتانیا، در مورد آن ها) توسط حرف ربط and یا or به هم متّصل شده اند؛ آغاز می شود. مقدار قطع [برش](33) برای پالایش کلمات کمیاب استفاده می شود که به ایجاد نمودار متشکل از تقریباً 100000 اسم منجر می شود که به بیش از نیم میلیون یال مرتبط است. جهت شناسایی عناصر طبقه معنایی، اوّل تعداد کمی از اسامی معرّف به طور دستی انتخاب و برای تشکیل مجموعه دانه(34) استفاده می شود. بعد، در یک فرآیند دیگر، گرهی که بیشترین تعداد پیوندها را با مجموعه دانه در نمودار هم ظهوری دارد، به عنوان «گره» به طور بالقوّه درست انتخاب می شود و بدین ترتیب به مجموعه دانه اضافه می شود.

تا زمانی فرآیند تکرار می شود که هیچ عنصر جدیدی نتواند به طور قابل اطمینانی به مجموعه داده اضافه شود. شکل 3 نمونه ای از نمودار ایجاد شده برای استخراج طبقه های معنایی را نشان می دهد.

شکل 3: شبکه واژگانی ایجاد شده برای استخراج طبقه های معنایی

ارزیابی در برابر ده طبقه معنایی از وردنِت دقت 82 درصدی را نشان داد که با توجّه به نویسندگان، نظم دامنه بهتر از کار قبلی در استخراج طبقه معنایی بود. نقطه ضعف روش آنها پوشش کم است، با توجّه به این که روش به آن کلمات پیدا شده در رابطه پیوند محدود می شود. با وجود این، هر زمان قابل کاربرد است و بازنمون نمودار این توانایی را دارد که به دقّت کلمات متعلّق به طبقه معنایی را شناسایی کند.

حوزه پژوهشی دیگر مربوط به این اثر (Widdows and Dorow, 2002) مطالعه مشخصه های شبکه ی واژگانی انجام شده توسط (Ferrer-i-Cancho and Sole ) است. با ایجاد شبکه های واژگانی خیلی بزرگ، نزدیک نیم میلیون گره، با بیش از ده میلیون یال، ایجاد شده توسط کلمات پیوندی در جملات انگلیسی با فاصله حدّاکثر دو کلمه ظاهر می شوند، آنها ثابت کردند که مشخّصه های سامانه پیچیده در چنین شبکه های هم ظهوری حفظ می شوند.

به طور خاصّ، آنها اثر جهان ـ کوچک را با تعداد نسبتاً کمی از 2 ـ 3 گام مورد نیاز برای اتّصال هر دو کلمه در شبکه واژگانی مشاهده کردند. علاوه بر این همچنین مشاهده شد که توزیع درجه گره درون شبکه، بی مقیاس(35) است که تمایل یک پیوند به شکل گرفتن با یک کلمه قبلاً خیلی مرتبط را منعکس می کنند، شاید تعجب نکنید، مشخصه های جهان کوچک و بی مقیاس در شبکه های واژگانی به طور خودکار مورد نیاز پیکره را مشاهده کردند همچنین روی شبکه های معنایی به طور دستی ایجاد شده مانند وردنت (Sigman and Cecchi, 2002; Steyvers and Tenenbaum, 2005) مشاهده کردند.

2.3. شباهت و ربط معنایی(36)

الگوریتم های نمودارمبنا نیز با موفّقیت در شناسایی شباهت و ربط کلمه استفاده می شود. گروه بزرگی از روش های شباهت معنایی شامل متریک های محاسبه شده در شبکه های معنایی موجود مانند وردنت و راجِت(37) وجود دارند، برای مثال با استفاده از الگوریتم های کوتاه ترین مسیر(38) رابطه معناشناختی نزدیک بین دو مفهوم درونداد را شناسایی می کنند (Leacock et al., 1998).

اخیراً الگوریتمی مبتنی بر سیر تصادفی توسط هیوز(39) و رَمیج(40) پیشنهاد شد (Hughes and Ramage, 2007). به طور خلاصه، در روش آن ها، الگوریتم رتبه پیج برای محاسبه توزیع ثابت گره ها در نمودار وردنِت و گرایش روی هر یک از کلمات درونداد در یک جفت کلمه مفروض استفاده می شود. بعد، واگرایی بین این توزیع ها محاسبه می شود که پیوند دو کلمه را نشان می دهد. وقتی این روش بر اساس مجموعه داده های پیوند کلمه استاندارد ارزیابی شد روشن شد که نسبت به الگوریتم های پیشنهاد شده قبلی برای ربط معنایی بسیار بهبود یافته است. در واقع، بهترین سنجه عملکرد آنها به حدّ بالای ارائه شده توسط توافق مفسّر درونی به این مجموعه داده ها نزدیک می شود.

3.3. عدم ابهام معنای کلمه

موضوع جالب دیگر در معناشناسی واژگانی، عدم ابهام معنای کلمه است و به عنوان مشکل شناسایی مناسب ترین معنای کلمه با توجّه به بافتار آن تعریف می شود. اکثر کارها در این حوزه دسترس پذیری سیاهه معنا از پیش تعریف شده مانند وردنِت تلقّی می شود و روش هایی را شامل می شوند که می تواند به طور گسترده ای به عنوان دانش مدار(41)، نظارت شده یا نیمه نظارتی طبقه بندی شوند.

روش نمودارمبنا که به طور موفقیت آمیزی برای عدم ابهام معنای کلمه نیمه نظارتی استفاده می شود، الگوریتم انتشار برچسب است (Niu et al., 2005) در اثرشان، نیو(42) و همکاران با ایجاد نموداری متشکل از همه برچسب ها شروع می کنند و نمونه های بدون برچسب برای کلمه مبهم مفروض تهیه می شوند. نمونه های معنای کلمه به عنوان گره ها در نمودار استفاده می شوند و یال های وزنی با استفاده از متریک جفت جفت شباهت ترسیم می شوند. در این نمودار، همه نمونه های برچسب دار شناخته شده (مجموعه دانه) با برچسب های صحیح شان تعیین می شوند که پس از آن در سراسر نمودار در پیوندهای وزنی منتشر می شوند. در این روش، تمام گره ها با مجموعه ای از برچسب ها، هر یک با احتمال مشخص تعیین می شوند. الگوریتم از طریق همگرایی، تکرار می شود و با نمونه های برچسب دار شناخته شده با برچسب صحیح در هر تکرار مشخص می شوند. در ارزیابی انجام شده در مجموعه داده های عدم ابهام معنای کلمه استاندارد، عملکرد الگوریتم برای فراتر رفتن از یک الگوریتم به دست آمده با خود‌راه‌انداز(43) یک زبانه یا دو زبانه مشخص شد. همچنین الگوریتمی برای انجام بهتر نسبت به ماشین پشتیبان بُردار هنگامی که فقط تعداد کمی نمونه های برچسب دار قابل دسترس بودند، پیدا شد.

روش های نمودارمبنا برای عدم ابهام معنای کلمه دانش مدار استفاده می شود. (Mihalcea et al., 2004; Sinha and Mihalcea, 2007) میهالسی(44) و دیگران روشی بر پایه نمودارهای ایجاد شده مبتنی بر وردنِت را پیشنهاد کردند. با توجّه به متن درونداد، نمودار با افزودن تمام مفاهیم احتمالی برای کلمات در متن ایجاد و پس از آن بر اساسِ روابط معنایی موجود در واژگان وردنِت ایجاد می شوند (به عنوان مثال، مترادف، تضاد معنایی و غیره). برای مثال، شکل 4 نمونه ای از یک نمودار ایجاد شده روی یک جمله کوتاه از چهار کلمه را نشان می دهد.

شکل 4: نمودار ایجاد شده روی معانی کلمه در یک جمله، برای پشتیبانی عدم ابهام معنای کلمه خودکار

سیر ـ تصادفی اعمال شده روی این نمودار به مجموعه ای از نمره ها منجر می شود که «اهمّیّت» هر معنای کلمه را در متن مفروض نشان می دهد. بنابراین معانی کلمه با بالاترین نمره به طور بالقوّه صحیح انتخاب می شوند. ارزیابی داده های معنی ـ توضیحی نشان داد که این الگوریتم نمودارمبنا برای (انتخاب) روش های دانش مبنای جایگزین، عالی بود که استفاده از چنین بازنمون های قوی از روابط معنای کلمه را ایجاد نمی کنند.

در اثر بعدی میهالسی روش نمودارمبنای کلّی تری را توسعه داد که نیازی به دسترس پذیری روابط معنایی مانند موارد مشخص شده در وردنِت، نیست. در عوض، او یال های وزنی اشتقاقی تعین شده با استفاده از سنجه شباهت واژگانی در میان تعاریف معنای کلمه را استفاده کرد (Mihalcea, 2005) که عمومیت را پدید می آورد، همانطور این روش به شبکه های معنایی همچون وردنِت محدود نمی شود، أمّا می توان آن را در هر واژه نامه الکترونیکی استفاده کرد.

نویگلی(45) و لاپاتا(46) به سبکِ (میهالسی و دیگران، 2004) ارزیابی مقایسه ای از الگوریتم های ارتباط نمودار متفاوت به کار گرفته شده در نمودارهای معنای کلمه مشتق شده از وردنِت (Navigli and Lapata, 2007) را اجراء کردند. آنها دریافتند که بهترین دقّت عدم ابهام معنای کلمه با استفاده از یک سنجه شباهت که برای الگوریتم های مرکزیت نمودار دیگر نظیر (47)indegree، رتبه پیج و بینیت(48)، عالی بود.

4.3. احساس و ذهنیت

تجزیه و تحلیل احساس و ذهنیت، حوزه ای مرتبط به معناشناسی و عمل گرایی(49) است که توجّه زیاد جامعه پژوهشی را به خود جلب کرد. روش مبتنی بر نمودار توسط پانگ(50) و لی(51) (Pang and Lee, 2004) ارائه شد، در این سامانه آنها نشان می دهند که الگوریتم نمودارمبنای بُرش کمینه می تواند به نحو کارآمدی برای ایجاد خلاصه های ذهنی از نقدهای فیلم استفاده شود.

ابتداء آنها نموداری را با افزودن همه جملات در یک بازبینی به صورت گره ها و با ترسیم یال هایی مبتنی بر همجواری جمله ایجاد می کنند. هر گره در نمودار در ابتداء با نمره ای که نشان دهنده احتمال جمله متناظر ذهنی یا عینی است و بر اساس برآورد ارائه شده توسط رده‌بند(52) ذهنیت نظارتی تعیّن می شود. الگوریتم بُرش کمینه سپس روی نمودار اعمال می شود و برای جدا کردن جملات ذهنی از جملات عینی استفاده می شود. شکل 5 نمودار ایجاد شده روی جملات در یک متن را نشان می دهد که در آن نمودار الگوریتم بُرش کمینه برای شناسایی و استخراج جملات ذهنی استفاده می شود.

دقّت این رده بند ذهنیت نمودارمبنا بهتر از برچسب گذاری به دست آمده با رده بند نظارتی اوّلیه بود. علاوه بر این، رده بند پلاریته (قطب داری) متّکی بر خلاصه های جایگزین برش کمینه، دقیق تر از موارد به کار گرفته شده در کلّ بررسی ها بودند.

شکل 5: طبقه بندی ذهنی با استفاده از الگوریتم بُرش کمینه است. نقطه چین انشعاب بین جملات ذهنی و عینی، همانطور به دست آمده با الگوریتم بُرش کمینه را نشان می دهد.

پژوهش اخیر در مورد تجزیه و تحلیل احساس و ذهنیت می باشد؛ همچنین معانی و ذهنیت کلمه را نیز در نظر می گیرد (Wiebe and Mihalcea, 2006). در کار تخصیص ذهنیت و برچسب های پولاریته به معانی وردنِت را هدف قرار دادند. اِسالی(53) و سباستیانی(54) الگوریتم رتبه پیج اریب متمایل را در کل نمودار وردنِت به کار گرفتند. تا حدّی شبیه به روش انتشار برچسب، الگوریتم سیر تصادفی با گره های برچسب گذاری شده ذهنیت و قطبیت ایجاد می شوند. هنگام مقایسه با روش طبقه بندی ساده، سیر تصادفی شان منجر به یادداشت های توضیحی دقیق تر از معانی کلمه ذهنیت و قطبیت می شود.

4. برنامه های کاربردی دیگر

برخی از برنامه های کاربردی پردازش زبان طبیعی دیگر، مانند: خلاصه نویسی متن، بازیابی متن و استخراج کلیدواژه، برای فنون نمودارمبنا، مستعد هستند.

1.4. خلاصه سازی

یکی از نخستین روش های نمودارمبنا برای خلاصه سازی توسط اَلِن(55) و دیگران معرّفی شد (Saltom et al., 1994; Saltom et al., 1997). این روش، آنها مقاله هایی از دائرة المعارف فانک(56) و وَگنلز(57) را به عنوان نمودارهایی که در آن هر گره منطبق با پاراگراف است و پاراگراف های مشابه به لحاظ واژگانی با هم مرتبط هستند. خلاصه ای از سند و مسیرهای زیر با الگوریتم های متفاوت مشخص شده اند که همان اندازه از محتوای نمودار که امکان پذیر است را پوشش می دهند.(Erkan and Radev, 2004; Mihalcea and Tarau, 2004) ایده خلاصه سازی نمودارمبنا را بیشتر با معرّفی مفهوم مرکزیت واژگانی به کار گرفتند. مرکزیت واژگانی، سنجه ای از اهمّیّت (مرکزیت) گره ها در یک نمودار شکل گرفته توسط پیوند جملات یا اسناد مرتبط از لحاظ واژگانی است. پس سیر تصادفی روی نمودار پیاده سازی می شود و گره هایی که مشاهده می شوند اغلب به عنوان خلاصه ای از نمودار درونداد انتخاب می شوند (که در اکثر موارد، اطّلاعاتی از اسناد متعدّد را در بر می گیرند). با وجود این، ابتداء باید توجّه داشته باشید که به منظور اجتناب از گره هایی با محتوای تکراری یا تقریباً تکراری، تصمیم نهایی در مورد اینکه شامل یک گره در خلاصه می شود همچینن به حدّاکثر ربط حاشیه‌ای(58) آن بستگی دارد همانطور در (Carbonell and Goldstein, 1998) مشخص می شود. همچنین (Erkan and Radev, 2004) روی فنّاوری خلاصه سازی پیشین، یعنی سامانه خلاصه سازی اخبار قابل دسترس ـ وب اول، NewsInEssence ا(Radev et al.، 2001) ایجاد کردند.

نمونه ای از (Erkan and Radev, 2004) در شکل 6 نشان داده شده است. درونداد 11 جمله از گزارش های خبری مختلف در موضوع های مرتبط را در بر می گیرد. شکل 7 شباهت های کسینوسی از تمام زوج های جمله ها را به نمایش می گذارد؛ در حالی که شکل 8، توزیع کسینوس ها را نشان می دهد.

شکل 6: خوشه ای از 11 جمله مرتبط

شکل 7: شباهت های کسینوسی در تمام زوج های جمله در خوشه ای از 11 جمله

مهم است بدانیم که ماتریس کسینوس در خود تعداد نامحدودی از نمودارها را برای هر مقدار از انقطاع کسینوس، t مخفی می کند. این را می توان در دو شکل بعدی دید: شکل های 10 ـ 9. به عنوان مثال، اگر یکی آستانه را بیش از حدّ کم کند، نمودار تقریباً کاملاً مرتبط (متّصل) است. بر عکس، با بالا بردن آستانه بالاخره نمودار را به مجموعه ای از مؤلفه های غیرمرتبط تبدیل می کنند. سیر تصادفی به طور خاصّ در مقدار t که در آن تقریباً نیمی از زوج های گره از طریق یال ها متّصل می شوند، انجام می گیرد.

شکل 8: نمودار ستونی کسینوس لکس رنک

شکل 9: درختواره‌نگار(59) نمونه لکس رنک.

شکل 11، رابط کاربری جاوا لکس رنک استفاده شده برای خلاصه سازی متن را نشان می دهد

2.4. بازیابی متن نیمه نظارتی

آترباچر(60) و دیگران (Otterbacher et al., 2005) ابتداء نظریه (Erkan and Radev, 2004) را با معرّفی مفهوم سیر تصادفی اریب برای پرداختن به مسئله بازیابی متن پرسش ـ محور بسط دادند. در آن مشکل، کاربر پرسش را در قالب پرسش زبان طبیعی وارد می کند و انتظار دارد مجموعه ی از متن های اسناد درونداد که شامل پاسخ به این سوال می شود را دریافت کند. سیر تصادفی اریب روی نموداری اجراء می شود که قبلاً با نمونه های مثبت و منفی شناخته شده ایجاد شده اند. پس هر گره متناسب با درصد دفعات سیر تصادفی روی یال های نمودار در آن گره برچسب گذاری می شوند. در آغاز با توجه به حضور گره های برچسب گذاری شده و درنهایت گره ها دارای بالاترین نمره آن هایی هستند که هر دو شبیه به گره های اوّلیه (هسته) و مرکزی برای مجموعه سند هستند. به عبارت دیگر، در نهایت آنها به عنوان مجموعه با یک مدل ترکیبی که با توجّه به دانه های شناخته شده (مثبت یا منفی) و نمره مرکزیت همانطور که در بخش قبلی است، انتخاب می شوند. نمودار شامل جملات (پاراگراف ها) و مشخّصه ها (کلمات محتوا که در این جمله ها ظاهر می شوند) بودند. نمودار دو بخشی است؛ همانطور یک جمله فقط می تواند به یک مشخصه و برعکس، پیوند یابد.

شکل 10: نمودار شباهت کسینوس وزنی برای خوشه در شکل 6

شکل 11: رابط کاربری لکس رنک

نمودار 12: لکس رنک اریب همان طور برای بازیابی متن نیمه نظارتی استفاده می شود

در مثال نشان داده شده در شکل 12، گره بالا سمت راست، در ابتداء به عنوان مثبت (سیاه) برچسب گذاری می شود در حالی که گره پایین سمت راست به عنوان منفی (گره روشن) برچسب گذاری می شود. در طول برچسب گذاری (اجراء شده با استفاده از روش آزادسازی)، عمق رنگ گره تغییر می کند تا فرآیند همگرا شود. بالاخره، گره های تیره به عنوان مرتبط به سؤال کاربر باز می گردند. توجّه داشته باشید که برخی از آنها هیچ کلمه ای هماهنگ با پرسش اصلی را در بر نمی گیرند.

3.4. استخراج کلیدواژه

وظیفه برنامه کاربردی استخراج کلیدواژه این است که به طور خودکار در یک متن، مجموعه اصطلاح هایی که بهترین توصیف سند است را شناسایی کند. چنین کلیدواژه هایی مدخل های مفید برای ایجاد نمایه خودکار برای مجموعه سند را به وجود می آورد و می تواند برای طبقه بندی متن یا به عنوان یک خلاصه کسینوسی برای سند مفروض به کار گرفته شود. سامانه ای برای شناسایی خودکار اصطلاح های مهم همچنین می تواند برای مشکل استخراج مجموعه اصطلاحات و ایجاد واژه نامه های خاصّ ـ حوزه ای استفاده شود. الگوریتم سیر تصادفی برای استخراج کلیدواژه در (Mihalcea and Tarau, 2004) پیشنهاد شد که در آن نمودار روی متن درونداد با افزودن تمام کلمات در متن به عنوان گره هایی در نمودار ایجاد می شود و ارتباط آنها با رابط هم ظهوری با فاصله بین کلمات محدود می شود.

شکل 13 نمودار نمونه ایجاد شده برای متن علمی کوتاه را نشان می دهد. سیر تصادفی روی چنین نموداری از هم ظهوری ها اجراء می شود که منجر به رتبه بندی در اهمّیت کلمات در متن می شود؛ در مرحله پس پردازش، کلمات مهمّ با رتبه بندی الگوریتم انتخاب می شوند و در مجاورت یکدیگر در متنی که درون یک عبارت جداگانه فرومی ریزند، یافت می شوند. جالب این که مقایسه آزمایش های این رتبه بندی با فراوانی اصطلاح ـ فراوانی سند معکوس سنتی نشان داد که نمره های اختصاص یافته به سیر تصادفی می تواند به طور قابل توجّهی متفاوت باشد. در واقع، ارزیابی ها روی مجموعه داده چکیده های علمی نشان داد که روش سیر تصادفی، از روش فراوانی اصطلاح ـ فراوانی سند معکوس برای استخراج کلیدواژه، بهتر است و همچنین آن نسبت به روش های نظارتی بسیار پیشرفته قبلاً منتشر شده برای استخراج کلیدواژه، بهبود یافته است.

شکل 13: نمودار نمونه ایجاد شده برای استخراج کلیدواژه

4.4. مطالعه بیشتر

کتاب شناسی قابل توجّهی روی وبگاه مؤلف و روی www.textgraphs.org دیده می شود.

سپاسگزاری ها

این مقاله، تا حدودی مبتنی بر اثر انجام شده قبلی توسط دو نویسنده بود. آن اثر تا حدودی توسط کمکِ مالی بنیاد ملی علوم به شماره IIS 0534323 "پژوهش مشارکتی: بلاگوسنتر ـ زیرساختاری برای جمع آوری، داده کاوی و دسترسی به بلاگ ها" به شماره 0329043 "روش های احتمالاتی و پیوند محور برای به کارگیری انباره های متنی خیلی بزرگ" و BCS 0527513، " DHB: پویاشناسی بازنمون سیاسی و سخنوری سیاسی " و توسط کمک مالی مؤسسه ملّی سلامت(61) R01LM008106 " بازنمون و فراهم آوری دانش قاعده ژنوم" و U54 DA021519 " مرکز ملّی زیست‌داده‌ورزی(62) یکپارچه که همه برای دراگومیر رادف است، تأمین مالی می شود. این اثر نیز در بخشی توسط کمک هزینه پژوهشی #003594 در "پردازش زبان طبیعی نمودارمبنا " برنامه پژوهشی پیشرفته تگزاس و با کمک هزینه گوگل در "یافتن اطلاعات مهمّ در متن بدون ساختار" که هر دوی آنها به رادا میهالسی اهداء شد، پشتیبانی می شود.

هر نظر، یافته و نتیجه گیری یا توصیه بیان شده در این منبع، متعلّق به نویسندگان است و لزوماً دیدگاه های بنیاد ملّی علوم یا حامیان دیگر نیست.

پی نوشت ها:

منابع:

1. Silvia M. G. Caldeira, Thierry C. Petit Lob ao, R. F. S.Andrade, Alexis Neme, and J. G. V. Miranda. 2006.The network of concepts in written texts. European Physical Journal B, 49(4):523–529, February.
2. Jaime G. Carbonell and Jade Goldstein. 1998. The use of MMR, diversity-based reranking for reordering documents and producing summaries. In Proceedings of the Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 335–336.
3. J. Edmonds. 1967. Optimum branchings. Journal of Research of the National Bureau of Standards, 71B:233– 240.
4. G¨unes¸ Erkan and Dragomir Radev. 2004. The university ofMichigan at duc 2004. In Document Understanding Conference (DUC), Boston, Massachusetts, May.
5. A. Esuli and F. Sebastiani. 2007. PageRanking wordnet synsets: An application to opinion mining. In Proceedings of the Annual Meeting of the Association of Computational Linguistics, Prague, Czech Republic.
6. Ramon Ferrer-i-Cancho and Ricard V. Sole. 2001. The small world of human language. Proceedings of The Royal Society of London. Series B, Biological Sciences,268(1482):2261–2265, November.
7. T. Hughes and D. Ramage. 2007. Lexical semantic relatedness with random graph walks. In Proceedings of EMNLP 2007, Prague, Czech Republic.
8. Y. J. and T. H. Liu. 1965. On the shortest arborescence of a directed graph. Science Sinica, 14:1396–1400.
9. C. Leacock,M. Chodorow, and G.A.Miller. 1998. Using corpus statistics andWordNet relations for sense identification.Computational Linguistics, 24(1):147–165.
10. A. P. Masucci and G. J. Rodgers. 2006. Network properties of written human language. Physical Review E, 74, August 2,.
11. Ryan McDonald, Fernando Pereira, Kiril Ribarov, and Jan Hajic. 2005. Non-projective dependency parsing using spanning tree algorithms. In Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing, pages 523–530,Vancouver, British Columbia,Canada, October.
12. Rada Mihalcea and Paul Tarau. 2004. Textrank: Bringing order into texts. In Proceedings of EMNLP 2004,pages 404–411, Barcelona, Spain, July. Association for Computational Linguistics.
13. R. Mihalcea, P. Tarau, and E. Figa. 2004. PageRank on semantic networks, with application to word sense disambiguation.In Proceedings of the 20st International Conference on Computational Linguistics (COLING 2004), Geneva, Switzerland.
14. Rada Mihalcea. 2005. Unsupervised large-vocabulary word sense disambiguation with graph-based algorithms for sequence data labeling. In Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing, pages 411–418,Vancouver, British Columbia,Canada, October.
15. Roberto Navigli and Mirella Lapata. 2007. Graph connectivity measures for unsupervised word sense disambiguation. In Proceedings of the 20th International Joint Conference on Artificial Intelligence, Hyderabad,India.
16. Cristina Nicolae and Gabriel Nicolae. 2006. Bestcut: A graph algorithm for coreference resolution. In Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing, pages 275–283,Sydney, Australia, July.
17. .Z.Y. Niu, D.H. Ji, and C.L. Tan. 2005. Word sense disambiguation using label propagation based semisupervised learning. In Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics, Ann Arbor, Michigan. Association for Computational Linguistics.
18. Jahna Otterbacher, G¨unes¸ Erkan, and Dragomir Radev. 2005. Using random walks for question-focused sentence retrieval. In Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing, pages 915– 922, Vancouver, British Columbia, Canada, October. Association for Computational Linguistics.
19. Bo Pang and Lillian Lee. 2004. A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts. In Proceedings of the 42ndMeeting of the Association for Computational Linguistics (ACL'04), Main Volume, pages 271–278, Barcelona, Spain, July.
20. Dragomir R. Radev, Sasha Blair-Goldensohn, Zhu Zhang, and Revathi Sundara Raghavan. 2001. NewsInEssence: A system for domain-independent, realtime news clustering and multi-document summarization. In Proceedings of Human Language Technology Conference (HLT 2001).
21. Dragomir R. Radev. 2004. Weakly supervised graphbased methods for classification. Technical Report CSE-TR-500-04, University of Michigan. Department of Electrical Engineering and Computer Science.
22. Gerard Salton, James Allan, Chris Buckley, and Amit Singhal. 1994. Automatic analysis, theme generation, and summarization of machine-readable texts. Science, 264(5164):1421–1426.
23. Gerard Salton, Amit Singhal, Mandar Mitra, and Chris Buckley. 1997. Automatic text structuring and summarization. 33(2):193–207,March.
24. Mariano Sigman and Guillermo A. Cecchi. 2002. Global organization of the Wordnet lexicon. Proceedings of the National Academy of Sciences of the United States of America, 99(3):1742–1747, February 5,.
25. R. Sinha and R. Mihalcea. 2007. Unsupervised graphbased word sense disambiguation using measures of word semantic similarity. In Proceedings of the IEEE International Conference on Semantic Computing (ICSC 2007), Irvine, CA.
26. M. Steyvers and J.B. Tenenbaum. 2005. Graph theoretic analyses of semantic networks: Small worlds in semantic networks. Cognitive Science, 29:41–78.
27. Kristina Toutanova, Christopher D. Manning, and Andrew Y. Ng. 2004. Learning random walk models for inducing word dependency distributions. In ICML '04: Proceedings of the twenty-first international conference on Machine learning, page 103, New York, NY, USA.
28. D.Widdows and B. Dorow. 2002. A graph model for unsupervised lexical acquisition. In Proceedings of the 19th International Conference on Computational Linguistics, Taipei.
29. J.Wiebe and R. Mihalcea. 2006. Word sense and subjectivity. In Proceedings of the AnnualMeeting of the Association for Computational Linguistics, Sydney, Australia.
30. Xiaojin Zhu and Zoubin Ghahramani. 2002. Learning from labeled and unlabeled data with label propagation.Technical Report CMU-CALD-02-107, Carnegie Mellon University.
31. Xiaojin Zhu and John Lafferty. 2005. Harmonic mixtures: Combining mixture models and graph-based methods for inductive and scalable semi-supervised learning. In Saso Dzeroski, Luc De Raedt, and Stefan Wrobel, editors, Proceedings of the Twenty-Second International Conference on Machine Learning (ICML '05), Bonn, Germany, August 7-11,. ACM Press