ره آورد نور

Skip to content

دیدگاه مفهومی درباره تحلیل لاگ کاربران در بازیابی اطلاعات

سه شنبه, 31 شهریور 1394 ساعت 14:56

نویسنده:

مصطفی علیمرادی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

اندازه قلم کاهش اندازه قلم افزایش اندازه قلم
چاپ
پست الکترونیکی

این مورد را ارزیابی کنید

1
2
3
4
5

(1 رای)

چکیده

کاربران، به مثابه غایت نظام های ذخیره سازی و بازیابی اطلاعات، نقشی مهم در این نظام بر عهده دارند که تنها به مصرف اطلاعات محدود نیست؛ بلکه می توان از ایشان در تقویت نظام های بازیابی استفاده کرد. ازاین رو، تعاملات کاربران با نظام های بازیابی و رفتارهای اطلاع یابی ایشان، از داده های بسیار سودمند و مبنایی برای سازمان دهی دانش در پایگاه دادگان و کتابخانه های رقمی به شمار می رود. در این مقاله، به بررسی لاگ کاربران و چگونگی استفاده از آن در بازیابی اطلاعات پرداخته خواهد شد.

کلیدواژگان: لاگ کاربران، پرس وجوی اطلاعات، رفتارهای اطلاع یابی، نشست کاربران، بازیابی اطلاعات.

مقدمه

مردم از اینترنت برای ایده ها، پیشبرد اهداف تجاری و سرگرمی خود استفاده می کنند. دادگان موجود در وب، به سرعت و هر روز در حال افزایش است. وب رسانه ای گشوده است و به سبب همین گشودگی، کاربران به سختی می توانند پرس وجوهای خود را پیش ببرند. به منظور فراهم کردن راه حلی برای این معضل، پژوهش های وب کاوی آغاز شد. وب کاوی، به استفاده از فنون داده کاوی برای بازیابی، استخراج و تحلیل خودکار اطلاعات برای کشف دانش از اسناد و خدمات وب اشاره دارد. وب کاوی، به دسته های گوناگون کاوش محتوای وب، کاوش ساختار وب، و کاوش استفاده از وب، تقسیم می شود. کاوش استفاده از وب، خود ممکن است بر پایه نوع دادگانِ استفاده شده، به: دادگان خدمات وب، دادگان خدمات برنامه ها و دادگان سطوح برنامه ها تقسیم شود.

دادگان خدمات وب، در واقع، گزارش فعالیت های کاربر است که در خدمات وب ایجاد شده است. این گزارش ها، تحلیل گرها را قادر می سازد تا رفتارهای کاربرانی که پایگاه های وبی را مشاهده می کنند، رهگیری و تحلیل کنند.

لاگ های خدمات دهنده وب، داده حاصل از کلیک کاربران را که ممکن است برای اهداف وب کاوی سودمند باشد، ذخیره می کنند. لاگ ها، اسناد متنی ساده ای هستند که دربردارنده اطلاعاتی درباره: نام، نشانی آی پی، منطقه زمانی، درخواست دسترسی، نشانی اینترنتی ارجاع شده و یا کدهای خطا است و عموماً در خدمات دهنده وب ثبت است.

تحلیل لاگ کاربران، فرایندی از انتقال اطلاعات خام لاگ کاربران به اطلاعاتی برای حل مشکلات در مواجهه انسان و رایانه است. (Goel and Jha 2013, 29)

رفتارهایی که کاربران در هنگامی اطلاع یابی انجام می دهند، مواد بسیار سودمندی در اختیار طراحان پایگاه های اینترنتی و به ویژه کتابخانه های رقمی و نیز متخصصان علم اطلاعات و علوم رایانه قرار می دهد. مفاهیمی مانند: تجربه کاربری، روان شناسی کاربر، لاگ کاربران و نشست کاربران، همه به این حوزه مربوط می شود. آنچه در این سند به آن پرداخته شده، استفاده از رفتارهای اطلاع یابی کاربران در بازیابی اطلاعات است.

کاربرانی که وارد یک پایگاه کتابخانه رقمی می شوند، برای بازیابی اطلاعات، رفتارهایی مانند: مرور فهرست های موضوعی و الفبایی گوناگون، مرور نمایه ها و اصطلاح ها، و جست وجو انجام می دهند که به آن رفتار اطلاع یابی گفته می شود. هر رفتار کاربر، از چند لحاظ برای بازیابی اطلاعات سودمند است:

استفاده از سابقه جست وجوی کاربران برای عرضه نتایج در جست وجوهای مشابهی که کاربران دیگر انجام می دهند؛
استفاده از رفتار کاربران در رتبه بندی نتایج جست وجو؛
استفاده از رفتار کاربران در اصلاح دسته بندی های موجود در پایگاه، مانند دسته بندی موضوعی منابع یا دسته بندی اصطلاح ها و نمایه ها؛
استفاده از رفتار کاربران در تفسیر ایشان از متن و عرضه محتوا بر پایه فهم و دانش کاربران (هرمنوتیک اطلاعات).

انجام این امور، نیاز به بسترهایی فنی و پژوهشی دارد؛ از جمله: بسترهای پژوهشی، تفسیر لاگ کاربران توسط متخصصان موضوعی برای تشخیص میزان اطلاع و سواد کاربران، تطبیق و ارتباط اصطلاح جست و جو شده و سندی که کاربر گزینش و ملاحظه کرده است و اسنادی که در نتایج جست وجو به منزله سند مرتبط با پرس و جو برگزیده است.

اسناد لاگ کاربران

اسناد لاگ کاربران، اطلاعات فعالیت های کاربران را هنگام عرضه یک درخواست به خدمات دهنده وب، ثبت می کند. اسناد لاگ کاربران، ممکن است در سه مکان متفاوت وجود داشته باشد: خدمات دهندگان وب، خدمات دهندگان پروکسی وب و مرورگرهای خدمات گیرندگان. هریک از این سه مکان، از دو معضل رنج می برند.

1. لاگ های سویه خدمات دهنده: این لاگ ها، به گونه کلی، از کامل ترین و دقیق ترین دادگان استفاده پشتیبانی می کنند؛ اما دو معضل عمده در این خصوص وجود دارد که عبارت اند از:

این لاگ ها، دربردارنده اطلاعات حساس شخصی است و ازاین روی، دارندگان خدمات دهنده معمولاً این اطلاعات را بسته نگه می دارند.

این لاگ ها، ذخیره گاه (cache) صفحات مشاهده شده را ثبت نمی کنند. ذخیره گاه صفحات، از مخزن مرورگرها یا خدمات دهنده پروکسی فراخوانده می شوند؛ نه از خدمات دهنده وب.

2. لاگ های سویه پروکسی: خدمات دهنده پروکسی، درخواست های اچ.تی.تی.پی را از کاربران دریافت و آن ها را به خدمات دهنده وب ارسال می کنند، سپس نتایج را از خدمات دهنده دریافت و به کاربران عرضه می کنند. دو معضل که لاگ های این سویه دارد، عبارت اند از:

ساخت خدمات دهنده پروکسی، کار مشکلی است. برنامه نویسی های پیشرفته شبکه، مانند تی.سی.پی / آی.پی، برای ساخت آن لازم است.

تفسیر درخواست محدود شده است و شمار بسیاری از درخواست ها را پوشش نمی دهد.

3. لاگ های سویه خدمات گیرنده: اعضا از دور وب پایگاه ها را با دریافت نرم افزار خاص که استفاده از وب را ثبت می کند، یا با تعدیل رمز منابع یک مرورگر موجود می آزمایند. کوکی های اچ.تی.تی.پی می توانند همچنین برای این منظور استفاده شوند. این، بخشی از اطلاعات ایجادشده خدمات دهنده وب و ذخیره شده در رایانه کاربر است که برای دسترسی های آینده آماده می شود.

برخی موانع این رهیافت، عبارت اند از:

گروه طراحی باید نرم افزار خاصی را گسترش دهند و کاربران نهایی باید آن را نصب کنند.

این فن، در قیاس با بسیاری از سیستم عامل ها و مرورگرهای وب، دستیابی دشوارتری دارد. (Suneetha and Krishnamoorthi 2009, 327-328)

لاگ کاربران، فرصتی عالی برای حصول بصیرتی درباره چگونگی کاربرد موتور جست وجو و اینکه علاقه مندی های کاربر کدام است، فراهم می آورد؛ زیرا این لاگ کاربران، پیشینه کاملی از آنچه کاربران برای قالب زمانی خاص جست وجو کرده اند، شکل می دهد. آنچه جذاب است، این است که لاگ کاربران به شکل نامحسوس و بدون اینکه بر تعامل طبیعی کاربر با نظام جست وجو مزاحمتی ایجاد کند، گرد می آیند. بسته به چگونگی گردآمدن اطلاعات، لاگ ها ممکن است دربردارنده اطلاعات اضافی باشد؛ مانند هویت کاربران (مثلاً از طریق نامی که وارد نظام کتابخانه شده، نشانی آی.پی یا کوکی ها)، مکان کاربران یا نتایجی که در پاسخ به هر پرس وجو از سوی کاربر کلیک می شود. در این نمونه، نام های لاگ کلیک یا داده کلیک عمومی تر است.

این اطلاعات که در لاگ کاربران پوشیده است، به شیوه های گوناگون بسیار به کاربرده می شود؛ برای نمونه، برای فراهم آوردن متن حین جست وجو، برای دسته بندی پرس وجوها، برای استنتاج علاقه مندی های کاربر، برای سهولت شخصی سازی، برای آشکارکردن جنبه های گوناگون یک موضوع، در مطالعات گوناگون، پژوهشگران و اپراتورهای موتورهای جست وجو اطلاعاتی از لاگ کاربران برای آموختن چیزهایی درباره فرایند جست وجو و برای بهبود موتورهای جست وجو، به کار می برده اند. از مطالعات نخستین از لاگ های ایجادشده به وسیله کاربران نظام های فهرست کتابخانه ها، برای مطالعات بعدی این لاگ های موضوع های متون خاص، موتورهای جست وجوی وب یا قصد کاربران استفاده می کردند. مطالعات اخیرتر، لاگ کاربران را برای موتورهای جست وجوی برخط درباره نشریات زیست پزشکی و جست وجوی چندرسانه بررسی کرده اند. در کنار یادگیری درباره موتورهای جست وجو یا کاربرانشان، لاگ های کاربر همچنین برای استنتاج مفاهیم مفهومی یا روابط نیز به کار می روند. طبیعتاً، تحلیل لاگ پرس وجوهای کاربر، با محدودیت هایی همراه اند؛ برای نمونه، نمی توان هویت شخص پشت رایانه را شناسایی نمود و اطلاعات مردم نگارانه تعیین کرد و دلیل جست وجو، یعنی اطلاعات اساسی مورد نیاز، ثبت نمی شود.

لاگ کاربران، همچنین، به مثابه منبعی باارزش برای اطلاع دادن از جنبه های خاصی از بازیابی اطلاعات لحاظ می شوند. لاگ های کاربران، دیدگاهی خاص درباره بازیابی اطلاعات، مانند انواع اطلاعات جزئی خاص که کاربران نوعاً جست وجو می کنند یا کمک به شناسایی تنگناها با استفاده از فناوری های جدید، به دست می دهند. در این شیوه، از اطلاعات به دست آمده از لاگ کاربران، ممکن است در باب اینکه بر کدام جنبه ها از فناوری بازیابی باید تأکید شود، تصمیم سازی کنند.

رفتار اطلاع یابی

الگوهای پیچیده ای از اعمال و تعامل مردم هنگامی که به جست وجوی اطلاعات از هر نوع از انواع گوناگون و برای هرگونه از هدفی مشغول اند، رفتار اطلاع یابی خوانده می شود. رفتار اطلاع یابی همانند «نیازهای اطلاعات»، باید به شکل صریح و آشکار استفاده شوند و مزیت و سودمندی آن، بیشتر در قدرت دلالت آشکار آن است؛ نه در اشاره ضمنی اش؛ یعنی در دلالت آشکارش بر حضور چنان فعالیت ها یا الگوهاست؛ نه در فراهم آوردن هرگونه عوارضی که به شکل ضمنی توصیف می کند. با این بیان، راه های بسیاری می توان نشان داد که در آنجا اطلاعات مشاهده می شوند. این بیان، همچنین، همه شکل های جست وجوی اطلاعات را در برمی گیرد. به همین سبب نیز این بیان مشابه نیاز اطلاعات است که در آن، تسهیلات خاصی به خدمت می گیرد. (Ellis 2003, 300)

این مفهوم، در حوزه مطالعه کاربر جایگاه خاص خود را دارد و به همین سبب، ممکن است گمان شود که تاریخش به مطالعه ارتباطات علمی نخستین و استفاده از اطلاعات بازمی گردد. منابع و ارجاع های نخستین به رفتارهای اطلاع جویی، به استفاده دانشمندان از راه های ارتباط علمی رسمی و غیررسمی بازمی گردد. رفتار اطلاع یابی گشوده نوعاً به قیاس متفاوت از مشورت های دانشمندان با دانشگاهیان در استفاده از نشریات، کتاب ها یا به کارگرفتن خدمات چکیده نویسی و نمایه سازی، و دریافت مقالات پیش از انتشار یا بازنشر مقالات همایش ها و منابع همراه آن برحسب مسیر ارتباط اشاره دارد. (Hofmann , et al. 2010)

مطالعه کاربران

در معنایی خاص، مطالعه خصوصیات کاربران کتابخانه ها و یا اطلاعات، در عمل، بیش از آنچه مطالعه کاربران خوانده شود، مطالعه استفاده اوست و البته مطالعه کاربر نیز ملحوظ است؛ هرچند در مقابل مطالعه استفاده کاربر از نظام های اطلاعاتی، مطالعه کاربران، با مردم نگاری و مطالعه و آنچه آن ها انجام می دهند، سروکار بیشتری دارد تا با کتابخانه ها و دیگر سازمان های مرتبط با اطلاعات. مطالعه ای که شکل تحلیل های فروشگاه یا اجتماع به خود می گیرد نیز اطلاعاتی درباره غیر کاربران گرد می آورد.

عبارت «رفتار کاربر» چنان که تعریف شد، بازگوکننده تأکیدها و دیدگاه های گوناگون بود. دیدگاه ها و تأکیدها، نیازهای اطلاعاتی آزموده شده، رفتارهای اطلاع یابی و خصوصیات شخصی کاربر را بررسی می کنند. در مقالات اجلاس ها، کارشناسان گوناگون، اقداماتی از مجموعه جست وجوی اطلاعات را انجام دادند. (Powell 2003, 649)

شیوه ها

مطالعه کاربر ممکن است، به مثابه پژوهش بنیادین یا پژوهش کاربردی/ عملی طراحی شود. نمونه طراحی مطالعه کاربر، به مثابه پژوهش های کاربردی، بیشتر برای گردآوری دادگان ارزیابی به کار می رود. در هر دو رویکرد پژوهشی، مطالعه کاربر ممکن است شیوه های کمی یا کیفی را به مثابه شیوه های مستقیم یا غیرمستقیم به کار برد.

شیوه های پژوهش کمی، شامل رهیافت های حل مسئله است که در ماهیت و استنادش بر کمیت متغیرها به منظور اندازه گیری و تحلیل، استوار است. شیوه های کیفی پژوهش، استناد کمتری بر مقیاس های کمی دارند و توجه بیشتر خود را معطوف جنبه های سوبژکتیو تجربه و رفتار انسان می کند.

شیوه های مستقیم، به گونه بی واسطه بر فراهم آوردن اطلاعات از کاربر تکیه دارد. شیوه های غیرمستقیم، شامل آزمایش برخی از شواهد رفتار کاربر، مانند پیشینه انتشار، و بر پایه آن، استنباط چیزهایی درباره کاربر است. هم شیوه های مستقیم و هم شیوه های غیرمستقیم، ممکن است ماهیتی کمی یا کیفی داشته باشند. (Powell 2003, 649)

پرس و جو های هوشمند

به منظور کار در جهت اهداف بیان شده برای بهبود نظام های جست وجو، معتقدیم که نیازمند برخی شناخت ها درباره فرایندهای اخیر جست وجو مانند تعامل با نظام هستیم. وقتی می توانیم این فرایند را بهتر بفهمیم، بهتر می توانیم محدودیت های اخیر نظام جست وجو را بشناسیم.

در واقع، ما شاید بخواهیم تفسیر کامل از الگوی کاربر داشته باشیم که دربردارنده متون شخصی کاربر، متن کار، قصد، و امور دیگر است. از آنجا که ساختن چنین الگوی کاملی، غیرعملی است، باید در پی جایگزین ها یا چیزهای مشابه باشیم و لاگ های کاربر، چنین جایگزین و مشابهی است.

بنابراین، مسئله این است که چه اندازه تحلیل پرس وجو می تواند در درک بهتر فرایند جست وجو سهیم باشد. یکی از مزیت های لاگ پرس وجوها این است که لاگ کاربران، میزان بسیاری از فعالیت های کاربران فراوان را فرا چنگ می آورد. این کار به ما اجازه می دهد تا به شکل رضایت بخشی دادگان گردآمده را، برای نمونه در استفاده از داده کاوی، برای مشخص کردن الگوهایی که هنگام بررسی مجموعه کوچکی از کاربران آشکار نمی شوند، تحلیل کنیم.

یکی از محدودیت ها، این است که لاگ پرس وجوها، تنها دیدگاهی محدود درباره تعامل کاربران با نظام جست وجو به دست می دهد. هر فعالیتی ممکن است به شیوه های گوناگون تفسیر شود؛ برای نمونه، شخصی پرس وجوی «دختری با گوشواره مروارید» را به نظام جست وجو عرضه کرده است و ممکن است خواسته باشد یک عکس از نقاشی ای خاص را ببیند، نام نقاش را بیابد یا داستان هایی درباره چگونگی ایجاد آن بخواند.

در عرضه پاسخی متناسب با خواست کاربران، باید همانند مفسران کتاب ها، تفسیرهایی از اینکه کدام یک از اسناد موجود در مخزن کتابخانه ها درخور خواست کاربر است، به دست دهیم و برای دقیق تر کردن تفاسیر، نیازمند بررسی و تحلیل لاگ کاربرانیم. در تحلیل لاگ کاربران هم تفاسیر گوناگون ممکن است آزموده شود تا درک درستی از اینکه کدام یک از انواع شیوه های واقعی تحلیل لاگ پرس وجوی کاربر استخراج شود. سرانجام، تنها شخصی که یک جست وجوی واقعی را انجام می دهد می داند که پرس وجوی کاربران در پی چیست و حتی گاه آن ها نیز در صورت بندی نیازشان مشکل دارند، یا تنها کاربر می تواند تعیین کند که کدام فقره از فقراتی را که در نتایج جست وجوست، به پرسش او پاسخ داده است. (Inegversen 2003, 302)

به سوی تقویت مفهومی لاگ کاربران

فهم کامل از فرایند جست وجو، ممکن نیست؛ ما باید در جهات استفاده ممکن از این منابع که به تازگی به دست آورده ایم، تلاش کنیم و در پی انواع تحلیل های قوی، مقیاس پذیر و تکرارپذیر باشیم.

دیدگاه ما این است که لاگ باید بر توسعه مفهومی لاگ کاربر تمرکز کند؛ یعنی حاشیه نویسی هایی که کاربر انجام می دهد، زبانی که در آن یک پرس وجو مطرح می شود، همه موجودیت های نام ها که در پرس وجوست و روابطی که میان اجزای گوناگون این پرس وجو وجود دارد، تعیین کند.

برای نمونه، ما می توانیم مشاهده کنیم که پرس وجوهای پربسامد دربردارنده اسناد لاگ های موجودیت های نام است. این نکته جالبی است که از میان متون چندزبانه، موجودیت نام ها در بسیاری از زبان ها یکسان است؛ یعنی ترجمه اندک ممکن است ضروری باشد؛ اما همچنین این معنا را می دهد که تشخیص زبان بسیاری از پرس وجوها دشوار است. با این حال، تغییرات در میان زبان ها وجود دارد و در نمونه هایی چون عنوان کتاب ها، شیوه هایی از ترجمه که از ساختار آماری استفاده می کند، ممکن است سودمند باشد.

بنابراین، آنچه ما پیشنهاد کرده ایم، به شکل خودکار و از طریق فراهم آوردن پیوندهایی (در متن، با اطلاعات نشست ها) به یک یا چند منبع اطلاعات زمینه که برای حوزه های علوم سازمان یافته از آن لاگ ها مانند اصطلاح نامه، فهرست راهنما، ویکی پدیا، دادگان پیوند خورده باز پرس و جوها را پربارتر می کند.

این وظیفه تقویت لاگ هوشمند، ممکن است درپوششی فراگیر و حالتی استوار محقق شود. تا زمان اخیر، رویکردهایی به سازمان دهی خودکار پرس وجوها از یک لاگ جست وجو، بیشتر بر تعریف پیشین فهرستی از اصطلاح هایی که به شکل موضوعی دسته بندی شده بود ابتناء داشت که مقابل پرس وجوهای لاگ گذاشته می شد و ساختن لاگ به شکل دستی یا نیمه خودکار انجام می گرفت. هنگامی که این رهیافت به دقت بسیار بالا دست یافت، این امر به پوشش بسیار کم، مثلاً 8% از پرس وجوهای یگانه برای شیوه نیمه خودکار، و 13% برای شیوه دستی، انجامید. میشنه (Mishne) و دی ریجکه (de Rijke)، رهیافتی متفاوت برای سازمان دهی پرس وجوها پیش گرفتند که ذاتاً پوشش و فراگیری را افزایش می داد؛ اما سطح دقت بالا را معلق می گذاشت. رهیافت ایشان، بر دسته بندی های خارجی با دسترسی به میزان گسترده داده خدمات جست وجوی وب مبتنی بر دسته بندی، یعنی فهرست راهنمای یاهو و فروگل، مبتنی بود. میج (Meij) و دیگران، از یک رهیافت مبتنی بر ویژگی که اجرای با کیفیت بالا و پوشش بسیار گسترده دارد، استفاده کرده اند تا میان پرس وجوهای ارسال شده به دی.بی پدیا (DBpedia) در ارتباط با ویژگی های مبتنی بر جست وجو و مفاهیم خاص، و اعمال روش های خود برای انتقال بایگانی رادیوتلویزیون ملی آلمان، پیوند ایجاد کنند. مؤلفان همچنین، راهنماها و مجموعه آزمایش هایی برای این وظایف پیوندکننده فراهم می کنند؛ درحالی که آن حقیقت بنیادین ممکن بود در یک حالت قابل اطمینان، با اثر نسبتاً اندکی ریشه داشته باشد. هورنینک (Huurnink) و دیگران، نشان دادند که اطلاعات اثربخش ممکن است برای به دست آوردن بصیرت هایی برای رفتارهای جست وجوی کاربران به وسیله انباشتن اطلاعات مرتبط شده به آن، استفاده شود.

با استفاده از چنین رهیافت هایی می توان جست وجو و رتبه بندی نتایج عرضه شده در پاسخ به پرس وجوی کاربران را به گونه ای ساخت که هر کاربر برحسب میزان اطلاعات و سطح دانش و سوادی که دارد، از اطلاعات بهره ببرد. سطح سواد کاربران را می توان از رفتارهای اطلاع یابی و اصطلاح هایی که برای پرس وجو عرضه می کنند، بازشناخت. (Hofmann , et al. 2010, 4-5)

منابع:

1. Ellis, David. 2003. "informationseeking behaviour." In International encyclopdia of information and library science, by John Feather and Paul Sturges, 300-301. London: Routledge.
2. Goel, Neha , and C.K. Jha. 2013. "Analyzing Users Behavior from Web Access Logs using Automated Log Analyzer Tool." International Journal of Computer Applications 29-33.
3. Hofmann , Katja , Maarten de Rijke, Bouke Huurnink, and Edgar Meij. 2010. "A Semantic Perspective on Query Log Analysis." (ISLA, University of Amsterdam).
4. Inegversen, Peter. 2003. "information-seeking research." In International encyclopdia of information and library science, by John Feather and Paul Sturges, 301-303. London: Routledge.
5. Powell, Ronald R. 2003. "USER STUDIES." In International Encyclopedia of Information and Library Science, by John Feather and Paul Sturges, 648-650. London: Routledge.
6. Suneetha, K. R. , and R. Krishnamoorthi. 2009. "Identifying User Behavior by Analyzing Web Server Access Log File." IJCSNS International Journal of Computer Science and Network Security 327-332.