ره آورد نور

Skip to content

مروری بر مفاهیم داده کاوی

پنج شنبه, 30 شهریور 1391 ساعت 15:17

نویسنده:

راحله یوسفی و امیر غلامی

اندازه قلم کاهش اندازه قلم افزایش اندازه قلم
چاپ
پست الکترونیکی

این مورد را ارزیابی کنید

1
2
3
4
5

(1 رای)

چکیده
داده‌کاوی، شامل بهره‌گیری از ابزارهای آنالیز داده‌های پیچیده برای کشف الگوهای موجود و روابط ناشناخته‌ میان داده‌ها در حجمی وسیع می‌باشد. این ابزارها شامل مدل‌های آماری، الگوریتم‌های ریاضی و متدهای یادگیری ماشین می‌باشد؛

الگوریتم‌هایی که بازدهی خود را به صورت خودکار از طریق تجربه افزایش می‌دهند، مانند شبکه‌های عصبی و درخت‌های تصمیم‌گیری. نتیجه داده‌کاوی، علاوه بر جمع‌آوری و مدیریت داده‌ها، در برگیرنده آنالیز و پیش‌بینی‌هایی نیز می‌باشد. داده‌کاوی می‌تواند روی داده‌های ارائه‌شده در فرم‌های عددی متنی و یا چند رسانه‌ای اعمال شود. کشف پول‌‌شویی و فساد مالی و به دست آوردن نتایج راهبردی جهت تصمیم‌گیری‌های آینده، از مهم‌ترین کاربردهای آن به شمار می رود. در این مقاله ابتدا مفاهیم اصلی و اولیه داده‌کاوی معرفی می‌شود و در ادامه، به نمونه‌هایی از کاربرد آن اشاره می‌نماییم.

واژگان کلیدی: داده‌کاوی، انبار داده‌ها، اکتشاف علوم.

مقدمه

در دنیای به‌شدت رقابتی امروز، اطلاعات به عنوان یکی از فاکتورهای تولیدی مهم پدیدار شده است. در نتیجه، تلاش برای استخراج اطلاعات از داده‌ها توجه بسیاری از افراد دخیل در صنعت اطلاعات و حوزه‌های وابسته را به خود جلب نموده است.

حجم بالای داده‌های دائماً در حال رشد در همه حوزه‌ها و نیز تنوع آن‌ها به شکل داده متنی، اعداد، گرافیک‌ها، نقشه‌ها، عکس‌ها، تصاویر ماهواره‌ای و عکس‌های گرفته‌شده با اشعه ایکس، نمایانگر پیچیدگی کار تبدیل داده‌ها به اطلاعات است. علاوه بر این، تفاوت وسیع در فرآیندهای تولید داده مثل روش آنالوگ مبتنی بر کاغذ و روش دیجیتالی مبتنی بر رایانه، مزید بر علت شده است. استراتژی‌ها و فنون متعددی برای گردآوری، ذخیره، سازماندهی و مدیریت کارآمد داده‌های موجود و رسیدن به نتایج معنا‌دار به کار رشده‌اند. به علاوه، عملکرد مناسب ابرداده که داده‌ای درباره داده است، در عمل عالی به نظر می‌رسد (2005، Patkar).

انقلاب دیجیتالی که منجر به دیجیتال شدن اطلاعات شد، گردآوری، پردازش، نگهداری، توزیع و انتقال اطلاعات را آسان کرده است (1996، Fayyad, et al).

پیشرفت‌های حاصله در علم اطلاع‌رسانی و فناوری اطلاعات، فنون و ابزارهای جدیدی برای غلبه بر رشد مستمر و تنوع بانک‌های اطلاعات تأمین می‌کنند. این پیشرفت‌ها هم در بعد سخت‌افزاری و هم نرم‌افزاری حاصل شده‌اند. ریزپردازنده‌های سریع، ابزارهای ذخیره داده‌های انبوه پیوسته و غیر پیوسته، اسکنرها،‌ چاپگرها و دیگر ابزارهای جانبی، نمایانگر پیشرفت‌های حوزه سخت‌افزار هستند. پیشرفت‌های حاصل در نظام‌های مدیریت بانک اطلاعات در طی چهار دهه گذشته، نمایانگر تلاش‌های بخش نرم‌افزاری است. این تلاش‌ها در بخش نرم‌افزار را می‌توان به عنوان یک حرکت پیشرونده از ایجاد یک بانک اطلاعات ساده تا شبکه‌ها و بانک‌های اطلاعاتی رابطه‌ای و سلسله‌مراتبی برای پاسخگویی به نیاز روزافزون سازماندهی و بازیابی اطلاعات ملاحظه نمود. بدین منظور، در هر دوره، نظام‌های مدیریت بانک اطلاعات مناسب، سازگار با نرم‌افزار سیستم عامل و سخت‌افزار رایج گسترش یافته‌اند. در این باره می‌توان از محصولاتی مانند: Sybase, Oracle, Dbase-IVو Unify نام برد. داده‌کاوی، یکی از پیشرفت‌های اخیر در راستای فناوری‌های مدیریت داده‌ها است. داده‌کاوی، مجموعه‌ای از فنون است که به شخص امکان می‌دهد تا ورای داده‌پردازی معمولی حرکت کند و به استخراج اطلاعاتی که در انبوه داده‌ها مخفی و یا پنهان است، کمک می‌کند. انگیزه برای گسترش داده‌کاوی به طور عمده از دنیای تجارت در دهه 1990 پدید آمد؛ به طور مثال، داده‌کاوی در حوزه بازاریابی، به دلیل پیوستگی غیر قابل انتظاری که بین پروفایل یک مشتری و الگوی خرید او ایجاد می‌کند، اهمیت خاص دارد (Berry and Linoff, 1997).

تحلیل رکوردهای حجیم، نگهداری سخت‌افزارهای صنعتی، داده‌های هواشناسی و دیدن کانال‌های تلوزیونی، از دیگر کاربردها آن است. در حوزه مدیریت کتابخانه، کاربرد داده‌کاوی به عنوان فرایند مأخذکاوی نامگذاری شده است.

تعاریف داده‌کاوی

داده‌کاوی، پل ارتباطی میان علم آمار، علم رایانه، هوش مصنوعی، الگوشناسی، فراگیری ماشین و بازنمایی بصری داده می‌باشد.

داده‌کاوی، فرآیندی پیچیده جهت شناسایی الگوها و مدل‌های صحیح، جدید و به صورت بالقوه مفید، در حجم وسیعی از داده می‌باشد؛ به طریقی که این الگوها و مدل‌ها برای انسان‌ها قابل درک باشند.

داده‌کاوی، به صورت یک محصول قابل خریداری نمی‌باشد؛ بلکه یک رشته علمی و فرآیندی است که بایستی به صورت یک پروژه پیاده‌سازی شود.

عبارت داده‌کاوی، مترادف با یکی از عبار‌ت‌های استخراج دانش، برداشت اطلاعات، وارسی داده‌ها و حتی لایروبی کردن داده‌ها است که در حقیقت کشف دانش در پایگاه داده‌ها (KDD) را توصیف می‌کند. بنابراین، ایده‌ای که مبنای داده‌کاوی است، یک فرآیند با اهمیت از شناخت الگوهای بالقوه مفید، تازه و در نهایت قابل درک در داده‌ها است. واژه کشف دانش در پایگاه داده‌ها، در اوایل دهه 80 در مراجعه به مفهوم کلی، گسترده، سطح بالا و به دنبال جستجوی دانش در اطلاعات شکل گرفته است. داده‌کاوی، کاربرد سطح بالای فنون و ابزار به‌کار برده‌شده برای معرفی و تحلیل داده‌های تصمیم‌گیرندگان است. اصطلاح داده‌کاوی را آمارشناسان، تحلیل‌گران داده‌ها و انجمن سیستم‌های اطلاعات مدیریت به کار برده‌اند؛ در حالی که پژوهشگران یادگیری ماشین و هوش مصنوعی، از KDD (اکتشاف علوم) بیشتر استفاده می‌کنند. برنامه‌های کاربردی داده‌کاوی می‌توانند از پارامترهای متنوعی برای رسیدگی به داده‌ها استفاده کنند. برخی از این پارامترها برای رسیدگی به داده‌ها به شرح زیر می‌باشند:

-ترکیبات: نمونه‌هایی که در آن‌ها یک رویداد به رویداد دیگری وابسته است، همچون خرید یک خودکار و خرید کاغذ.

-تحلیل ترتیب یا روش: نمونه‌هایی که در آن‌ها انجام یک رویداد، منجر به رویداد دیگری می‌شود،‌ همچون تولد یک نوزاد و خرید نیازمندی‌های او.

-طبقه‌بندی: شناسایی نمونه‌های جدید، مثل تطابق بین لوله‌های خریداری شده و درپوش‌های پلاستیکی آن‌ها.

-دسته‌بندی: یافتن و مستندسازی بصری گروه‌هایی از حقایق ناشناخته قبلی، مثل موقعیت جغرافیایی و نشان‌های تبلیغاتی.

-پیش‌بینی: کشف و یافتن نمونه‌هایی که بتوان از آن‌ها پیش‌بینی‌های منطقی به عمل آورد؛ مثلاً افرادی که در یک کلوپ ورزشی سرمایه‌گذاری می‌کنند، ممکن است در کلاس‌ها و برنامه‌های ورزشی شرکت کنند.

داده‌کاوی، کاربرد فنون یادگیری ماشین بر روی پایگاه داده برای کشف دانش‌ها و الگوهای نهفته در داده‌های پایگاه می‌باشد.

داده‌کاوی، اکتشاف و تحلیل مقادیر زیاد داده برای استخراج الگوها و قوانین با معنای درون پایگاه را انجام می‌دهد. (سعیدی، 1379).

به طور کلی، داده‌ها در جهان واقعی آلوده هستند. این داده‌های بی‌کیفیت،‌ ناقص، پرخطا و متناقض می‌باشند. بدیهی است که داده‌های بی‌کیفیت، همیشه منجر به نتایج بی‌کیفیت می‌شوند.

داده‌کاوی، با استفاده از رایانه به جمع‌آوری اطلاعات سودمند از بین حجم عظیمی از داده‌های ذخیره‌شده در پایگاه داده‌ها که چه بسا تا حد زیادی بی‌کیفیت هستند، می‌پردازد تا ساختارهای با ارزش، الگوها، ارتباطات،‌ اصول و ارزش‌های پنهانی داده‌ها را کشف نماید.

زیربنای داده‌کاوی

فنون داده‌کاوی، نتیجه تحقیقات گسترده و بلند مدتی است که در طول سال‌ها برای افزایش بازدهی تجاری مؤسسات به‌کار برده می‌شدند. تحقیقات در این زمینه از زمانی آغاز شد که برای نخستین‌بار اطلاعات تجاری هر سازمان، روی سیستم‌های ذخیره‌سازی آن زمان که از نوع مغناطیسی بودند، ذخیره شدند. این رشته تحقیقات با توسعه و پیشرفت سیستم‌های اطلاعات که قابلیت ذخیره‌ حجم بیشتری از داده‌ها را فراهم می‌کردند و همچنین از سرعت بسیار بالاتری در ذخیره‌سازی و بازیابی اطلاعات برخوردار بودند، اهمیت بیشتری یافت. روش‌های دسترسی تصادفی به اطلاعات و پیدایش روش‌های حرکت در میان داده‌ها، خصوصاً به صورت بلادرنگ، فناوری داده‌کاوی را متحول ساخت.

روش‌های داده‌کاوی، بر پایه‌های زیر استوار هستند:

گردآوری حجم عظیمی داده؛
رایانه‌های چند پردازنده قدرتمند؛
الگوریتم‌های داده‌کاوی.

در سال‌ 1960م صنعت گردآوری اطلاعات و امکان ذخیره‌ داده‌ها در تجهیزاتی نظیر نوار و دیسک توسط شرکت‌هایی که IBM و CDC از پیشگامان آن‌ها بودند، شکل تجاری به خود گرفت. با رواج چنین مکانیسم‌هایی، تبادل استاتیک اطلاعات امکان‌پذیر شده، پرسش‌های تجاری از قبیل آن‌که «سود خالص شرکت در پنج سال آخر فعالیت چقدر بوده است؟» پاسخ داده می‌شود. 20 سال بعد از فناوری فوق، با پیشرفت‌های نرم‌افزاری و استفاده از بانک‌های اطلاعاتی رابطه‌ای (RBDMS) و زبان جستجوی ساخت‌یافته (SQL) توسط شرکت‌های موفقی همچون IBM, INFORMIX, SYBASE, ORACLE و MICROSOFT اطلاعات در همان لحظه‌ ثبت شدن قابل تبادل بودند؛ به عبارت دیگر، تبادل اطلاعات به صورت دینامیک امکان‌پذیر شده بود. نمونه‌ای از سؤالات تجاری که این سیستم پاسخگوی آن است، چنین بود: «مقدار فروش شعب [کشور یا شهر مورد نظر] در ماه مارس گذشته چه میزان بوده است؟» در سال‌های دهه نود نوبت به فناوری‌هایی همچون DATAWARE HOUSING و امکانات تصمیم‌گیری نرم‌افزاری رسید.

اساس داده‌کاوی

داده‌کاوی، بر مبنای سه فعالیت اصلی استوار است که ذیلاً به آن‌ها اشاره می‌شود:

حذف داده‌ها: داده‌های بی‌ارزش و عوامل بیرونی حذف می‌شوند؛
فشرده‌سازی داده‌ها: این عمل به وسیله کدگذاری داده‌ها صورت می‌گیرد.
کشف الگوها: الگوهای موجود در پایگاه داده‌ها از قبیل: طبقه‌بندی، الگوهای زنجیری و... کشف می‌شوند.

عناصر داده‌کاوی

توصیف و کمک به پیش‌بینی، دو کارکرد اصلی داده‌کاوی هستند. تحلیل داده مربوط به مشخصه‌های انتخابی متغیرها از گذشته و حال، و درک الگو، مثالی از تحلیل توصیفی است. برآورد ارزش آینده یک متغیر و طرح‌ریزی کردن روند، مثالی از توانایی پیشگویانه داده‌کاوی است.

برای عملی شدن هر یک از دو کارکرد فوق الذکر داده‌کاوی، چند گام ابتدایی، اما مهم باید اجرا شوند که از این قرارند:

انتخاب داده‌ها؛
پاک‌سازی داده‌ها؛
غنی‌سازی داده‌ها؛
کدگذاری داده‌ها.

با دارا بودن هدف کلی در مطالعه، انتخاب مجموعه داده‌های اصلی برای تحلیل، اولین ضرورت است. رکوردهای لازم می‌تواند از انبار داده‌ها و یا بانک اطلاعاتی عملیاتی استخراج شود. این رکوردهای داده جمع‌آوری شده، اغلب از آنچه آلودگی داده‌ها نامگذاری شده است، رنج می‌برند و بنابراین، لازم است پاکسازی شوند تا از یکدستی فرمت (شکل) آن‌ها اطمینان حاصل شود، موارد تکراری حذف شده و کنترل سازگاری دامنه به عمل آید. ممکن است داده‌های گردآوری‌شده از جنبه‌های خاصی ناقص یا ناکافی باشند. در این صورت، داده‌های مشخصی باید گردآوری شوند تا بانک اطلاعاتی اصلی را تکمیل کنند. منابع مناسب برای این منظور باید شناسایی شوند. این فرایند، مرحله غنی‌سازی داده‌ها را تکمیل می‌کند. یک سیستم کدگذاری مناسب، معمولاً جهت انتقال داده‌ها به فرم ساختاربندی‌شده جدید، متناسب برای عملیات داده‌کاوی تعبیه می‌شود.

نگاهی مختصر به دو نمونه از الگوریتم‌های داده‌کاوی

رگرسیون (regression): از قدیمی‌ترین و معروف‌ترین فنونی است که در داده‌کاوی به کار می‌رود. اساساً رگرسیون یک مجموعه اطلاعات و داده را در اختیار گرفته و یک فرمول ریاضی متناسب با آن داده‌ها ایجاد می‌کند و زمانی‌که شما بخواهید از نتایج داده‌هایتان آینده را پیش‌بینی کنید، کافی است داده‌های جدید خود را به فرمول تولید شده توسط رگرسیون داده و نتایج حاصل را که همان پیش‌بینی‌های مورد نظر شما است، دریافت دارید. محدودیت اصلی این فن در آن است که تنها با مقادیر داده‌ای پیوسته همچون: وزن، سرعت و... به‌خوبی کار می‌کند. در صورتی که شما با مقادیر داده‌ای گسسته مانند: رنگ، جنسیت و اسم سر و کار دارید، بهتر است فن دیگری را برای این کار انتخاب کنید.
طبقه‌بندی (classification): اگر شما با داده‌های طبقه‌بندی شده و یا ترکیبی از داده‌های عددی و دسته‌بندی شده سر و کار دارید، تحلیل‌های طبقه‌بندی شده، نیاز شما را مرتفع می‌کند. این فن، توانایی پردازش مجموعه‌های وسیع‌تری از داده‌ها را ـ نسبت به فن رگرسیون ـ داشته و در حال گسترش عمومی می‌باشد. همچنین خروجی‌ای که شما در این حالت دریافت می‌کنید، از لحاظ پیچیدگی بسیار ساده‌تر است و راحت‌تر تفسیر می‌شود. در این روش، شما به جای دریافت فرمول‌های ریاضی پیچیده، یک درخت تصمیم‌گیری را که حاوی تعدادی تصمیم مشخص دو حالته (binary) می‌باشد، دریافت می‌کنید.

رگرسیون و طبقه‌بندی، دو مورد از پرکاربردترین روش‌های طبقه‌بندی اطلاعات هستند؛ اما این دو، تنها تکه‌ای از یک مجموعه بزرگ هستند.

کاربرد علم آمار در داده‌کاوی

همان‌گونه که واضح است، با گذشت زمان علم نیز پیشرفت می‌کند، هر چه به جلوتر می‌رویم، روش‌های جدیدتر و بهتر مورد استفاده قرار می‌گیرد. علم امروز نسبت به دیروز جدیدتر است. روش‌های جدید علمی، در پی کشف محدودیت‌های روش‌های قدیمی ایجاد می‌شود و از آن‌جایی که روش‌های آماری، جزء روش‌های قدیمی Data mining محسوب می‌شوند، از این قاعده کلی که دارای محدودیت هستند، مستثنا نیستند. داشتن فرض اولیه در مورد داده‌ها، یکی از این موارد است. در این‌جا به تشریح بیشتر تفاوت‌های بین مباحث و متدهای آماری و دیگر متدهای داده‌کاوی که در کتاب‌های مختلف بحث شده است، می‌پردازیم.

فنون داده‌کاوی و آماری در مباحثی چون تعریف مقدار هدف برای پیشگویی، ارزشیابی خوب و داده‌های دقیقی (clean data) خوب عمل می‌کنند. همچنین این موارد در جاهای یکسان برای انواع یکسانی از مسائل (پیشگویی، کلاس‌بندی و کشف) استفاده می‌شوند. بنابراین، تفاوت این دو چیست؟ چرا ما آن‌چنان که علاقه‌مند به کاربردن روش‌های داده‌کاوی هستیم، علاقه‌مند روش‌های آماری نیستیم؟ برای جواب این سؤال، چندین دلیل وجود دارد: اول این‌که روش‌های کلاسیک داده‌کاوی از قبیل شبکه‌های عصبی و فنون نزدیک‌ترین همسایه، روش‌های قوی‌تری برای داده‌های واقعی به ما می‌دهند و همچنین استفاده از آن‌ها برای کاربرانی که تجربه کمتری دارند، راحت‌تر است و بهتر می‌توانند از آن استفاده کنند. دلیل دیگر این‌که معمولاً داده‌ها اطلاعات زیادی در اختیار ما نمی‌گذارند، این روش‌ها با اطلاعات کمتر بهتر می‌توانند کار کنند و همچنین این‌که برای داده‌های وسیع کاربرد دارند.

در جایی دیگر، این‌گونه بیان شده که داده‌های جمع‌آوری‌شده نوعاً خیلی از فرض‌های قدیمی آماری را در نظر نمی‌گیرند، از قبیل این‌که: مشخصه‌ها باید مستقل باشند،‌ تعیین توزیع داده‌ها، داشتن کمترین همپوشانی در فضا و زمان اغلب داده‌ها هم‌پوشانی زیاد می‌دارند و تخلف کردن از هر کدام از فرض‌ها می‌تواند مشکلات بزرگی ایجاد کند؛ زمانی که یک کاربر (تصمیم‌گیرنده) سعی می‌کند که نتیجه‌ای را به دست آورد. داده‌های جمع‌آوری شده، به طور کلی، تنها مجموعه‌ای از مشاهدات چندی بعد است؛ بدون توجه به این‌که چگونه جمع‌آوری شده‌اند.

در جایی پایه و اساس Data mining به دو مقوله آمار و هوش مصنوعی تقسیم شده است که روش‌های مصنوعی به عنوان روش‌های یادگیری ماشین در نظر گرفته می‌شوند. فرق اساسی بین روش‌های آماری و روش‌های یادگیری ماشین (machine learning)، بر اساس فرض‌ها و یا طبیعت داده‌هایی است که پردازش می‌شوند. به عنوان یک قانون کلی، فرض‌های فنون آماری بر این اساس است که توزیع داده‌ها مشخص است که بیشتر موارد فرض بر این است که توزیع، طبیعی است و در نهایت، درستی یا نادرستی نتایج نهایی به درست بودن فرض اولیه وابسته است. در مقابل روش‌های یادگیری، یادگیری ماشین از هیچ فرض در مورد داده‌ها استفاده نمی‌کند و همین مورد، باعث تفاوت‌هایی بین این دو روش می‌شود.

به هر حال، ذکر این نکته ضروری به نظر می‌رسد که بسیاری از روش‌های یادگیری ماشین برای ساخت مدل dataset از حداقل چند استنتاج آماری استفاده می‌کنند که این مسأله به طور خاص، در شبکه عصبی دیده می‌شود.

به طور کلی، روش‌های آماری روش‌های قدیمی‌تری هستند که به حالت‌های احتمالی مربوط می‌شوند. Data mining جایگاه جدیدتری دارد که به هوش مصنوعی،‌ یادگیری ماشین، سیستم‌های اطلاعات مدیریت (MIS) و روش Database مربوط می‌شود.

روش‌های آماری، بیشتر زمانی که تعداد داده‌ها کمتر است و اطلاعات بیشتری در مورد داده‌ها می‌توان به دست آورد، استفاده می‌شوند؛ به عبارت دیگر، این روش‌ها با مجموعه داده‌های کوچک‌تر سر و کار دارند. همچنین به کاربران ابزارهای بیشتری برای امتحان کردن داده‌ها با دقت بیشتر فهمیدن ارتباطات بین داده‌ها می‌دهد؛ بر خلاف روش‌هایی از قبیل شبکه عصبی که فرآیند مبهمی دارد. به طور کلی، این روش در محدوده مشخصی از داده‌های ورودی به‌ کار می‌رود. به‌ کار بردن این روش‌ها، مجموعه داده‌های زیاد احتمال خطا در این روش‌ها را زیاد می‌کند. چون در داده‌ها احتمالnoise و خطا بیشتر می‌شود و نیز روش‌های آماری معمولاً به حذف noise می‌پردازند. بنابراین، خطای محاسبات در این حالت زیاد می‌شود.

در بعضی از روش‌های آماری نیاز داریم که توزیع داده‌ها را بدانیم. اگر بتوان به آن دسترسی پیدا کرد، با به کار بردن روش آماری می‌توان به نتایج خوبی رسید.

روش‌های آماری چون پایه ریاضی دارند، نتایج دقیق‌تری نسبت به دیگر روش‌های Data mining ارائه می‌دهند؛ ولی استفاده از روابط ریاضی، نیازمند داشتن اطلاعات بیشتری در مورد داده‌ها است.

مزیت دیگر روش‌های آماری، در تعبیر و تفسیر داده‌ها است. هر چند روش‌های آماری به جهت داشتن ساختار ریاضی تفسیر سخت‌تری دارند، ولی دقت نتیجه‌گیری و تعبیر خروجی‌ها در این روش بهتر است. به طور کلی، روش‌های آماری زمانی که تفسیر داده‌ها توسط روش‌های دیگر مشکل است، بسیار مفید هستند.

کاربردهای داده‌کاوی

داده‌کاوی در ابتدا از حوزه تجارت برخاست، اما کاربردهای آن در سایر حوزه‌هایی که به گردآوری حجم وسیعی از داده‌هایی می‌پردازند که دستخوش تغییرات پویا نیز می‌گردند، مفید شناخته شد. بخش‌هایی مثل: بانکداری، تجارت الکترونیک، تجارت سهام، بیمارستان و هتل از این نمونه‌اند.

انتظار می‌رود که استفاده از داده‌کاوی در بخش آموزش به طور عام، امکان‌های جدید بسیاری ارائه دهد. برخی کاربردهای داده‌کاوی در کتابخانه‌ها و قسمت اداری آموزش، در ذیل مورد بحث قرار گرفته‌اند.

داده‌کاوی کتابخانه‌ها:‌ عملیات کتابداری، به طور کلی، شامل: مدیریت مدارک، ارائه خدمات و امور اداره و نگهداری است. هر کدام از این کارکردها با انواع مختلفی از داده‌ها سر و کار دارد و به طور جداگانه پردازش می‌شود؛ هر چند انجام تحلیل ترکیبی بر این مجموعه‌های داده نیز می‌تواند افق تازه‌ای را بگشاید که به طرح خدمات جدید و تحول رویه‌ها و عملیات جاری کمک نماید. جدول شماره «1» برخی از کاربردهای ممکن داده‌کاوی را که می‌تواند در کتابداری مفید باشد، ارائه می‌کند.

جدول 1: کاربردهای داده‌کاوی در کتابخانه‌ها

بانک اطلاعاتی	کاربرد متصور
گردآوری منابع	برای تعیین نقاط قوت و ضعف مجموعه
استفاده از مجموعه	برای ایجاد رابطه بین خواننده، منابع کتابخانه و زمان مشخصی از سال
امانت بین کتابخانه‌ای	برای تحلیل سفارش‌های پاسخ داده‌شده و سفارش‌های دریافت شده
داده‌های بخش امانت	برای پیش‌بینی روند بازگشت منابع

داده‌کاوی می‌تواند برای پاسخ دادن به یک سؤال خاص مربوط به کتابخانه و نیز برای کشف روندهای عمومی که به تصمیم‌گیری کمک می‌کنند، استفاده شود؛ برای مثال، سؤال می‌تواند چنین باشد: امکان این‌که امانت گیرندگان منابع را یک هفته بعد از تاریخ عودت برگردانند تا نامه‌های یادآوری کمتری فرستاده شود، چقدر است؟ یا میزان اشتراک مورد انتظار برای نشریات بین المللی انتخاب‌شده برای سال آینده چقدر است؟ درک الگوی استفاده کلی مجلات الکترونیکی یا تحلیل درخواست‌های اعضا برای میکروفیلم‌های طی 5 سال گذشته نیز همگی مثال‌هایی از کشف روندهای عمومی‌اند. دامنه تحلیلی استنادی هم می‌تواند با استفاده از داده‌کاوی گسترش داده شود.

در ارتباط با کتابخانه‌ها، وب‌کاوی حوزه دیگری از علاقه‌مندی است. وب‌کاوی شامل محتواکاوی وب، ساختارکاوی وب و استفاده‌کاوی وب با توجه به یک موضوع خاص است که در طراحی خدمات جدید مبتنی بر وب کمک خواهد کرد.

داده‌‌کاوی در دانشگاه‌ها: مدیریت مؤسسات دانشگاهی، کار پیچیده‌ای است. در این مؤسسات دائماً نیاز به درآمدزایی و خودکارآمدی و کاهش وابستگی به بودجه دولتی احساس می‌شود. این مسأله کنترل دائمی جنبه‌های مختلف هر فعالیت و پروژه را می‌طلبد. بانک‌های اطلاعاتی برای چنین مؤسساتی مربوط به دانشجویان،‌ دانشکده، اساتید و کارمندان، تعداد رشته‌ها و چند مورد دیگر است. ارزیابی تقاضا و وضعیت عرضه نقش مهمی بازی می‌کند. مرور بانک‌های اطلاعاتی نمونه در جدول شماره «2»، نمایانگر کاربردهای بالقوه داده‌کاوی است.

جدول 2: کاربردهای داده کاوی در مؤسسات دانشگاهی

بانک اطلاعاتی	کاربرد متصور
ثبت‌نام دانشگاهی	برای درک رابطه‌های جمعیت شناختی، اقتصادی و اجتماعی
کارایی دانشگاهی	برای ایجاد رابطه بین عوامل اقتصادی ـ اجتماعی و نمرات اخذ شده
بانک سؤالات	برای تعیین میزان مفید بودن سیستم با استناد به نمرات امتحان
همکاری فکری	برای ارزیابی همکاری دانشکده با توجه به میزان استفاده از کتابخانه
انتشارات	برای پیدا کردن تأثیر انتشارات در تقاضا برای رشته‌ها

کاربرد داده‌کاوی، در دانشگاه ملی سنگاپور قابل ملاحظه است. در این دانشگاه از ابزارهای داده‌کاوی برای شناسایی و دسته‌بندی دانشجویانی که به کلاس‌های پیش‌نیاز باری واحد درسی ارائه شده نیاز داشتند، استفاده شد (Kurian and John, 2005) علاوه بر آن، مسائلی مانند اختصاص بهتر منابع و نیروی انسانی، مدیریت روابط دانشجو و به تصویر کشیدن رفتار گروه‌های مختلف می‌تواند به وسیله ابزارهای داده‌کاوی انجام شود.

محدودیت‌ها

کاربرد داده‌کاوی، با چند عامل محدود شده است. اولین مورد به سخت‌افزار و نرم‌افزار لازم و موقعیت بانک اطلاعاتی مربوط می‌شود؛ برای مثال، در هند، داده‌های غیر مجتمع که برای کاربردهای داده‌کاوی لازم است، ممکن است به شکل دیجیتالی در دسترس نباشد. در دسترس بودن نیروی انسانی ماهر در داده‌کاوی نیز مسأله مهم دیگری است. محرمانه بودن رکوردهای مراجعان ممکن است در نتیجه پردازش داده‌های مبتنی بر داده‌کاوی آسیب‌پذیر شود. کتابداران و مؤسسات آموزشی باید این مسأله را در نظر داشته باشند؛ چرا که در غیر این صورت، ممکن است گرفتار شکایات قانونی گردند.

محدودیت دیگر، از ضعف ذاتی نهفته در ابزارهای نظری ناشی می‌گردد. ابزارهایی مانند یادگیری ماشینی و الگوریتم‌های ژنتیکی به کار گرفته شده در فعالیت‌های داده‌کاوی، به مفاهیم و فنون منطق و آمار بستگی دارد. در این حد، نتایج به روش مکانیکی تولید شده و بنابراین، به یک بررسی دقیق نیاز دارند. اعتبار الگوهای به دست آمده به این طریق باید آزمایش شود؛ چرا که در بسیاری موارد روابط علل و معلول مشتق‌شده از برخی استدلالات غلط ذیل رنج می‌برند (Cannavo, 2003).

یکی از نمونه‌های بارز داده‌کاوی را می‌توان در فروشگاه‌های زنجیره‌ای مشاهده نمود، که در آن سعی می‌شود ارتباط محصولات مختلف هنگام خرید مشتریان مشخص گردد. فروشگاه‌های زنجیره‌ای مشتاق‌اند بدانند که چه محصولاتی با یکدیگر به فروش می‌روند.

برای مثال، طی یک عملیات داده‌کاوی گسترده در یک فروشگاه زنجیره‌ای در آمریکای شمالی که روی حجم عظیمی از داده‌های فروش صورت گرفت، مشخص گردید که مردانی که برای خرید قنداق بچه به فروشگاه می‌روند، معمولاً آب جو نیز خریداری می‌کنند. همچنین مشخص گردید مشتریانی که تلویزیون خریداری می‌کنند، غالباً گلدان کریستالی نیز می‌خرند. نمونه مشابه عملیات داده‌کاوی را می‌توان در یک شرکت بزرگ تولید و عرضه پوشاک در اروپا مشاهده نمود؛ به شکلی که نتایج داده‌کاوی مشخص می‌کرد که افرادی که کراوات‌های ابریشمی خریداری می‌کنند، در همان روز یا روزهای آینده، گیره کراوات مشکی رنگ نیز خریداری می‌کنند.

به‌روشنی این مطلب قابل درک است که این نوع استفاده از داده‌کاوی می‌تواند فروشگاه‌ها را در برگزاری هوشمندانه فستیوال‌های فروش و شیوه ارائه اجناس به مشتریان یاری رساند.

نمونه دیگر استفاده از داده‌کاوی در زمینه فروش را می‌توان در یک شرکت بزرگ دوبلاژ و تکثیر و عرضه فیلم‌های سینمایی در آمریکای شمالی مشاهده نمود که در آن عملیات داده‌کاوی، روابط مشتریان و هنرپیشه‌های سینمایی و نیز گروه‌های مختلف مشتریان بر اساس سبک فیلم‌ها (ترسناک، رمانتیک، حادثه‌ای و...) مشخص گردید.
بنابراین، آن شرکت به صورت کاملاً هوشمندانه می‌توانست مشتریان بالقوه فیلم‌های سینمایی را بر اساس علاقه مشتریان به هنرپیشه‌های مختلف و سبک‌های سینمایی شناسایی کند.

از دیگر زمینه‌های به کارگیری داده‌کاوی، استفاده بیمارستان‌ها و کارخانه‌های داروسازی جهت کشف الگوها و مدل‌های ناشناخته تأثیر داروها بر بیماری‌های مختلف و نیز بیماران گروه‌های سنی مختلف را می‌توان نام برد.

استفاده از داده‌کاوی در زمینه‌های مالی و بانکداری، به شناخت مشتریان پر خطر و سودجو بر اساس معیارهایی از جمله: سن، درآمد، وضعیت سکونت، تحصیلات و شغل می‌انجامد.

از سال 1950م که رایانه در تحلیلی و ذخیره‌سازی داده‌ها به کار رفت، حجم اطلاعات ذخیره‌شده در آن با گذشت زمان بیشتر شده و همچنین رو به فزونی است. بسیاری از پایگاه‌های داده‌ها چنان گسترش یافته‌اند که شامل چند صد میلیون یا چندین میلیارد رکورد ثبت‌شده هستند و امکان تحلیلی و استخراج اطلاعات با روش‌های معمول و کلاسیک آماری از این پایگاه داده‌ها، مستلزم داشتن دانش و ابزارهای توانمندتر است. از طرفی، شدت رقابت‌ها در عرصه‌های: علمی، اجتماعی، اقتصادی، سیاسی و نظامی نیز اهمیت سرعت یا زمان دسترسی به اطلاعات را افزایش داده است. بنابراین،‌ نیاز به طراحی سیستم‌هایی که قادر به اکتشاف سریع اطلاعات مورد علاقه کاربران با تأکید بر حداقل دخالت انسانی باشند، از یک سو و روی آوردن به روش‌های تحلیلی متناسب با حجم داده‌های زیاد از سوی دیگر، به‌خوبی احساس می‌شود. در حال حاضر، داده‌کاوی مهم‌ترین فناوری برای بهره‌برداری مؤثر، صحیح و سریع از داده‌های حجیم بوده و اهمیت آن رو به افزایش است.

منابع:

2. Berry, M and G. Linoff. 1997. Data Mining Techniques for marketing, sales, and customer support. New York.
3. Cannavo, S. 2003. The Power of Logic in Everyday Life. Munbai: Magna Pubishing Co.Ltd.
4. Fayyad, U, M. Piatetsdy – Shapiro, G, Smyth, P. 1996, from Data Mining to knowledge Discovery: An overview. In 1994 KDD workshop.
5. Kurian, Joseph. 2005. Mining the Education. Annals of Library Science and Documentation.
6. Patkar, V. N. 2005. Data mining applications in library and academic institutions. Information Studies Journal of Science Direct.
7. www.ejournal. Irandoc.ir