الگوریتمهایی که بازدهی خود را به صورت خودکار از طریق تجربه افزایش میدهند، مانند شبکههای عصبی و درختهای تصمیمگیری. نتیجه دادهکاوی، علاوه بر جمعآوری و مدیریت دادهها، در برگیرنده آنالیز و پیشبینیهایی نیز میباشد. دادهکاوی میتواند روی دادههای ارائهشده در فرمهای عددی متنی و یا چند رسانهای اعمال شود. کشف پولشویی و فساد مالی و به دست آوردن نتایج راهبردی جهت تصمیمگیریهای آینده، از مهمترین کاربردهای آن به شمار می رود. در این مقاله ابتدا مفاهیم اصلی و اولیه دادهکاوی معرفی میشود و در ادامه، به نمونههایی از کاربرد آن اشاره مینماییم.
واژگان کلیدی: دادهکاوی، انبار دادهها، اکتشاف علوم.
مقدمه
در دنیای بهشدت رقابتی امروز، اطلاعات به عنوان یکی از فاکتورهای تولیدی مهم پدیدار شده است. در نتیجه، تلاش برای استخراج اطلاعات از دادهها توجه بسیاری از افراد دخیل در صنعت اطلاعات و حوزههای وابسته را به خود جلب نموده است.
حجم بالای دادههای دائماً در حال رشد در همه حوزهها و نیز تنوع آنها به شکل داده متنی، اعداد، گرافیکها، نقشهها، عکسها، تصاویر ماهوارهای و عکسهای گرفتهشده با اشعه ایکس، نمایانگر پیچیدگی کار تبدیل دادهها به اطلاعات است. علاوه بر این، تفاوت وسیع در فرآیندهای تولید داده مثل روش آنالوگ مبتنی بر کاغذ و روش دیجیتالی مبتنی بر رایانه، مزید بر علت شده است. استراتژیها و فنون متعددی برای گردآوری، ذخیره، سازماندهی و مدیریت کارآمد دادههای موجود و رسیدن به نتایج معنادار به کار رشدهاند. به علاوه، عملکرد مناسب ابرداده که دادهای درباره داده است، در عمل عالی به نظر میرسد (2005، Patkar).
انقلاب دیجیتالی که منجر به دیجیتال شدن اطلاعات شد، گردآوری، پردازش، نگهداری، توزیع و انتقال اطلاعات را آسان کرده است (1996، Fayyad, et al).
پیشرفتهای حاصله در علم اطلاعرسانی و فناوری اطلاعات، فنون و ابزارهای جدیدی برای غلبه بر رشد مستمر و تنوع بانکهای اطلاعات تأمین میکنند. این پیشرفتها هم در بعد سختافزاری و هم نرمافزاری حاصل شدهاند. ریزپردازندههای سریع، ابزارهای ذخیره دادههای انبوه پیوسته و غیر پیوسته، اسکنرها، چاپگرها و دیگر ابزارهای جانبی، نمایانگر پیشرفتهای حوزه سختافزار هستند. پیشرفتهای حاصل در نظامهای مدیریت بانک اطلاعات در طی چهار دهه گذشته، نمایانگر تلاشهای بخش نرمافزاری است. این تلاشها در بخش نرمافزار را میتوان به عنوان یک حرکت پیشرونده از ایجاد یک بانک اطلاعات ساده تا شبکهها و بانکهای اطلاعاتی رابطهای و سلسلهمراتبی برای پاسخگویی به نیاز روزافزون سازماندهی و بازیابی اطلاعات ملاحظه نمود. بدین منظور، در هر دوره، نظامهای مدیریت بانک اطلاعات مناسب، سازگار با نرمافزار سیستم عامل و سختافزار رایج گسترش یافتهاند. در این باره میتوان از محصولاتی مانند: Sybase, Oracle, Dbase-IVو Unify نام برد. دادهکاوی، یکی از پیشرفتهای اخیر در راستای فناوریهای مدیریت دادهها است. دادهکاوی، مجموعهای از فنون است که به شخص امکان میدهد تا ورای دادهپردازی معمولی حرکت کند و به استخراج اطلاعاتی که در انبوه دادهها مخفی و یا پنهان است، کمک میکند. انگیزه برای گسترش دادهکاوی به طور عمده از دنیای تجارت در دهه 1990 پدید آمد؛ به طور مثال، دادهکاوی در حوزه بازاریابی، به دلیل پیوستگی غیر قابل انتظاری که بین پروفایل یک مشتری و الگوی خرید او ایجاد میکند، اهمیت خاص دارد (Berry and Linoff, 1997).
تحلیل رکوردهای حجیم، نگهداری سختافزارهای صنعتی، دادههای هواشناسی و دیدن کانالهای تلوزیونی، از دیگر کاربردها آن است. در حوزه مدیریت کتابخانه، کاربرد دادهکاوی به عنوان فرایند مأخذکاوی نامگذاری شده است.
تعاریف دادهکاوی
دادهکاوی، پل ارتباطی میان علم آمار، علم رایانه، هوش مصنوعی، الگوشناسی، فراگیری ماشین و بازنمایی بصری داده میباشد.
دادهکاوی، فرآیندی پیچیده جهت شناسایی الگوها و مدلهای صحیح، جدید و به صورت بالقوه مفید، در حجم وسیعی از داده میباشد؛ به طریقی که این الگوها و مدلها برای انسانها قابل درک باشند.
دادهکاوی، به صورت یک محصول قابل خریداری نمیباشد؛ بلکه یک رشته علمی و فرآیندی است که بایستی به صورت یک پروژه پیادهسازی شود.
عبارت دادهکاوی، مترادف با یکی از عبارتهای استخراج دانش، برداشت اطلاعات، وارسی دادهها و حتی لایروبی کردن دادهها است که در حقیقت کشف دانش در پایگاه دادهها (KDD) را توصیف میکند. بنابراین، ایدهای که مبنای دادهکاوی است، یک فرآیند با اهمیت از شناخت الگوهای بالقوه مفید، تازه و در نهایت قابل درک در دادهها است. واژه کشف دانش در پایگاه دادهها، در اوایل دهه 80 در مراجعه به مفهوم کلی، گسترده، سطح بالا و به دنبال جستجوی دانش در اطلاعات شکل گرفته است. دادهکاوی، کاربرد سطح بالای فنون و ابزار بهکار بردهشده برای معرفی و تحلیل دادههای تصمیمگیرندگان است. اصطلاح دادهکاوی را آمارشناسان، تحلیلگران دادهها و انجمن سیستمهای اطلاعات مدیریت به کار بردهاند؛ در حالی که پژوهشگران یادگیری ماشین و هوش مصنوعی، از KDD (اکتشاف علوم) بیشتر استفاده میکنند. برنامههای کاربردی دادهکاوی میتوانند از پارامترهای متنوعی برای رسیدگی به دادهها استفاده کنند. برخی از این پارامترها برای رسیدگی به دادهها به شرح زیر میباشند:
-ترکیبات: نمونههایی که در آنها یک رویداد به رویداد دیگری وابسته است، همچون خرید یک خودکار و خرید کاغذ.
-تحلیل ترتیب یا روش: نمونههایی که در آنها انجام یک رویداد، منجر به رویداد دیگری میشود، همچون تولد یک نوزاد و خرید نیازمندیهای او.
-طبقهبندی: شناسایی نمونههای جدید، مثل تطابق بین لولههای خریداری شده و درپوشهای پلاستیکی آنها.
-دستهبندی: یافتن و مستندسازی بصری گروههایی از حقایق ناشناخته قبلی، مثل موقعیت جغرافیایی و نشانهای تبلیغاتی.
-پیشبینی: کشف و یافتن نمونههایی که بتوان از آنها پیشبینیهای منطقی به عمل آورد؛ مثلاً افرادی که در یک کلوپ ورزشی سرمایهگذاری میکنند، ممکن است در کلاسها و برنامههای ورزشی شرکت کنند.
دادهکاوی، کاربرد فنون یادگیری ماشین بر روی پایگاه داده برای کشف دانشها و الگوهای نهفته در دادههای پایگاه میباشد.
دادهکاوی، اکتشاف و تحلیل مقادیر زیاد داده برای استخراج الگوها و قوانین با معنای درون پایگاه را انجام میدهد. (سعیدی، 1379).
به طور کلی، دادهها در جهان واقعی آلوده هستند. این دادههای بیکیفیت، ناقص، پرخطا و متناقض میباشند. بدیهی است که دادههای بیکیفیت، همیشه منجر به نتایج بیکیفیت میشوند.
دادهکاوی، با استفاده از رایانه به جمعآوری اطلاعات سودمند از بین حجم عظیمی از دادههای ذخیرهشده در پایگاه دادهها که چه بسا تا حد زیادی بیکیفیت هستند، میپردازد تا ساختارهای با ارزش، الگوها، ارتباطات، اصول و ارزشهای پنهانی دادهها را کشف نماید.
زیربنای دادهکاوی
فنون دادهکاوی، نتیجه تحقیقات گسترده و بلند مدتی است که در طول سالها برای افزایش بازدهی تجاری مؤسسات بهکار برده میشدند. تحقیقات در این زمینه از زمانی آغاز شد که برای نخستینبار اطلاعات تجاری هر سازمان، روی سیستمهای ذخیرهسازی آن زمان که از نوع مغناطیسی بودند، ذخیره شدند. این رشته تحقیقات با توسعه و پیشرفت سیستمهای اطلاعات که قابلیت ذخیره حجم بیشتری از دادهها را فراهم میکردند و همچنین از سرعت بسیار بالاتری در ذخیرهسازی و بازیابی اطلاعات برخوردار بودند، اهمیت بیشتری یافت. روشهای دسترسی تصادفی به اطلاعات و پیدایش روشهای حرکت در میان دادهها، خصوصاً به صورت بلادرنگ، فناوری دادهکاوی را متحول ساخت.
روشهای دادهکاوی، بر پایههای زیر استوار هستند:
- گردآوری حجم عظیمی داده؛
- رایانههای چند پردازنده قدرتمند؛
- الگوریتمهای دادهکاوی.
در سال 1960م صنعت گردآوری اطلاعات و امکان ذخیره دادهها در تجهیزاتی نظیر نوار و دیسک توسط شرکتهایی که IBM و CDC از پیشگامان آنها بودند، شکل تجاری به خود گرفت. با رواج چنین مکانیسمهایی، تبادل استاتیک اطلاعات امکانپذیر شده، پرسشهای تجاری از قبیل آنکه «سود خالص شرکت در پنج سال آخر فعالیت چقدر بوده است؟» پاسخ داده میشود. 20 سال بعد از فناوری فوق، با پیشرفتهای نرمافزاری و استفاده از بانکهای اطلاعاتی رابطهای (RBDMS) و زبان جستجوی ساختیافته (SQL) توسط شرکتهای موفقی همچون IBM, INFORMIX, SYBASE, ORACLE و MICROSOFT اطلاعات در همان لحظه ثبت شدن قابل تبادل بودند؛ به عبارت دیگر، تبادل اطلاعات به صورت دینامیک امکانپذیر شده بود. نمونهای از سؤالات تجاری که این سیستم پاسخگوی آن است، چنین بود: «مقدار فروش شعب [کشور یا شهر مورد نظر] در ماه مارس گذشته چه میزان بوده است؟» در سالهای دهه نود نوبت به فناوریهایی همچون DATAWARE HOUSING و امکانات تصمیمگیری نرمافزاری رسید.
اساس دادهکاوی
دادهکاوی، بر مبنای سه فعالیت اصلی استوار است که ذیلاً به آنها اشاره میشود:
- حذف دادهها: دادههای بیارزش و عوامل بیرونی حذف میشوند؛
- فشردهسازی دادهها: این عمل به وسیله کدگذاری دادهها صورت میگیرد.
- کشف الگوها: الگوهای موجود در پایگاه دادهها از قبیل: طبقهبندی، الگوهای زنجیری و... کشف میشوند.
عناصر دادهکاوی
توصیف و کمک به پیشبینی، دو کارکرد اصلی دادهکاوی هستند. تحلیل داده مربوط به مشخصههای انتخابی متغیرها از گذشته و حال، و درک الگو، مثالی از تحلیل توصیفی است. برآورد ارزش آینده یک متغیر و طرحریزی کردن روند، مثالی از توانایی پیشگویانه دادهکاوی است.
برای عملی شدن هر یک از دو کارکرد فوق الذکر دادهکاوی، چند گام ابتدایی، اما مهم باید اجرا شوند که از این قرارند:
- انتخاب دادهها؛
- پاکسازی دادهها؛
- غنیسازی دادهها؛
- کدگذاری دادهها.
با دارا بودن هدف کلی در مطالعه، انتخاب مجموعه دادههای اصلی برای تحلیل، اولین ضرورت است. رکوردهای لازم میتواند از انبار دادهها و یا بانک اطلاعاتی عملیاتی استخراج شود. این رکوردهای داده جمعآوری شده، اغلب از آنچه آلودگی دادهها نامگذاری شده است، رنج میبرند و بنابراین، لازم است پاکسازی شوند تا از یکدستی فرمت (شکل) آنها اطمینان حاصل شود، موارد تکراری حذف شده و کنترل سازگاری دامنه به عمل آید. ممکن است دادههای گردآوریشده از جنبههای خاصی ناقص یا ناکافی باشند. در این صورت، دادههای مشخصی باید گردآوری شوند تا بانک اطلاعاتی اصلی را تکمیل کنند. منابع مناسب برای این منظور باید شناسایی شوند. این فرایند، مرحله غنیسازی دادهها را تکمیل میکند. یک سیستم کدگذاری مناسب، معمولاً جهت انتقال دادهها به فرم ساختاربندیشده جدید، متناسب برای عملیات دادهکاوی تعبیه میشود.
نگاهی مختصر به دو نمونه از الگوریتمهای دادهکاوی
- رگرسیون (regression): از قدیمیترین و معروفترین فنونی است که در دادهکاوی به کار میرود. اساساً رگرسیون یک مجموعه اطلاعات و داده را در اختیار گرفته و یک فرمول ریاضی متناسب با آن دادهها ایجاد میکند و زمانیکه شما بخواهید از نتایج دادههایتان آینده را پیشبینی کنید، کافی است دادههای جدید خود را به فرمول تولید شده توسط رگرسیون داده و نتایج حاصل را که همان پیشبینیهای مورد نظر شما است، دریافت دارید. محدودیت اصلی این فن در آن است که تنها با مقادیر دادهای پیوسته همچون: وزن، سرعت و... بهخوبی کار میکند. در صورتی که شما با مقادیر دادهای گسسته مانند: رنگ، جنسیت و اسم سر و کار دارید، بهتر است فن دیگری را برای این کار انتخاب کنید.
- طبقهبندی (classification): اگر شما با دادههای طبقهبندی شده و یا ترکیبی از دادههای عددی و دستهبندی شده سر و کار دارید، تحلیلهای طبقهبندی شده، نیاز شما را مرتفع میکند. این فن، توانایی پردازش مجموعههای وسیعتری از دادهها را ـ نسبت به فن رگرسیون ـ داشته و در حال گسترش عمومی میباشد. همچنین خروجیای که شما در این حالت دریافت میکنید، از لحاظ پیچیدگی بسیار سادهتر است و راحتتر تفسیر میشود. در این روش، شما به جای دریافت فرمولهای ریاضی پیچیده، یک درخت تصمیمگیری را که حاوی تعدادی تصمیم مشخص دو حالته (binary) میباشد، دریافت میکنید.
رگرسیون و طبقهبندی، دو مورد از پرکاربردترین روشهای طبقهبندی اطلاعات هستند؛ اما این دو، تنها تکهای از یک مجموعه بزرگ هستند.
کاربرد علم آمار در دادهکاوی
همانگونه که واضح است، با گذشت زمان علم نیز پیشرفت میکند، هر چه به جلوتر میرویم، روشهای جدیدتر و بهتر مورد استفاده قرار میگیرد. علم امروز نسبت به دیروز جدیدتر است. روشهای جدید علمی، در پی کشف محدودیتهای روشهای قدیمی ایجاد میشود و از آنجایی که روشهای آماری، جزء روشهای قدیمی Data mining محسوب میشوند، از این قاعده کلی که دارای محدودیت هستند، مستثنا نیستند. داشتن فرض اولیه در مورد دادهها، یکی از این موارد است. در اینجا به تشریح بیشتر تفاوتهای بین مباحث و متدهای آماری و دیگر متدهای دادهکاوی که در کتابهای مختلف بحث شده است، میپردازیم.
فنون دادهکاوی و آماری در مباحثی چون تعریف مقدار هدف برای پیشگویی، ارزشیابی خوب و دادههای دقیقی (clean data) خوب عمل میکنند. همچنین این موارد در جاهای یکسان برای انواع یکسانی از مسائل (پیشگویی، کلاسبندی و کشف) استفاده میشوند. بنابراین، تفاوت این دو چیست؟ چرا ما آنچنان که علاقهمند به کاربردن روشهای دادهکاوی هستیم، علاقهمند روشهای آماری نیستیم؟ برای جواب این سؤال، چندین دلیل وجود دارد: اول اینکه روشهای کلاسیک دادهکاوی از قبیل شبکههای عصبی و فنون نزدیکترین همسایه، روشهای قویتری برای دادههای واقعی به ما میدهند و همچنین استفاده از آنها برای کاربرانی که تجربه کمتری دارند، راحتتر است و بهتر میتوانند از آن استفاده کنند. دلیل دیگر اینکه معمولاً دادهها اطلاعات زیادی در اختیار ما نمیگذارند، این روشها با اطلاعات کمتر بهتر میتوانند کار کنند و همچنین اینکه برای دادههای وسیع کاربرد دارند.
در جایی دیگر، اینگونه بیان شده که دادههای جمعآوریشده نوعاً خیلی از فرضهای قدیمی آماری را در نظر نمیگیرند، از قبیل اینکه: مشخصهها باید مستقل باشند، تعیین توزیع دادهها، داشتن کمترین همپوشانی در فضا و زمان اغلب دادهها همپوشانی زیاد میدارند و تخلف کردن از هر کدام از فرضها میتواند مشکلات بزرگی ایجاد کند؛ زمانی که یک کاربر (تصمیمگیرنده) سعی میکند که نتیجهای را به دست آورد. دادههای جمعآوری شده، به طور کلی، تنها مجموعهای از مشاهدات چندی بعد است؛ بدون توجه به اینکه چگونه جمعآوری شدهاند.
در جایی پایه و اساس Data mining به دو مقوله آمار و هوش مصنوعی تقسیم شده است که روشهای مصنوعی به عنوان روشهای یادگیری ماشین در نظر گرفته میشوند. فرق اساسی بین روشهای آماری و روشهای یادگیری ماشین (machine learning)، بر اساس فرضها و یا طبیعت دادههایی است که پردازش میشوند. به عنوان یک قانون کلی، فرضهای فنون آماری بر این اساس است که توزیع دادهها مشخص است که بیشتر موارد فرض بر این است که توزیع، طبیعی است و در نهایت، درستی یا نادرستی نتایج نهایی به درست بودن فرض اولیه وابسته است. در مقابل روشهای یادگیری، یادگیری ماشین از هیچ فرض در مورد دادهها استفاده نمیکند و همین مورد، باعث تفاوتهایی بین این دو روش میشود.
به هر حال، ذکر این نکته ضروری به نظر میرسد که بسیاری از روشهای یادگیری ماشین برای ساخت مدل dataset از حداقل چند استنتاج آماری استفاده میکنند که این مسأله به طور خاص، در شبکه عصبی دیده میشود.
به طور کلی، روشهای آماری روشهای قدیمیتری هستند که به حالتهای احتمالی مربوط میشوند. Data mining جایگاه جدیدتری دارد که به هوش مصنوعی، یادگیری ماشین، سیستمهای اطلاعات مدیریت (MIS) و روش Database مربوط میشود.
روشهای آماری، بیشتر زمانی که تعداد دادهها کمتر است و اطلاعات بیشتری در مورد دادهها میتوان به دست آورد، استفاده میشوند؛ به عبارت دیگر، این روشها با مجموعه دادههای کوچکتر سر و کار دارند. همچنین به کاربران ابزارهای بیشتری برای امتحان کردن دادهها با دقت بیشتر فهمیدن ارتباطات بین دادهها میدهد؛ بر خلاف روشهایی از قبیل شبکه عصبی که فرآیند مبهمی دارد. به طور کلی، این روش در محدوده مشخصی از دادههای ورودی به کار میرود. به کار بردن این روشها، مجموعه دادههای زیاد احتمال خطا در این روشها را زیاد میکند. چون در دادهها احتمالnoise و خطا بیشتر میشود و نیز روشهای آماری معمولاً به حذف noise میپردازند. بنابراین، خطای محاسبات در این حالت زیاد میشود.
در بعضی از روشهای آماری نیاز داریم که توزیع دادهها را بدانیم. اگر بتوان به آن دسترسی پیدا کرد، با به کار بردن روش آماری میتوان به نتایج خوبی رسید.
روشهای آماری چون پایه ریاضی دارند، نتایج دقیقتری نسبت به دیگر روشهای Data mining ارائه میدهند؛ ولی استفاده از روابط ریاضی، نیازمند داشتن اطلاعات بیشتری در مورد دادهها است.
مزیت دیگر روشهای آماری، در تعبیر و تفسیر دادهها است. هر چند روشهای آماری به جهت داشتن ساختار ریاضی تفسیر سختتری دارند، ولی دقت نتیجهگیری و تعبیر خروجیها در این روش بهتر است. به طور کلی، روشهای آماری زمانی که تفسیر دادهها توسط روشهای دیگر مشکل است، بسیار مفید هستند.
کاربردهای دادهکاوی
دادهکاوی در ابتدا از حوزه تجارت برخاست، اما کاربردهای آن در سایر حوزههایی که به گردآوری حجم وسیعی از دادههایی میپردازند که دستخوش تغییرات پویا نیز میگردند، مفید شناخته شد. بخشهایی مثل: بانکداری، تجارت الکترونیک، تجارت سهام، بیمارستان و هتل از این نمونهاند.
انتظار میرود که استفاده از دادهکاوی در بخش آموزش به طور عام، امکانهای جدید بسیاری ارائه دهد. برخی کاربردهای دادهکاوی در کتابخانهها و قسمت اداری آموزش، در ذیل مورد بحث قرار گرفتهاند.
دادهکاوی کتابخانهها: عملیات کتابداری، به طور کلی، شامل: مدیریت مدارک، ارائه خدمات و امور اداره و نگهداری است. هر کدام از این کارکردها با انواع مختلفی از دادهها سر و کار دارد و به طور جداگانه پردازش میشود؛ هر چند انجام تحلیل ترکیبی بر این مجموعههای داده نیز میتواند افق تازهای را بگشاید که به طرح خدمات جدید و تحول رویهها و عملیات جاری کمک نماید. جدول شماره «1» برخی از کاربردهای ممکن دادهکاوی را که میتواند در کتابداری مفید باشد، ارائه میکند.
جدول 1: کاربردهای دادهکاوی در کتابخانهها
بانک اطلاعاتی |
کاربرد متصور |
گردآوری منابع |
برای تعیین نقاط قوت و ضعف مجموعه |
استفاده از مجموعه |
برای ایجاد رابطه بین خواننده، منابع کتابخانه و زمان مشخصی از سال |
امانت بین کتابخانهای |
برای تحلیل سفارشهای پاسخ دادهشده و سفارشهای دریافت شده |
دادههای بخش امانت |
برای پیشبینی روند بازگشت منابع |
دادهکاوی میتواند برای پاسخ دادن به یک سؤال خاص مربوط به کتابخانه و نیز برای کشف روندهای عمومی که به تصمیمگیری کمک میکنند، استفاده شود؛ برای مثال، سؤال میتواند چنین باشد: امکان اینکه امانت گیرندگان منابع را یک هفته بعد از تاریخ عودت برگردانند تا نامههای یادآوری کمتری فرستاده شود، چقدر است؟ یا میزان اشتراک مورد انتظار برای نشریات بین المللی انتخابشده برای سال آینده چقدر است؟ درک الگوی استفاده کلی مجلات الکترونیکی یا تحلیل درخواستهای اعضا برای میکروفیلمهای طی 5 سال گذشته نیز همگی مثالهایی از کشف روندهای عمومیاند. دامنه تحلیلی استنادی هم میتواند با استفاده از دادهکاوی گسترش داده شود.
در ارتباط با کتابخانهها، وبکاوی حوزه دیگری از علاقهمندی است. وبکاوی شامل محتواکاوی وب، ساختارکاوی وب و استفادهکاوی وب با توجه به یک موضوع خاص است که در طراحی خدمات جدید مبتنی بر وب کمک خواهد کرد.
دادهکاوی در دانشگاهها: مدیریت مؤسسات دانشگاهی، کار پیچیدهای است. در این مؤسسات دائماً نیاز به درآمدزایی و خودکارآمدی و کاهش وابستگی به بودجه دولتی احساس میشود. این مسأله کنترل دائمی جنبههای مختلف هر فعالیت و پروژه را میطلبد. بانکهای اطلاعاتی برای چنین مؤسساتی مربوط به دانشجویان، دانشکده، اساتید و کارمندان، تعداد رشتهها و چند مورد دیگر است. ارزیابی تقاضا و وضعیت عرضه نقش مهمی بازی میکند. مرور بانکهای اطلاعاتی نمونه در جدول شماره «2»، نمایانگر کاربردهای بالقوه دادهکاوی است.
جدول 2: کاربردهای داده کاوی در مؤسسات دانشگاهی
بانک اطلاعاتی |
کاربرد متصور |
ثبتنام دانشگاهی |
برای درک رابطههای جمعیت شناختی، اقتصادی و اجتماعی |
کارایی دانشگاهی |
برای ایجاد رابطه بین عوامل اقتصادی ـ اجتماعی و نمرات اخذ شده |
بانک سؤالات |
برای تعیین میزان مفید بودن سیستم با استناد به نمرات امتحان |
همکاری فکری |
برای ارزیابی همکاری دانشکده با توجه به میزان استفاده از کتابخانه |
انتشارات |
برای پیدا کردن تأثیر انتشارات در تقاضا برای رشتهها |
کاربرد دادهکاوی، در دانشگاه ملی سنگاپور قابل ملاحظه است. در این دانشگاه از ابزارهای دادهکاوی برای شناسایی و دستهبندی دانشجویانی که به کلاسهای پیشنیاز باری واحد درسی ارائه شده نیاز داشتند، استفاده شد (Kurian and John, 2005) علاوه بر آن، مسائلی مانند اختصاص بهتر منابع و نیروی انسانی، مدیریت روابط دانشجو و به تصویر کشیدن رفتار گروههای مختلف میتواند به وسیله ابزارهای دادهکاوی انجام شود.
محدودیتها
کاربرد دادهکاوی، با چند عامل محدود شده است. اولین مورد به سختافزار و نرمافزار لازم و موقعیت بانک اطلاعاتی مربوط میشود؛ برای مثال، در هند، دادههای غیر مجتمع که برای کاربردهای دادهکاوی لازم است، ممکن است به شکل دیجیتالی در دسترس نباشد. در دسترس بودن نیروی انسانی ماهر در دادهکاوی نیز مسأله مهم دیگری است. محرمانه بودن رکوردهای مراجعان ممکن است در نتیجه پردازش دادههای مبتنی بر دادهکاوی آسیبپذیر شود. کتابداران و مؤسسات آموزشی باید این مسأله را در نظر داشته باشند؛ چرا که در غیر این صورت، ممکن است گرفتار شکایات قانونی گردند.
محدودیت دیگر، از ضعف ذاتی نهفته در ابزارهای نظری ناشی میگردد. ابزارهایی مانند یادگیری ماشینی و الگوریتمهای ژنتیکی به کار گرفته شده در فعالیتهای دادهکاوی، به مفاهیم و فنون منطق و آمار بستگی دارد. در این حد، نتایج به روش مکانیکی تولید شده و بنابراین، به یک بررسی دقیق نیاز دارند. اعتبار الگوهای به دست آمده به این طریق باید آزمایش شود؛ چرا که در بسیاری موارد روابط علل و معلول مشتقشده از برخی استدلالات غلط ذیل رنج میبرند (Cannavo, 2003).
یکی از نمونههای بارز دادهکاوی را میتوان در فروشگاههای زنجیرهای مشاهده نمود، که در آن سعی میشود ارتباط محصولات مختلف هنگام خرید مشتریان مشخص گردد. فروشگاههای زنجیرهای مشتاقاند بدانند که چه محصولاتی با یکدیگر به فروش میروند.
برای مثال، طی یک عملیات دادهکاوی گسترده در یک فروشگاه زنجیرهای در آمریکای شمالی که روی حجم عظیمی از دادههای فروش صورت گرفت، مشخص گردید که مردانی که برای خرید قنداق بچه به فروشگاه میروند، معمولاً آب جو نیز خریداری میکنند. همچنین مشخص گردید مشتریانی که تلویزیون خریداری میکنند، غالباً گلدان کریستالی نیز میخرند. نمونه مشابه عملیات دادهکاوی را میتوان در یک شرکت بزرگ تولید و عرضه پوشاک در اروپا مشاهده نمود؛ به شکلی که نتایج دادهکاوی مشخص میکرد که افرادی که کراواتهای ابریشمی خریداری میکنند، در همان روز یا روزهای آینده، گیره کراوات مشکی رنگ نیز خریداری میکنند.
بهروشنی این مطلب قابل درک است که این نوع استفاده از دادهکاوی میتواند فروشگاهها را در برگزاری هوشمندانه فستیوالهای فروش و شیوه ارائه اجناس به مشتریان یاری رساند.
نمونه دیگر استفاده از دادهکاوی در زمینه فروش را میتوان در یک شرکت بزرگ دوبلاژ و تکثیر و عرضه فیلمهای سینمایی در آمریکای شمالی مشاهده نمود که در آن عملیات دادهکاوی، روابط مشتریان و هنرپیشههای سینمایی و نیز گروههای مختلف مشتریان بر اساس سبک فیلمها (ترسناک، رمانتیک، حادثهای و...) مشخص گردید.
بنابراین، آن شرکت به صورت کاملاً هوشمندانه میتوانست مشتریان بالقوه فیلمهای سینمایی را بر اساس علاقه مشتریان به هنرپیشههای مختلف و سبکهای سینمایی شناسایی کند.
از دیگر زمینههای به کارگیری دادهکاوی، استفاده بیمارستانها و کارخانههای داروسازی جهت کشف الگوها و مدلهای ناشناخته تأثیر داروها بر بیماریهای مختلف و نیز بیماران گروههای سنی مختلف را میتوان نام برد.
استفاده از دادهکاوی در زمینههای مالی و بانکداری، به شناخت مشتریان پر خطر و سودجو بر اساس معیارهایی از جمله: سن، درآمد، وضعیت سکونت، تحصیلات و شغل میانجامد.
از سال 1950م که رایانه در تحلیلی و ذخیرهسازی دادهها به کار رفت، حجم اطلاعات ذخیرهشده در آن با گذشت زمان بیشتر شده و همچنین رو به فزونی است. بسیاری از پایگاههای دادهها چنان گسترش یافتهاند که شامل چند صد میلیون یا چندین میلیارد رکورد ثبتشده هستند و امکان تحلیلی و استخراج اطلاعات با روشهای معمول و کلاسیک آماری از این پایگاه دادهها، مستلزم داشتن دانش و ابزارهای توانمندتر است. از طرفی، شدت رقابتها در عرصههای: علمی، اجتماعی، اقتصادی، سیاسی و نظامی نیز اهمیت سرعت یا زمان دسترسی به اطلاعات را افزایش داده است. بنابراین، نیاز به طراحی سیستمهایی که قادر به اکتشاف سریع اطلاعات مورد علاقه کاربران با تأکید بر حداقل دخالت انسانی باشند، از یک سو و روی آوردن به روشهای تحلیلی متناسب با حجم دادههای زیاد از سوی دیگر، بهخوبی احساس میشود. در حال حاضر، دادهکاوی مهمترین فناوری برای بهرهبرداری مؤثر، صحیح و سریع از دادههای حجیم بوده و اهمیت آن رو به افزایش است.
منابع: