فرآيند به خدمت گرفتن يك متدولوژي كامپيوتري كه با استفاده از تكنيكهاي مختلف مستقيماً از دادهها، دانش استخراج ميكند، دادهكاوی (Data mining) ناميده ميشود. داده كاوی فرآيندي تكراري است كه بصورت دستي يا خودكار انجام ميشود. داده كاوي جستجويي است براي اطلاعات جديد و نوين از ميان مقادير بزرگ دادهها و فرآيندي مشاركتي ميان انسان و كامپيوتر است. در عمل دو هدف اساسي دادهكاوی، پيشبيني (Prediction) و تشريح (Description) است. در پيشبيني، بعضي از متغيرها يا حوزههايي از مجموعههای دادهاي به منظور پيشبيني ارزش ناشناخته يا آينده دادههاي ديگر مورد استفاده قرار ميگيرند. از سوي ديگر تشريح، بر يافتن الگوهاي تشريحي دادهها كه ميتوانند به وسيله انسان تعبير شوند تمركز مينمايد. در نتيجه داده كاوي را ميتوان در يكي از دو گروه زير جاي داد:
- دادهكاوی پيشبينيكننده: اين روش با استفاده از مجموعه دادهها، مدلهايي را براي توضيح سيستم توليد ميكند
- دادهكاوی تشريح كننده: اطلاعات جديد را براساس مجموعههاي دادهاي در دسترس توليد ميكند.
از نظر پيشبينيكننده، هدف از داده كاوي توليد مدلي است كه با استفاده از يك كد اجرايي وظايفي چون پيشبيني، دستهبندي، تخمين مقدار، تخمين عملكرد و غيره را انجام دهد. در سوي تشريحكننده، هدف حصول دركي كامل از سيستم تحليل شده بوسيله الگوهاي پنهان در آن و روابط درون مجموعههاي دادهاي است. پايههاي اصلي داده كاوي بر دو اصل آمار و يادگيري ماشيني قرار دارد. آمار نيز ريشه در رياضيات و منطق دارد، بنابر اين دادهكاوي نيز علاوه بر آمار ريشه در اين دو علم دارد. در مقابل يادگيري ماشيني نيز علمي كامپيوتري است كه اصول آن را در هوش مصنوعي ميتوان يافت. تضادي كه در اينجا رخ مينمايد اين است كه علم آمار به دليل طبيعت رياضي خود متمايل به فرموله كردن مسائل و مدلسازي است، اما يادگيري ماشيني مسائل را با استفاده از الگوريتمها حل ميكند. در اينجاست كه بطور ظريفي بايد نسبت به تركيب اين دو علم براي استفاده آنها در دادهكاوي اقدام كرد. دادهكاوي علاوه بر علوم فوق به خاطر استفاده از اصول اساسي مدلسازي از تئوري كنترل نيز استفاده ميكند. اين تئوري عموماً در سيستمهاي مهندسي و فرآيندهاي صنعتي مورد استفاده قرار ميگيرد. بنابراين دادهكاوي يك تكنولوژي ميان رشتهاي است. براي استفاده موثر از اين تكنولوژي بايد شناخت كافي از اين علوم داشت. البته زماني كه بخواهيم از دادهكاوي براي مقاصد نوآورانه و خلاقانهتر استفاده كرد، به مراتب اين نياز عميق تر ميشود.
با وجود ارتباط ميان دادهكاوی و آمار، تفاوتهاي اساسي ميان اين دو علم وجود دارد. آمار يك علم تاييدي است، يعني كوشش دارد مفروضاتي را با استفاده از تكنيكهاي مختلف تصديق يا رد كند، در حاليكه داده كاوي يك علم اكتشافي است، بدين معني كه سعي به كشف الگوهاي دانشي از دادههاي موجود دارد. از سوي ديگر آمار از نمونههاي كوچك و بسط آنها به جامعه استفاده ميكند و ماهيتاً توان پردازش نمونههاي بزرگ را ندارد. در حاليكه در داده كاوي از نمونههاي بسيار بزرگ و حتي خود جامعه استفاده ميشود زيرا اين تكنولوژي از روشهاي پيشرفته كامپيوتري استفاده ميكند كه به آن اجازه پردازش بالايي را مي دهد. آمار فقط ميتواند نمونه را به جامعهاي كه از آن گرفته شده، بسط دهد. اما در داده كاوي نمونهها به دستهاي از جوامع بسط داده ميشود.
با توجه به قدرت تحليل بالايي كه تكنولوژي داده كاوي دارد و با توجه به قدرت پردازش بي نظير آن، براي حل مسائل بيشماري در دنياي واقعي ميتوان از اين تكنولوژي استفاده كرد. از داده كاوي ميتوان براي تشخيص الگوهاي رفتاري مصرفكنندگان با استفاده از دادههاي فراواني كه توليد ميكنند، سود جست. اين تكنولوژي براي پيدا كردن پروتئينهاي مختلف از نقشه ژني موجودات كاربرد دارد، در هوشمندسازي تجاري و كاهش ابهامات تاثير اساسي دارد، در مبارزه با جرم ميتوان از اين روش استفاده كرد، در بازارهاي مالي و به منظور مديريت ريسك كاربرد فراواني دارد، روشي ايدهآل براي قيمتگذاري هوشمند است و به طور خلاصه در هر جايي كه دادهاي وجود دارد دادهكاوي موثر است. یکی از مهمترین کاربردهای داده کاوی در حوزه حسابرسی مالی و حسابرسی داخلی است، در ادامه برخی از کاربردهای اصلی داده کاوی در این حوزه بیان شده است.
تحلیل های آماری
تحلیل های آماری یکی از تکنیک های مورد استفاده در داده کاوی است. با استفاده از این تکنیک داده های موجود را می توان طبقه بندی نمود یا اینکه براساس داده های تاریخی گذشته روندهای آینده را شناسایی کرد. چنین تکنیک هایی در حسابرسی بسیار قابل استفاده خواهند بود. به عنوان مثال حسابرسان می توانند براساس داده های تاریخی شرکت مورد نظر یا حتی داده های تاریخی صنعت، برخی از نسبت های مالی را پیش بینی کنند. مقایسه بین وضعیت گزارش شده در صورت های مالی با نسبت های مالی شبیه سازی شده، می تواند حسابرسان را در شناسایی موارد مشکوک و غیر واقعی یاری کند. نسبت حساب های دریافتنی، نسبت حساب های پرداختنی، نسبت دارایی بدهی، کمیسیون های مدیریتی و کمیسیون های فر وش برخی از این موارد هستند. حسابرسان این نسبت را با داده های تاریخی محاسبه می کنند، نتیجه حاصله را با مقدار گزارش شده در صورت های مالی مقایسه کرده و موارد مشکوک را شناسایی خواهند کرد.
تحلیل های همبستگی
در تحلیل داده های مالی ممکن است بین گروهی از داده های یکسان و داده های غیر همسان ارتباطی شناسایی شوند. تحلیل های همبستگی در حوزه های مختلف حسابرسی کاربرد دارند. در حسابرسی عملیاتی، ارتباط بین هزینه های تولید، محصول تولید شده، نفرساعت کارکرد کارکنان و سایر مولفه های مختلف بین تولید قابل شناسایی و بررسی هستند. تحلیل همبستگی و ارتباط بین این مولفه ها می تواند الگوهای پنهانی را برای حسابرسان مشخص نماید. در حسابرسی فناوری اطلاعات، تحلیل سوابق سیستم (Audit Log) می تواند به شناسایی رفتارهای غیر معمول در استفاده از سیستم ها کمک کند. تحلیل های همبستگی همچنین می تواند در شناسایی و پیشگیری از تقلب نیز به حسابرسان کمک کند. به عنوان مثال در تحلیل داده های خرید، تحلیل همبستگی می تواند به شناسایی ارتباط بین اقلام خریداری شده با دوره های زمانی خاص، کارشناس خرید خاص، فروشنده خاص یا تحویل گیرنده خاص کمک کند. چنین الگوهایی در واقع بیان کننده موارد مشکوک به تقلب هستند.
تحلیل های خوشه بندی
در تحلیل های خوشه بندی (Clustering) گروهی از داده ها در خوشه هایی تقسیم بندی می شوند که هر خوشه دارای ویژگی های نسبتا مشابهی است. تحلیل های خوشه بندی در گروه تکنیک های داده کاوی اکتشافی دسته بندی می شوند. چرا که به تحلیلگران کمک می کنند تا داده های گسترده ای را طبقه بندی نموده و رفتارها و الگوهای پنهان در این داده ها را شناسایی کنند. الگوریتم های مختلفی برای خوشه بندی داده ها ارائه شده است که حسابرسان می توانند از آنها برای تحلیل داده های مالی استفاده کنند. یکی از کاربردهای اصلی تحلیل های خوشه بندی، شناسایی موارد غیرطبیعی (Anomaly Detection) است. موارد غیرطبیعی می توانند در تراکنش های مختلفی از جمله تراکنش های خرید، فروش، حقوق و دستمزد، سرمایه گذاری و غیره مورد استفاده قرار گیرند. خصوصاً زمانی که حجم داده ها بالا بوده و بررسی تک تک تراکنش ها قابل انجام نیست، چنین تکنیک هایی اثربخشی بالایی برای شناسایی موارد مشکوک به تقلب خواهند داشت. این تکنیک همچنین در حسابرسی رعایت نیز قابل استفاده است. در این صورت می تواند موارد عدم انطباق با شرایط مورد انتظار را شناسایی و رسیدگی نمود.