
حجم داده های ذخیره شده ناشی از فعالیت های کاربران در شبکه های اجتماعی، تراکنش ها، داده های مربوط به سنسورهای آب وهوا، تصاویر و ویدئوهای دیجیتال، سیگنالهایGPS وغیره در بستر اینترنت و به واسطه به کارگیری آنها از تجهیزات و ابزارهای مختلف با سرعت خیره کننده ای در حال افزایش است. به مجموعه ای از این داده ها که نرخ رشد آنها بسیار بالاست و در مدت زمان کوتاهی، شامل چنان حجمی از اطلاعات می شوند که کار با آنها با ابزارهای مدیریت داده موجود غیر قابل انجام خواهد بود، «داده های عظیم»می گویند. حجم عظیم این داده های پیچیده می تواند چشم اندازها و واقعیتهای بسیاری را به صورت پنهان در خود داشته باشد.
کلان داده هامعمولاًبه مجموعه ای از داده ها اطلاق می شودکه اندازه آنها فراتر از حدی است که با نرم افزارهای معمولی بتوان آنها را در یک زمان معقول اخذ، دقیق سازی، مدیریت و پردازش کرد. مفهوم اندازه در کلان داده ها به طور مستمر در حال تغییر است و به مروربزرگتر می شود.
پنج ویژگی اصلی کلان دادها:
- حجم داده ها: حجم داده ها به صورت نمایی در حال رشد است. منابع مختلفی نظیر شبکه های اجتماعی، لاگ سرورهای وب، جریان های ترافیک، تصاویر ماهواره ای، جریان های صوتی، تراکنش های بانکی، محتوای صفحات وب، اسناد دولتی وجود دارد که حجم داده بسیار زیادی را تولید می کنند.
- سرعت تولید داده ها: داده ها از طریق برنامه های کاربردی و سنسورهای بسیار زیادی که در محیط وجود دارند با سرعت بسیار زیاد و به صورت بلادرنگ تولید می شوند.
- تنوع داده ها: انواع منابع داده و تنوع در نوع داده بسیار زیاد است که در نتیجه ساختارهای داده ای بسیار زیادی وجود دارد. مثلا، در وب افراد از نرم افزارها و مرورگرهای مختلفی برای ارسال اطلاعات استفاده می کنند. بسیاری از اطلاعات مستقیما از انسان دریافت می شود و بنابراین وجود خطا اجتناب ناپذیر است. این تنوع سبب می شود جامعیت داده تحت تاثیر قرار بگیرد؛ زیرا هر چه تنوع بیشتری وجود داشته باشد، احتمال بروز خطای بیشتری نیز وجود دارد.
- صحت و اعتبار داده ها: این موضوع دلالت بر این دارد که داده ها برای تصمیم گیری چقدر حائز ارزش هستند و آیا اعتباری دارند؟ و از چه منابعی به دست آمده اند.
- ارزش: ارزش آن را از نظر تصمیم گیری دارد یا نه و ارزش و فایده مورد نظر را برای یک سازمان خواهند داشت.