DataDA

 Büyük veri (big data) nedir?

Birkaç yıl öncesine kadar bilinmeyen bir şey olan big data, günümüzün en çok tartışılan konularından biri haline geldi. A Day in Big Data (2018) adlı internet sitesinin verdiği bilgiye göre sadece iki günde, insanlık tarihinin başlangıcından 2013 yılına kadar ürettiğimiz bilgi kadar bilgi üretiyoruz. Bu da muazzam büyüklükte bir veri yığınıyla karşı karşıya olduğumuz anlamına gelmektedir. 

Bilgi çağı olarak adlandırılan 21. yüzyılda birçok sektör, büyük oranda ‘veriye’ bağımlı. 2020’ye kadar 20-100 milyar cihaz internete bağlanacak ve daha fazla veri üretilmiş olacak. Bu durum big data analizini bir gereklilik olarak ortaya koymaktadır. Bundan önce ise big data denilen yeni bilgi kaynağını enikonu bilmek gerekmektedir.

Büyük veri kavramı ilk defa 1998 yılında John Mashey tarafından, Büyük Veri ve Altyapı Gerilimi Dalgası (Big Data and the Next Wave of InfraStress) isimli sunumda kullanılmıştır. Büyük verinin üzerinde ittifak edilmiş ortak bir tanımı bulunmamaktadır.

Big Data kısaca, Facebook, Twitter gibi sosyal medya verilerinin, akıllı telefonlar ve diğer dolaşım aygıtları tarafından üretilen konum verilerinin, çevrimiçi araçlardaki yerleşik sensörler ve internete bağlı diğer nesnelerden gelen verilerin oluşturduğu büyük yığın ve bu veri yığınının hızlı bir şekilde analiz edilerek ‘kullanışlı bilgiye’ dönüştürülmesiyle ilgili bir kavramdır. Big data’daki veriler geleneksel işleme teknikleri veya algoritmalarla işlenemez. Büyük hacimli, yapılandırılmış ve yapılandırılmamış karmaşık veri kümeleri şeklindedir.

Big Data’nın dört boyutu bulunmaktadır: Hacim, Hız, Çeşitlilik ve Gerçeklik.

Hacim: Terabayttan zettabayt’a kadar büyük miktarda veri kümelerini ifade eder. Mevcut veri büyüklüğü petabyte ile ifade edilmektedir. Önümüzdeki birkaç yıl içinde ise zettabaytlara (ZB) yükselmesi öngörülmektedir. Bunun nedeni öncelikle mobil cihazların ve sosyal ağların kullanımının artmasıdır.

Hız: Veri akış hızına karşılık gelmektedir. Veriler çok büyük ve sürekli olarak hareket halindedir. Gerçek zamanlı olarak elde edilen verinin yine aynı anda işlenebilmesini ifade etmektedir. Örneğin, akıllı telefonunda konum özelliği açık olan birinin, geçtiği yerde indirim teklifi yapan bir firmanın bu teklifini anında telefonunda bildirim olarak alması, büyük veri analizinin ‘hız’ boyutunu ifade eder.

Çeşitlilik: Toplanan veriler belirli bir kategoriden veya tek bir kaynaktan gelmemektedir. Yapılandırılmış veya yapılandırılmamış olarak internetten, metinlerden, sensörlerden, e-postalardan ve nesnelerin interneti dünyasındaki birçok nesneden elde edilen çok sayıda ham veri formatı vardır. Ham verinin bu büyüklüğü, eski geleneksel analitik yöntemlerin büyük verileri yönetmede başarısız olmasına neden olur.