Büyük veri için “temizlik” şart

388

Verilerden yola çıkarak her alanda daha akıllıca karar alabilmeyi vaat eden veri bilimi, son dönemin en cazip ve çekici mesleklerinden biri kabul ediliyor. Veri bilimciler zamanlarının yüzde 50 ila 80’ini başa çıkılması güç olan dijital veriler bütününü toplamak ve işe yarar hale getirmek için harcıyor. Dolayısıyla “veri toplama ve ayıklama işin büyük bölümünü oluşturuyor. Pek çok yeni işletme uygun yazılımlar geliştirerek bu yığının içinden kullanıma hazır verileri çekerek temizleyip, derlemeye çalışıyor.

New York Times’dan Steve Lohr’un yazısında; Del Monte Foods’tan Timothy Weaver, veri toplama denilen bu tatsız işi buzdağının görünen yüzü olarak tanımlıyor. Çoğunluk sonuca odaklandığı için, daha gerilerde saklanmış sevimsiz yığın gözden kaçıyor. Weaver’a göre, “Görüş alanınız ve netliğiniz ne kadar genişse o derece akıllıca kararlar almanız mümkün.”

Bir de şu var… Ne kadar farklı veri setini biraraya getirmeniz gerekiyorsa, başınız da o kadar ağrıyor. Alıcılardan, farklı dökümanlardan, internetten ve kurumlardan gelen veriler haliyle farklı formatta oluyor. Sizi sonuca ulaştıracak yazılımın işe yarayabilmesi için de tüm bu verilerin ayıklanması ve aynı formata çevirilmesi gerekiyor.

Bu birinci konu… İnsan dili de işin içine girince her şey daha da karmaşıklaşıyor. Bazı alanlarda yapılan araştırmalarda, aynı anlama gelen pek çok farklı kelimenin yazılım tarafından doğru yorumlanabilmesi, yani ölçülebilmesi için ayrı bir yöntem geliştirmek gerekiyor.

Veri uzmanları bu süreçte olabildiğince çok adımı otomatikleştirmeye, kendi kendine doğru sonuca ulaşabilir hale getirmeye çalışıyor. Veri çeşitliliğinin inanılmaz boyutta olması sizi bir tür “veri temizlikçisine” dönüştürüyor. Bu da veri uzmanlığı için küçük, işi yapan içinse fazlasıyla zahmetli ve külfetli bir adım…

Büyük veri yarışının günümüzde pek çok alandan aşina olduğumuz bir sisteme evrilmesi de işin bir diğer yönü. Yeni teknolojiler şimdilik “seçkin” bir azınlığın elinde. Ancak zaman içinde ustalık ve yatırım gücü arttıkça, ekonomiler güçlendikçe, iş yapma becerileri geliştikçe ve tabii ki teknoloji bir şekilde yaygınlaştıkça, büyük veri kullanımı da demokratikleşecek. Yazılım programları geliştikçe ve daha fazla bilgisayar programcısı piyasada yer bulmaya başladıkça, günümüzün veriler alemi de bu güzelliklerden faydalanabilecek.

Veri uzmanları için sistemler geliştiren Trifacta, yapay zeka teknolojileri kullanan yazılımlarla çalışıyor. İstenen veriyi uzmanlar için araştırıyor ve buluyor. Böylece kullanıcıların üzerinden büyük bir yükü almış oluyorlar. Bu konuda hizmet veren şirketlerden biri olan Paxata, bilgileri derleyerek analize hazır hale getiriyor.

Veri bilimciler, bilgi ayıklama ve düzenleme türü angarya işlerden kaçınmanın pek mümkün olmadığını; büyük veri işin içine girdiğinde adım adım ilerleyen deneysel bir sürecin başladığını belirtiyor.

Bir şu var… Verilerinizi belli bir amaç için hazırlıyorsunuz, sonra birden bambaşka bir şey duyuyor ve öğreniyorsunuz; hedefiniz değişiyor, dolayısıyla pek çok şeyi tekrar yapmak zorunda kalabiliyorsunuz.

“Veri analizini kolaylaştırabilecek nice sistem ve süreçlere ihtiyaç olduğu kesin. Daha iyileştirilmiş sistemlerle veri ayıklama işi de daha az zaman tüketir bir sürece dönüşebilir. Böylece işin cazip tarafına odaklanabiliriz.” Ford Motor’dan veri bilimci Michael Cavaretta’nın fikri bu yönde. Kazanılan zamanla, eldeki verileri analiz ederek daha iyi otomobiller tasarlayabilirler ne de olsa…

Dizi filmlerden aşina olduğumuz havalı NSA, FBI veya CSI ofislerinde onlarca ekrana yansıyan takip sahneleri, suçlu profil değerlendirmeleri veya yüzlerce banka veri tabanından belli müşterileri ayıklayabilme süreçleri büyük verinin analiz edilmesiyle oluşuyor. En azından televizyon ekranlarından işin şahit olabildiğimiz yönü bu. Peki onca temizliği, angaryayı, gerçek dedektifliği kim yapıyor? Hiç de havalı olamayan odalarında bunalarak çalışan zavallı, isimsiz veri bilimciler…