Son zamanlarda katıldığım tüm astronomi konferanslarında hep aynı söze rast geliyorum. Diyorlar ki “Orta ölçekli bir teleskop bir gecede insanlığın şimdiye kadar ürettiği data (veri) kadar data üretiyor.

Hal böyle olunca bu datanın işlenmesi ve insanlığın hizmetine sunulması için bir, on , 100 hatta 500 bilgisayar bile yetersiz kalıyor. Peki çözüm ne? Çözüm: Big Data ve Hadoop.

Bu Big Data nedir, nasıl bir şeydir, nimetlerinden faydalanıp üzerine fazla kafa yormayalım mı? Big Data Astronomi de nasıl kullanılıyor?

Big Data Bilgisayar Mühendisliğinin yeni bir koludur. Birçok bilgisayar mühendisi arkadaşımın bile henüz ismini duymadığı, şu an piyasada en fazla yetişmiş elemana ihtiyaç duyulan, yıllık geliri en az 120  bin dolardan (bugünkü dolar kuruna göre yıllık 451 bin 800 Türk lirası) başlayan ve 200 bin dolara kadar çıkan, geleceği en parlak ve 4,5 milyon yazılımcıya ihtiyacın olduğu bir programcılık alanıdır.

big data 1

Standart veri tabanı programlarında bir server (sunucu bilgisayar) bilgileri tutar ve üzerinde alan isimleri tanımlanmış tablolar olur ve bilgisayar programları bu sunucuya bağlanıp istenilen verileri SQL denilen program kodlarıyla alıp program içerisinde işleyip, kullanıcıya uygun bir arayüzle gösterip, işi bittiğinde de bağlantıyı keser. Big Data’da ise standart SQL komutları çalışmaz. Çünkü veri bütünlüğü yoktur ve işlenilecek veri çok çok çok büyüktür. Bilgisayarların RAM’i yetmez.

Mesela Facebook’u ele alalım. Her gün, biz de dahil, milyonlarca insan milyarlarca resim, video, yazı ve doküman yüklemektedir. Öyle ki Facebook verilerine göre günlük 500 Terabyte(TB) data işlenmektedir. Bütün bunları yapmaya tek bir bilgisayarın hatta 500 bilgisayarın, hatta 1000 bilgisayarın ne hızı yetişir, ne hard diski. Peki Facebook bu işin altından nasıl kalkıyor? Üstelik her gün bu kadar data daha geliyor. Daha da ilginci Facebook kullanıcılarının verileri üzerinde veri analizi yapıp, konum bilgisini alıp oturduğu semte ve beğendiği resimlere göre aylık gelirini tahmin etmekte ve ne kadar harcama yapabilir diye hesap yapılmaktadır.

Paylaşılan resimler, yazılar ve beğenmelerden kişilik analizi yapılmakta ve siyasi görüşü, dini yönü, ekonomik durumu saniye saniye takip edilip kaydedilmekte ve reklamcılara bu bilgiler dolaylı yönlerden satılmaktadır. Yani doğrudan şu kişinin bilgileri bunlardır denmiyor fakat bize reklam verirseniz şu kişiler görür deniliyor. Bir yerde sosyal medya da varlık gösterirken aslında kendi kendimize yaptığımız her şeyi, uğradığımız her yeri rapor edip, ilgili yerlere bildiriyoruz. İstihbarat örgütleri trilyon dolar harcasa bu bilgileri toplayamaz. 🙂

0x600
Bilgisayarınızda sosyal medyada, facebook, instagram, twitter gibi platformlarda, google aramalarında yaptığınız her hareket, dev sunucularda depolanıp, bilgisayarlarda işlenerek bu platformların “sizlere uygun reklam” göstermesi ve daha iyi para kazanmaları için kullanılıyor.

 

Diğer bir örnek Twitter. Her gün milyonlarca Tweet atılıyor, resim ve video yükleniyor. Bu kadar datayı işlemek, kaydetmek ve istenildiğinde tekrar sunmak nasıl mümkün oluyor? Twitter yine veri analizinde çok ilerlemiş vaziyette. John Hopkins Universitesi ve Güney California Üniversitesi (USC) öğrencilerine Big Data dersi verirken real time analiz örnekleri yaptırmaktadırlar.

Buna göre herhangi bir ülkenin herhangi bir mahallesine kadar araştırma alanını daraltıp, orada neler konuşuluyorsa ona göre analiz yapılıp, TV kanallarına ve online reklam ajanslarına hangi reklamın o sırada yayınlanması gerektiğini söyleyebilmektedirler. Bu sayede işletmeler de profillerinde olmayan kişilere reklam yapmamış oluyorlar. Akıllı televizyonlarda akıllı reklamcılık yapılıyor. Mesela sadece kadınları alakadar eden bir ürün sadece kadınlara gösteriliyor.

Eski ABD başkanı Obama’nın seçim kampanyasında kulanılan bir Twitter analizi Big Data derslerinin ana konularından birisidir. Kocasından boşanmış veya evlenmeden çocuk sahibi olmuş anneler için Obama’nın bir reklam videosu hazırlanıyor ve bu anneler Facebook üzerinden tespit ediliyor ve bu video bu anneler facebook hesaplarına girdiklerinde karşılarına çıkıyor ve Obama doğrudan bu hanımlara sesleniyor. Başkan seçildiğinde yalnız annelere nasıl yardımcı olacağını anlatıyor. Obama bu sayede milyonlarca kadından oy almayı başarıyor.

Obama’nın seçim kampanyasının başarısı, milyonlarca kadın Obama fanatiğinin ortaya çıkmasını sağlamıştı.

 

Bu misallerimize Youtube, Google, Instagram, Amazon, Ebay gibi siteleri ekleyebiliriz. Google kendine veritabanı olarak bütün internet sitelerini görüyor. Yani önceden planlayıp, alanlarını tanımladığı bir veri değil. İnternette kim ne yüklemişse öyle duruyor. Bu verinin bir veri bütünlüğü yok. İşte tam burada standart veritabanı programları devre dışı kalıyor. Ne Oracle, ne Microsoft SQL, ne MySQL bu verinin altından kalkabilecek gibi değil.

İşte bütün bunlar Hadoop isimli bedava bir veritabanı programı sayesinde çözülüyor. DFS (Distributed File System) denilen bir yöntemle data Dünya’nın neresinde boş duran bir bilgisayar varsa oraya yerleştiriliyor. Mesela Facebook’a yüklediğiniz resmin bir parçası Çin’deki bir bilgisayarda dururken diğer parçası Kanada’daki bir bilgisayarda tutulabiliyor. Siz görmek için tıkladığınızda Hadoop bu iki bilgiyi milisaniyeler içinde birleştirip size gösteriyor.

Peki Astronomi’de Big Data nasıl kullanılıyor ve kullanılacak?

Astronomi de “Astrostatistics” ve “Astroinformatics” denilen iki ana alan geliştirildi. Astrostatistics, İstatistik biliminin astronomi ve astrofizik bilimine uygulanması olarak özetlenebilir. Astroinformatics ise, teleskoplardan gelen büyük verileri işlemek için geliştirilen bilgisayar programları ve analiz etme yöntemleri olarak tanımlanabilir.

Mesela Palomar Gözlemevi’nin ürettiği data 3 TB iken, CALTECH’in uzay teleskopu GALEX (The Galaxy Evolution Explorer) 30 TB, Avustralya’nın teleskobu SkyMapper ( Southern Sky Survey) 500 Terabyte, NASA JPL’in Hawaii’deki teleskobu PanSTARRS 40 PB data üretiyor. Dünya’daki bütün teleskopları birleştirdiğimizde oluşan datanın miktarı nerdeyse zettabytelara ulaşıyor.

big data

Bu maksatla kurulan Uluslararası Sanal Gözlemevi Birliği (http://www.ivoa.net/ ) Dünya’daki bütün teleskoplardan gelen bilgileri Hadoop ile birleştirip her astronomun ulaşabileceği bir ortam kurmak için yapılandırıldı. Sanal bir gözlemevi kuruldu ve şimdiye kadar teleskoplardan gelen bütün veriler paylaşıma açıldı ve astronomlar bir bölge hakkında analiz yapmak istediklerinde daha önce teleskoplardan alınan bilgilere tek bir ekrandan erişebiliyor ve sanal gözlem yapabiliyor. Kısacası Sanal Gözlemevi (The Virtual Observatory (VO))  bilim adamlarına daha kolay bilim yapmalarını sağlıyor.

Dünya’da ve uzayda gözlem yapan bütün verileri topladık ve  Sanal Gözlemevi ile paylaşıma açtık. Peki bu datayı nasıl işleyeceğiz. İşte bunlar için geliştirilmiş veritabanı madenciği yapılabilen programlar burda devreye giriyor. CALTECH dokuzuncu gezegenin varlığını buralardan aldığı verileri analiz edip, matematik hesaplarını yaptığı için iddia ediyor. Başlıca astronomi veri analiz programları şunlardır:

1- StatCodes (http://astrostatistics.psu.edu/statcodes/)
2- VOStat (http://astrostatistics.psu.edu:8080/vostat/)
3- Weka (http://www.cs.waikato.ac.nz/ml/weka/index.html)
4- AstroML (http://github.com/astroML/astroML)
5- DAME (Data Mining & Exploration) (http://dame.dsf.unina.it/)
6- Auton Lab (http://www.autonlab.org/autonweb/2.html)

Bu programlar ve bu datalar tek başına astronomların baş edebileceği bir durum değildir. Bu işleri yapabilmek için bilgisayar mühendislerine, Big Data uzmanlarına, istatistikçilere ihtiyaç vardır. Bunları bir araya getirmek için 7 ayrı organizasyon faaliyet göstermektedir. Bu listenin tamamına bu linkten ulaşılabilir:(ASAIP) (http://asaip.psu.edu)

Teleskoplardan datayı topladık, sanal gözlemevi açtık, bu bilgilere eriştik ve yazılımlarla analiz ettik. İşte bu çalışmaların sonucu yıllık yapılan bir konferansta değelendiriliyor. Bu konferansın adı ise Astronomik Veri Analizi Yazılım ve Sistemleri. Son 6 senedir her yıl yapılan konferansta bir yıllık çalışmalar gözden geçiriliyor ve analizlerdeki yöntemler karşılaştırılıyor. Bu konferansın websitesine ise bu linkten erişilebilir: (ADASS) (http://www.adass.org/)

Big Data is the new Oil!
Sonuç olarak diyebiliriz ki Big Data hem normal hayatta hem de astronomi de geleceği elinde tutacak bir teknoloji. Programcılar Big Data’yı şimdiden “Geleceğin Petrolü” olarak nitelendiriyorlar. Bilgi güçtür.

Programcılığın en fazla elemana ihtiyacı olan alanı Big Data. Yıllık 200 bin dolara yakın gelir vaaden bir bölüm. Yakında devreye girecek büyük teleskoplardan gelecek veri düşünüldüğünde bilim adına önümüzde inanılmaz fırsatlar bizi bekliyor. Hem yüksek miktarda gelir, hem kariyer, hem bilim bir arada. Buyrun Hodri Meydan!!!

Hazırlayan: Zafer Acar

1-http://datascience.codata.org/articles/10.5334/dsj-2015-011/
2- http://www.galex.caltech.edu/index.html
3- http://www.datasciencecentral.com/