9 Haziran 2011 Perşembe

Veri Madenciliği Nedir?

Sene 91, üniversite sınavına girmişiz, sınav istediğim gibi geçmemiş ama sonuçlar o kadar da kötü değil. Yaptığım 18 tercihin elbette ilk 10 tanesinden ümidim yok ama son ikiye de kalmam herhalde diye hesap yapıyorum. Benimle ilgili o güne kadar ve o günden sonra bir rüya görmeyen, gördüyse de söylemeyen bir akrabam bana bir gün dedi ki “Hidayet, rüyamda sen taşla toprakla uğraşıyordun, herhalde taşlı, topraklı bir bölüm kazanacaksın”. En son eyvah dediğimi hatırlıyorum J şaka bir yana, kendi kendime inşallah bu rüya da yanlış gösteren rüyalardan biri olur diyorum.


Fakat ne gezer, bizim akrabanın güzelim rüyası doğru çıktı. Bana Jeoloji Mühendisliğinin yolları gözüktü. Kendime geldiğimde İzmir yolu yarım olmuştu bile. Bir yandan küçücük bir kasabadan Türkiye’nin en büyük üçüncü şehrine gitmenin zorluğu diğer yandan beklentilerimin altında bir bölümü kabul edemeyişim. Bütün bunların üstüne benim beğenmediğim bölümün birbirinden zor dersleri. Aman Allah’ım, her gün basıp geçtiğim, daha önce görsem yüzüne bile bakmayacağım nice taş, kaya, toprak hepsi de mi önemli olur muş. Jeoloji mühendisliğine giriş dersinden aldığım 13 gibi hem düşük hem de uğursuz bir not ile başladım yolda yolakta gördüğüm bütün taşları incelemeye. Her sabah okula giderken duvarlardaki taşlara baka baka okula gidiyorum. Görenlerin deli demesi umurumda değil. Ablamlara gidiyorum doğruca evlerinin arkasında taş toprak olan alana, ne mi yapıyorum, ne olacak çocuk gibi bir o taşı bir bu taşı alıyor, inceliyor ve taşı tanımaya çalışıyorum. Taşları inceleme sadece bu olsa iyi. Laboratuarlara gittiğimizde zaman oluyor taş kil kökenli mi diye taşa dilimizle dokunuyoruz (yalamak tabirini kullanmayacağımJ), zaman oluyor taşın ne kadar pürüzsüz olduğunu hissetmeye çalışıyoruz v.s. Bu çalışmanın sonunu merak ediyorsunuz değil mi? Birincisi taşları o kadar sevmeye başladım ki hala güzel bir taş görünce alıp evime götüresim gelir, ikincisi, ilkinden 13 aldığım sınavın ikincisinden 93 aldım, üçüncüsü ise taşların gizemli dünyası sayesinde her tür madene ve madenciliğe merakım arttı. Veri madenciliği dahil olmak üzere…

Biliyorum uzun bir giriş oldu fakat veri madenciliği anlatan sıkıcı kitaplardaki gibi başlamak istemedim ben. Farklı olmasını istedim. Belki de veri madenciliği yapmak için sizlerin de sebepleri olması gerektiğini düşündüğüm için böyle bir girişe gerek duydum.

Her yazımızda olduğu gibi bilinen tanımlar yerine biz kendi tanımlarımızı yapacağız bu yazıda da. Veri madenciliğine de kendi ruhumuzdan bir tanım koyarak başlayacağız. Veri Madenciliği; hiçbir şeyin sebepsiz meydana gelmediği şu evrende; sonuçlardan yola çıkarak sebepleri, sebepler arasında yer alıpta insanların göremediği ilişkileri ve sebepler sonucu ortaya çıkabilecek çıktıları tespit etmeye çalışan biraz insana biraz da bilgisayarlara dayalı tekniğe verilen isimdir.

Veri Madenciliği Nedir sorusunu ne zaman bize sorsalar ve ne zaman anlatsak maalesef herkes onu kendi açısından anlamaya çalışıyor ve maalesef hepsi de hata yapıyor. İstatistikle ilişkisi tabiî ki var ama o istatistik değil, veritabanları ile de ilişkisi var ama tek başına veritabanı da değil, makine öğrenmesi tekniklerini kullanıyor ama kardeşim makine öğrenmesi ile tamamen farklı. Bir şeyin veri madenciliği olabilmesi için en azından Veritabanlarından Bilgi Keşfi süreçlerini içermesi lazım. Pazar sepeti analizini anlattığımız derslerde öğrenciler hemen tamam diyor, anladım. Patates ile soğan birlikte satılıyor bu bir veri madenciliği. Patates ile soğanın birlikte satıldığını bilmek için veri madenciliğine gerek yok ki, onu bilmeyen mi var. Önemli olan patates ile ton balığı birlikte satılıyor mu bunu bulabilmek. Yani, insanlar tarafından ilk bakışta görülemeyen ilişkileri bulan işlerdir veri madenciliği. Bakıyorsunuz, 30-40 örnek değişkenler arasında ilinti buluyor birisi ve adına veri madenciliği diyor. Be güzel kardeşim kasmana ne gerek var, o işlemi sen istatistiksel teknikler ile de rahatça yapabilirsin.

Bir veri madenciliği dersimin ilk saatinde öğrencilerime şunu söylemiştim. Arkadaşlar, bu dersin en önemli çıktısı sizi “veri okur yazarı” yapmak. Nasıl bilgisayar okur yazarlığı bilgisayarları kullanma konusunda belli bir seviyeyi işaret ediyorsa veri okur yazarlığı da verinin karakteristiklerine bakarak o veriden ne tür sonuçlar çıkabileceğini baştan kestirebilme yeteneğidir. Örneğin, ikisi de tahminsel metot olmasına rağmen hangi veri ile sınıflandırma hangisi ile regresyon yapılır. Veya hangi veri için yapay sinir ağları uygundur hangisi için destek vektör makineleri uygundur. Giriş değişkenleri neler olmalı, çıkı değişkenleri neler olmalı. Veya sadece giriş değişkenleri ile yapabileceğimiz veri madenciliği uygulamaları olabilir mi, bütün bunları bir mantık bütünlüğü içerisinde görebilmek gerekiyor. İşte bütünü görmeye ben özet olarak veri okur yazarlığı diyorum.

Veri madenciliği önemli mi? Yani biz bunca yıldır acaba boşuna mı çalıştık veya boş bir sevda peşinden mi gidiyoruz?

Hani derler ya bir daha dünyaya gelsem yine bu işi yapardım diye. Valla ben de yeniden aynı fırsatlar verilse yeniden veri madenciliği çalışırdım. Kim ne derse desin veri madenciliği geleceğin en önemli 5 alanından birisi olacak. Bu kehanet değil. İşi bilen ağabeyler öyle söylüyor. Geleceğin en önemli 5 alanından biri olmasa da ben seviyorum bu alanı fakat belki öyle şeylere değer verenler vardır diye söylüyorum.

Ben bu konuda ne mi yaptım. Valla doktoramı bu konuda yaptım, epeyce makale yaptım. Epeyce ders verdim. Epece kurs verdim. Konuyla ilgili çok sayıda hakemlik ve danışmanlık yaptım v.s. İnşallah bundan sonra da daha fazlasını yapacağız, çünkü alanla ilgili öğrenciler yetiştiriyorum.

Konuya merakı olan arkadaşlarla görüşmek ve çalışmak isteriz. Belki de en iyi veri madencisi bu yazıyı okuyan kişilerden birisi olacak.

4 yorum:

  1. Hocam, walla super bir yazi olmus.

    Sene 97 olsaydi ve ben de ilk kez univ sinavina giriyor olsaydim belki beni kandirabilirdiniz. ama simdi en azindan benim icin cok gec.

    Gaza gelenler icin soyluyorum: Harbiden cok ilginc bir alan ve Hidayet hoca kadar sevmediginizi anladiginizda kolaylikla satip SW ci olabilmeniz de mumkun. O yuzden gaza gelmeye deger.

    selamlar

    Inan Erdem(Hidayet hocanin veri madenciligi dersini GYTE de master dersi olarak alan bir vatandas)

    YanıtlaSil
  2. Teşekkür ederim İnan,

    aradan epeyce bir zaman geçmesine rağmen seni hatırlamam zor olmadı, normalde herkesi bu kadar kolay hatırlamam.

    yorumun beni sevindirdi. daha da önemlisi duyarlı bir ağabey olarak gençlere veri madenciliğini tavsiye etmen.

    senin de dediğin gibi, benim de yazımda belirtmeye çalıştığım gibi veri madenciliği hem akademik anlamda hem de meslek anlamında gelecek vadediyor.

    selam ve sevgiler,

    YanıtlaSil
  3. Güzel bir yazı olmuş hocam. Teşekkürler.

    Öznitelikleri Seçsek de mi Veri Madenciliği Yapsak Yoksa Seçmeden mi Yapsak? yazısı ile sitenize ulaştım.
    akıcı ve çekici üslubunuz beni sitenizdeki diğer madenleri aramaya yöneltti :)

    yazılarınızın devamını dilerim.

    YanıtlaSil
  4. beğeni için teşekkür ederim, yeni yazılarım gelecek inşallah siz değerli okuyuculara,

    YanıtlaSil

VERİ BİLİMCİSİ - DATA SCIENTIST