2 Haziran 2011 Perşembe

Öznitelikleri Seçsek de mi Veri Madenciliği Yapsak Yoksa Seçmeden mi Yapsak?

Şu insanoğlu bir tuhaf, gün geçmiyor ki yeni bir şey çıkarmasın. Neymiş efendim bilgisayarda veri tutmak yetmezmiş dosyalama sistemleri geliştirilmeliymiş, neymiş efendim dosyalama sistemleri yetmezmiş veritabanı kullanmak lazımmış. Oh işte, veritabanı kullandık ve veri bolluğu bu sefer başımıza dert oldu. Topladık topladık ve sonunda topladıklarımız işe yarasın bari diye Veritabanlarından Bilgi Keşfi diye bir şey çıkardık.

Şaka bir yana, efendim bu verileri gerçekten değerlendirmek lazım. Ama nasıl? SQL bilmek yetmiyor kardeşim, daha zekice, hatta daha akıllıca işlere ihtiyaç var. Artık insan zekâsına yardımcı yapay zekâlara, artık öğrenen makinelere ihtiyaç var. İstatistik yetmiyor üstadım Veri Madenciliğine ihtiyaç var artık. Doğal dili bile anlayacak bilgisayarlara ihtiyaç var artık. Günümüz teknolojisi bunu istiyor artık.

2001 yılında heyecanlı bir doktora öğrencisi olarak, değerli hocam İbrahim Soğukpınar ile tez konusu ararken, hocam bana “Hidayet, Data Mining diye bir konu varmış, çalışmak ister misin” deyince, içinde Data lafı geçtiği için “Hocam ismi hoşuma gitti ben bu konuda çalışırım” diyerek veri madenciliği alanına bir giriş yaptım. Çalıştık, çabaladık, yayın yaptık, proje yaptık, kurs verdik, ders verdik, lab. Kurduk derken işin içine iyiden iyiye girdik. Hatta sınırlarımızı metin madenciliğine kadar da ilerlettik. İşte tam da bu noktada, veri madenciliğinin ve metin madenciliğinin önemli konularından biri oldukça ilgimi çekti. Öznitelik seçimi. Nedir bu konu? Neye yarar? Sıkmadan ve sıkılmadan kısaca anlatmak isterim efendim.

Öznitelik seçimi, veri madenciliğinin önemli bir problemi olan boyut fazlalılığı problemini ortadan kaldırmak için geliştirilmiş yöntemler bütününe verilen isim. Amacı, bir makine öğrenme sisteminde öğrenmeyi olumlu yönde etkileyen nitelikleri seçip, olumsuz yönde sisteme zarar veren nitelikleri de ortadan kaldırmak.

Örneğin, bir adama kredi kartı vereceksiniz, adamın finansal bilgilerine bakıyorsunuz, medeni haline bakıyorsunuz, tarihsel verilerine bakıyorsunuz bir de adres bilgilerine bakıyorsunuz. Bu bilgilerin hepsi ile işlem yapmak, özellikle de gerçek zamanlı işlem yapılan sistemler için performansı kötü şekilde etkilediği için adres bilgisi gibi çok ta kredi kartı vermekle ilgisi olmayan nitelikleri eliyorsunuz. Hem daha doğru sonuç alıyorsunuz, hem de daha yüksek hızla işlem yapıyorsunuz. Tam bankaların istediği gibi değil mi?

Efendim, temel olarak öznitelik seçim yöntemleri ikiye ayrılıyor. Bunlardan birincisi istatistik tabanlı diğeri ise sınıflandırmaya dayalı yöntemler. İstatistiksel yöntemler en uygun öznitelik kümesini istatistiksel dağılımlara dayalı olarak elde ediyor. Sınıflandırmaya dayalı yöntemler ile hangi öznitelikler daha iyi sınıflandırma başarısı veriyorsa onları seçip diğerlerini geride bırakma şeklinde yapılıyor.

Öznitelik seçim yöntemlerinde genel uygulama ya tek bir nitelikle sınıflandırma işlemine başlayıp adım adım yeni nitelikler ekleyerek en iyi sonucu bulmak ya da bütün niteliklerle sınıflandırma işlemine başlayıp teker teker nitelikleri kaldırarak sınıflandırma sonucu elde etme şeklinde ilerliyor. Bu yöntemlere artırımlı yada azaltımlı yöntemler adı veriliyor.

Bu arada, öznitelik seçiminde iki önemli yöntem Temel Bileşen Analizi ve Doğrusal Ayrışım Analizi. Her iki yöntem de sıklıkla kullanılan yöntemler. Temel bileşen analizi, nitelik dönüşümü yoluyla daha çok nitelikten daha az niteliğe dönüşümü sağlarken doğrusal ayrışım analizi, sınıfları birbirinden ayırt etme yeteneği yüksek olan niteliklerin seçilmesi yoluyla öznitelik seçimini yerine getirmekte.

Bir son teknik ise birliktelik kuralları, birliktelik kurallarında kullanılan destek ve güven eşikleri kullanılarak daha sık ve daha önemli nitelikler seçilebilmekte ve böylece öznitelik seçimi yapılabilmektedir.

Sözün özü, özellikle yüksek hacimli madencilik işlemlerinde öznitelik seçimi çoğu zaman yapılması elzem olan bir işlem. Dolayısıyla siz siz olun veri madenciliği yapmadan önce öznitelik seçimi durağına bir uğrayın. 

Saygılarımla,

Hidayet Takcı

Hiç yorum yok:

Yorum Gönder

VERİ BİLİMCİSİ - DATA SCIENTIST