19 Nisan 2015 Pazar

BIG DATA İnsanlığa Hizmet Edebilecek mi?

Her dönemin moda tabirleri olur, bir zamanlar "veri ambarı", "veri madenciliği" böyleydi mesela. Modaya uyan olduğu kadar uyduğunu zannedenler de olurdu. Örneğin kimileri istatistik bile yapamazken veri madenciliği yaptığını iddia ederdi, modadan geri kalmamak için. İşte son dönem yaşadığımız big data çılgınlğı da öyle bir şey. Yanlış anlaşılması çılgınlık big data konusunda değil tabiri hatalı kulanım konusunda.
Big data nedir öyleyse. Kimilerinin büyük veri, hatta kimilerinin dev veri olarak adlandırdığı big data kayıt altına alınan her tür verinin bir araya gelmesiyle oluşmuş, bu nedenle de bilinen tekniklerle analiz edilemeyen, entegrasyon ve paylaşım anlamında çok sıkıntılar barındıran veriler, teknikler, yaklaşımlar topluluğudur.
Sosyal medyanın artan önemiyle benzer tarihlerde bu kavram ortaya çıktığı için bir çok insan doğrudan big data konusuyla sosyal medya verilerini örtüştürür. Hatta kimi zihinlerde basitçe big data sosyal medya datasıdır bile. Halbuki; big data konusu bugüne kadar data ile ilgili olarak çalıştığımız dosyalama kavramlarından ilişkisel veritabanlarında kullandığımız kavramlara kadar birçok şey hakkında en azından bilgi sahibi olmayı gerektirir. Big data kavramı diğerlerinden ayrık şekilde ortaya çıkmış değil onların baş edemediği veriyi baş edebilmek için veri analitiğine farklı bir bakış açısı getirmiştir.
Bu yazının asıl konusu transaction işleme ile batch işleme arasındaki farklar veya sosyal medya verilerinin müşteri ilişkileri yönetiminde nasıl kullanılacağı üzerine değil. Bu yazının asıl konusu big data'nın ne amaçla kullanılacağıdır. Malum varlıklarla ilgili her tür bilgiyi ustaca kayıt altına alan, sonra bunlar arasında ilişkiler kuran analitiğin bir amacı olmalı. İşte o amaç ne olacak bu yazının konusu odur.
Müşteri İlişkileri Yönetimi (CRM) çalışan kişiler yıllarca şunu söylediler. Biz eğer müşterilerimizi tanırsak üretimi onlara uygun şekilde yapar ve satışlarımızı artırırız. Müşteriye onu özel hissettirecek şeyler yaparsak satışlarımızı artırırız. En çok alışveriş yapmayı çocuklar ve bayanlar sevdiği için onları yakalarsak satışları artırırız gibi konular çalıştılar. Onlar çalıştıkça tüketim çılgınlığı dediğimiz şey arttı ve sonuçta kredi kartı borcunu ödeyemeyen yüz binler ortaya çıktı. Ve gördük ki müşteriyi tanımaya vaat eden bu çalışmalar aslında müşterilerin zaaflarını tanıyarak belki de onlara ihtiyaç olmayan şeyi ihtiyaç gibi hissettirdiler. Bir taraftan sıkı CRM çalışmaları diğer taraftan satın alma duygusunu bilinçaltına gönderen subliminal mesajlar içeren reklamlar bugün bazı aileleri perişan etmiş durumda. Big data ve beraberinde yapılacak çalışmalar bu durumu daha ileri noktaya taşıyacaktır. Masumane bir twit sonunda belki de parası olmayan genç bir ürün için kuyruğa girecektir. İşte big data ve uygun tekniklerin pek de insanlık hayrına olamayacağı bir örnek.
Hayırlı olabileceği yerler de var tabi ki. Örneğin medikal alandaki çalışmalar. Hala sırrı çözülemeyen kanserin sebepleri belki de bu teknikler sayesinde çözülebilecek. Hastalığın aşamaları, hasta tecrübelerinin de paylaşımı ile daha anlaşılabilir hale gelebilecektir. Ayrıca, ilaç üretimi gibi, hastaların networkü gibi hayırlı işlere de hizmet edebilecektir. 
Eğer teknik ve teknoloji insanlığa hizmet için varsa yeni gelişen teknolojileri de seçici şekilde kullanmamız esastır. Konuyla ilgili çalışanların ve çalışacakların daha hayırlı olana hizmet edecek şekilde yönlenmeleri herkesin hayrına olacaktır. Eğer Big Data'nın insanlığa hizmet etmesini bekliyorsak çalışmalarımızı da o yönde yapmalıyız. Nihayetinde o teknolojiye hangi ellerde şekil verildiği önemlidir.
Nisan 2015, Sivas 

3 Nisan 2015 Cuma

Metin Madenciliği (Text Mining) Nedir?

Kayıt sistemlerinin gelişimiyle birlikte kullanılabilir bilgilerin bir kısmı yapısal diğer bir kısmı ise yapısal olmayan formatta kayıt altına alınmıştır. Yapısal olanlar veritabanlarında yapısal olmayanlar ise metinler halinde dosyalarda tutulmuştur. 

Bugüne kadar yapılan çalışmalarda, biraz da pratikliğinden dolayı araştırmacılar yoğun olarak yapısal verilerin kullanımı ve analizi üzerine odaklanmıştır. Önce veritabanı teknolojileri ardından veri madenciliği teknik ve algoritmaları hep yapısal veri üzerinde durmuştur. Bununla birlikte kullanılabilir veriler içerisinde yapısal olmayan verilerin oranı yapısal olan verilerin oranından bir hayli fazladır. Peki neden araştırmacılar bugüne kadar daha az verinin yer aldığı yapısal veriler üzerinde durmuştur? Bunun en basit cevabı SQL gibi gelişmiş teknolojilerin yapısal veriyle uyumlu olmasıdır. Peki yapısal olmayan veriden bilgi çıkarımı nasıl yapılacak? İşte tam bu noktada karşımıza metin madenciliği çıkar. 

Metin madenciliği basitçe doğal dil işleme ve veri madenciliğinin bir kesişimi olarak kabul edilir. Bir yapıya sahip olmayan veri çeşitli doğal dil işleme yöntemleriyle önce yapısal hale getirilir, ardından yapısal hale gelmiş veri üzerinde veri madenciliği yapılır. Yapısal olmayan verinin yapısal hale dönüşümü kimi zaman Metinlerin Sayısallaştırılması olarak da isimlendirilir. Dolayısıyla bir metin üzerinde madencilik yapabilmenin ilk adımı doğal dil işleme yapmaktır. 

Doğal Dil İşleme yapay zekanın önemli çalışma alanlarından birisidir. İnsan bilgisayar etkileşimini gerçekleme noktasında anahtar role sahiptir. Tek başına da bir çalışma alanı olan doğal dil işleme metin madenciliği çalışmasının da önemli bir parçasını oluşturur. Bir metin madenciliği çalışmasında doğal dil işleme alanından; metin temizleme, tokenizasyon, eklerin metinden ayrılması, köke ulaşım, kök türünün bulunması, eş anlamlı sözcükler, muğlaklık giderme, POS etiketleme ve buna benzer teknikler kullanılır. 

Belki de doğal dil işlemenin dahil edilmesinden dolayı metin madenciliği çalışmaları zorludur. Kimi zaman doğal dil işleme işlemlerini azaltmak amaçlanır ve öylesi zamanlarda doğal dil işleme teknikleri yerine farklı özellik setleri kullanılır. Bunlardan birisi harfler, diğeri ise n-gram adını verdiğimiz harf veya kelime dizileridir. Özellikle harf seviyeli n-gramlarla çalışma esnasında doğal dil işlemede kullanılan adımlara olan ihtiyaç azalmaktadır. 

Metin madenciliğinin özellikle iki alana katkıları olmuştur; bunlar bilgi alma ve bilgi çıkarımıdır. Klasik olarak katalog tarama veya arama motorlarında tarama yapmak şeklinde meydana gelen bilgi arama metin madenciliği sayesinde çok daha etkili bir hal almıştır. Klasik yöntemde mutlaka sorgu terimi ile sonuç dokümanının eşleşmesi beklenirken metin madenciliği yardımıyla bilgi almada sorgu terimi içinde geçmeyen dokümanların bile bulunması imkanı vardır. Aynı şekilde bilgi çıkarımı anlamında da yapısal dokümanlardan etiketler yardımıyla veriler almak yerine hiç bir yapıya sahip olmayan metinlerin özetlenmesi, çeviri sistemleri, soru cevaplama gibi işlevleri yerine getirmek mümkündür.    

Metin madenciliği öncesinde bir dokümandan bilgi almak için aradığımız şeyin ne olduğunu bilme ihtiyacı varken metin madenciliği sayesinde arama yaptığımız alanda bilgi sahibi olmamıza gerek yoktur. Artık bizim için özetlenmiş metinler, bizim yerimize spam olarak seçilmiş mektuplar, bize tavsiye edilen önemli bildirimler v.s. artık mümkün olacaktır. Metin madenciliği yardımıyla artık işveren ile iş arayan daha makul şekilde eşleşecektir. Artık dokümanlar arasında daha kolay ilişki kurulabilecektir. Artık sosyal medya verilerinden stratejik kararlar verilebilecektir. Artık medya takibi daha rahat yapılabilecektir v.s. 

O zaman ne duruyoruz, haydi metin madenciliği yapmaya...

Bilgi Erişim Sistemleri

Klasik bilgi erişim sistemleri; kullanıcıların ihtiyaç duyduğu belgeleri hızlı şekilde bulmayı sağlayan sistemlerdir, halbuki modern bilgi erişim sistemleri bunun bir adım ötesine geçerek bilgiler arası ilişkileri ortaya koymaya çalışır. Modern bilgi erişimi anlayabilmek için klasik bilgi erişimin anlaşılması elzemdir bu nedenle önce klasik bir bilgi erişim sistemi bütün elemanları ile ele alınıp ardından modern bilgi erişimde önemli bir yeri olan anlam çıkarma konusu ele alınacaktır. 

Bilgi erişim kabaca, bilgi merkezlerinde saklı bulunan bilgi ve belgelere kullanıcıların yetkileri doğrultusunda ulaşmasını ifade eder. Manning ve diğerleri (2008) bilgi erişimi şöyle tanımlamışlardır “büyük koleksiyonlar içinden (genellikle bilgisayarlarda saklanan) ihtiyaç duyulan materyallerin (genellikle metin) bulunmasıdır”. Bilgi erişim fonksiyonlarını yerine getirmek üzere bilgi erişim sistemleri oluşturulmuştur. Bir bilgi erişim sistemi; bilgi ve ona ihtiyaç duyan kullanıcı arasındaki bilgi akış sürecinin kesintisiz biçimde oluşumunu mümkün kılan, aralarında etkileşim ve uyum bulunan parçalardan oluşmuş sistemdir (Gürdal, 2003).  

Bir bilgi erişim sisteminin temel kaynağı farklı kaynaklardan toplanan belgelerdir. Bu belgeler içerik olarak; metin, resim, ses, video ve URL türlerinde, yapı olarak da basılı veya elektronik olabilir. Basılı belgeler tarayıcı yardımıyla elektronik belge formatına dönüştürüldükten sonra diğer elektronik belgelerle birlikte işleme alınırlar. Belgelerin sayısallaştırılması etkili belge yönetimi için bir ihtiyaçtır.

Belgeler kayda alınırken iki farklı yöntem kullanılır. Bunlardan birincisi klasik bilgi erişim sistemlerinde olduğu gibi belgenin sadece başlık (bibliyografik) bilgilerinin kaydedilmesi diğeri ise başlık bilgilerine ek olarak içerik özetlerinin de tutulmasıdır. Başlık bilgilerinin neler olduğu konusunda başta MARC formatı olmak üzere çeşitli formatlar bulunmaktadır. Onlara ek olarak elektronik belgeler için ek başlık bilgileri kullanılır. Örneğin dosya yönetim sistemi tarafından tutulan; belge türü, belgenin sahibi, belgenin değiştirilme tarihi, belgenin kaydedileceği dizin adresi ve buna benzer bilgilerdir. 

İkinci yöntem ise elektronik belgelerin içerik özetlerinin kayda alınmasıdır. Bu yöntemde içerik verisi indeks terimler üzerinden özetlenir ve genellikle indeks kayıtları ile sunulurlar. İndeks terimlerinden oluşan bir vektör belgeyi sunmada sıklıkla kullanılan bir yöntemdir.

İndeksleme, belgelere erişimi hızlandırıcı bir tekniktir dolayısıyla, belgeleri indekslemek performansı yüksek bilgi erişim için elzemdir. Belgelerin indekslenmesinde kavramsal dizin (thesauri) ve söz dağarcığından seçilmiş indeks terimler kullanılır. İndeksleme sonrasında her belge için daha sonradan erişim amacıyla bir dizin kaydı oluşturulur. Dizin kaydı oluşturulurken; imza dosyaları (signature files) ve ters indeks dosyaları (inverted index files) bilinen iki örnektir. Özellikle ters indeks dosyaları birçok ticari üründe bilgi erişim maksadıyla kullanılan klasik bir yöntemdir. Ters indeks dosyaları, her bir indeks teriminin hangi sayfada yer aldığına dair bilgileri tutar. 

Bilgiye erişimde önemli bir konu da erişim kuralıdır. Erişim kuralı bilgi erişimin ne şekilde yerine getirileceği ile ilgilidir. Klasik bilgi erişimde belgelerin başlık bilgilerinden faydalanılır. Bu model sıklıkla ikili erişim modelini kullanır ve bilgiye erişimde sıklıkla indeks terimlerinin AND, OR, NOT bağlaçları yardımıyla birleştirilmesi ile sonuç elde edilir. Buna karşılık modern bilgi erişimde belgelerin içerik verisi üzerinden erişim desteklenir. Bu nedenle sayısal kütüphaneler gibi elektronik belgelerin bulunduğu ortamlar için modern bilgi erişim sistemleri daha uygundur. 

Modern bilgi erişimde sık kullanılan yöntemlerden biri her bir belgenin bir vektör olarak sunulduğu vektör uzayı modelidir. Terim ağırlıklandırmanın desteklendiği bu modelde sorgu terimleri ile belgeler arasındaki benzerlikler geometrik yöntemlerle elde edilir. Bu modelde her belge ağırlıklandırılmış indeks terimleri vektörüyle sunulur. 

Terim ağırlıklandırmada en sık kullanılan yöntemlerden birisi terim frekansı TF (Term Frequency) diğeri ise IDF (Inverse Document Frequency) yöntemidir. TF yöntemine göre her bir indeks terimi terimlerin belgedeki tekrar sayısından elde edilir. IDF yönteminde ise, derlemde daha seyrek geçen terimler daha yüksek, daha sık tekrarlanan terimler ise daha düşük ağırlıkla sunulur. Bir bilginin bu modelde aranması sırasında sorgu terimlerine ait vektör ile belge vektörleri arasındaki ilişkililik derecesine bakılır. Sorgu terimlerine karşılık olarak en yüksek ilişkililik derecesini veren belge aranan belgedir. Kimi arama motorlarında da kullanılan bu yöntem sorgu sonucu dönen belgeleri skora dayalı olarak sıralamaya imkan vermektedir. İkili model ve vektör uzayı modelinden ayrı olarak bir de olasılıksal model vardır. Olasılıksal modelde terim ağırlıkları terimlerin belgede yer alma olasılıklarından elde edilir. Bu model öncel olasılık bilgilerine dayalı olarak bilgi erişimi destekler. Bu modelde de belgeler ilişkililik derecesine göre, azalan sırada dizilir.

Bütüncül bir belge erişim sistemi için hem klasik bilgi erişim hem de modern bilgi erişim desteklenmelidir.

Belge erişim için; filtreleme, kümeleme, sınıflandırma ve kategori tabanlı erişim de mümkün olmasına rağmen bu çalışmada yoğun olarak sorgu cümlesi yardımıyla belge erişim konusu üzerinde durulacaktır. Sorgu oluşturma sırasında kavramsal dizin ve sözlüklerden faydalanarak sorgu cümleleri hazırlanır. Sorgu cümlesi oluşturma konusunda bilgi erişim arabirimi kullanıcılara yardımcı olur. Sorgulamanın nasıl yapılacağı ayrıntılı olarak anlatılsa bile kullanıcılar genellikle özensiz şekilde girişler yaparak sonuç bulmaya çalışır. Bu durumda sorgu ve dolayısıyla erişim kalitesini düşüren hatalar giderilmelidir.

VERİ BİLİMCİSİ - DATA SCIENTIST