3 Nisan 2015 Cuma

Metin Madenciliği (Text Mining) Nedir?

Kayıt sistemlerinin gelişimiyle birlikte kullanılabilir bilgilerin bir kısmı yapısal diğer bir kısmı ise yapısal olmayan formatta kayıt altına alınmıştır. Yapısal olanlar veritabanlarında yapısal olmayanlar ise metinler halinde dosyalarda tutulurlar. 

Bugüne kadar teknoloji yoğun olarak yapısal verilerin kullanımı ve analizi üzerine odaklanmıştır. Önce veritabanı teknolojileri ardından veri madenciliği teknik ve algoritmaları hep yapısal veri üzerinde durmuştur. Bununla birlikte kullanılabilir veriler arasında yapısal veriler ve yapısal olmayan veriler arasında bir oranlama yapacak olduğumuzda yapısal olmayan verilerin baskın şekilde fazla olduğu ortaya çıkacaktır. Peki neden insanoğlu bugüne kadar daha az verinin yer aldığı yapısal veriler üzerinde durmuştur, bunun en basit cevabı SQL gibi gelişmiş teknolojilerin yapısal veriyle uyumlu olmasıdır. Peki yapısal olmayan veriden bilgi çıkarımı nasıl yapılacak. İşte tam bu noktada karşımıza metin madenciliği çıkacaktır. 

Metin madenciliği basitçe doğal dil işleme ve veri madenciliğinin bir kesişimi olarak kabul edilir. Bir yapıya sahip olmayan veri çeşitli doğal dil işleme yöntemleriyle önce yapısal hale getirilir, ardından yapısal hale gelmiş veri üzerinde veri madenciliği yapılır. Dolayısıyla bir metin üzerinde madencilik yapabilmenin ilk adımı doğal dil işleme yapmaktır. 

Doğal Dil İşleme yapay zekanın önemli çalışma alanlarından birisidir. İnsan bilgisayar etkileşimini gerçekleme noktasında anahtar role sahiptir. Tek başına da bir çalışma alanı olan doğal dil işleme metin madenciliği çalışmasının da önemli bir parçasını oluşturur. Bir metin madenciliği çalışmasında doğal dil işleme alanından; metin temizleme, tokenizasyon, eklerin metinden ayrılması, köke ulaşım, kök türünün bulunması, eş anlamlı sözcükler, muğlaklık giderme, POS etiketleme ve buna benzer teknikler kullanılır. 

Belki de doğal dil işlemenin dahil edilmesinden dolayı metin madenciliği çalışmaları zorludur. Kimi zaman doğal dil işleme işlemlerini azaltmak amaçlanır ve öylesi zamanlarda doğal dil işleme teknikleri yerine farklı özellik setleri kullanılır. Bunlardan birisi harfler, diğeri ise n-gram adını verdiğimiz harf veya kelime dizileridir. Özellikle harf seviyeli n-gramlarla çalışma esnasında doğal dil işlemede kullanılan adımlara olan ihtiyaç azalmaktadır. 

Metin madenciliğinin özellikle iki alana katkıları olmuştur; bunlar bilgi alma ve bilgi çıkarımıdır. Klasik olarak katalog tarama veya arama motorlarında tarama yapmak şeklinde meydana gelen bilgi arama metin madenciliği sayesinde çok daha etkili bir hal almıştır. Klasik yöntemde mutlaka sorgu terimi ile sonuç dokümanının eşleşmesi beklenirken metin madenciliği yardımıyla bilgi almada sorgu terimi içinde geçmeyen dokümanların bile bulunması imkanı vardır. Aynı şekilde bilgi çıkarımı anlamında da yapısal dokümanlardan etiketler yardımıyla veriler almak yerine hiç bir yapıya sahip olmayan metinlerin özetlenmesi, çeviri sistemleri, soru cevaplama gibi işlevleri yerine getirmek mümkündür.    

Metin madenciliği öncesinde bir dokümandan bilgi almak için aradığımız şeyin ne olduğunu bilme ihtiyacı varken metin madenciliği sayesinde arama yaptığımız alanda bilgi sahibi olmamıza gerek yoktur. Artık bizim için özetlenmiş metinler, bizim yerimize spam olarak seçilmiş mektuplar, bize tavsiye edilen önemli bildirimler v.s. artık mümkün olacaktır. Metin madenciliği yardımıyla artık işveren ile iş arayan daha makul şekilde eşleşecektir. Artık dokümanlar arasında daha kolay ilişki kurulabilecektir. Artık sosyal medya verilerinden stratejik kararlar verilebilecektir. Artık medya takibi daha rahat yapılabilecektir v.s. 

O zaman ne duruyoruz, haydi metin madenciliği yapmaya...

Hiç yorum yok:

Yorum Gönder