17 Ekim 2012 Çarşamba

METİN MADENCİLİĞİ ÇERÇEVESİ


METİN MADENCİLİĞİ ÇERÇEVESİ
Dr. Hidayet TAKCI, htakci@gmail.com  
GYTE 2011

Metin Madenciliği için bugüne kadar dersimiz bünyesinde birçok tanım verdik fakat bu tanımlar içerisinde en uygun olanı ve en uygulanabilir olanı:
Metin Madenciliği = Doğal Dil İşleme + Veri Madenciliği
Formülüdür.
Metin madenciliği süreçleri için kabataslak bir özet aşağıdaki gibi verilebilir. Bu taslak birinci taslak olup zamanla iyileştirmeler yapılacaktır. 
Metin Madenciliği Süreci
1.      Bir kaynaktan (gazete, dergi, internet, kitap, kütüphane v.s. ) kaynakların seçimi: bugüne kadar birçok külliyat oluşturulmuş ve ortak olarak kullanımda yer almaktadır. Fakat. Özellikle Türkçe için hala külliyat ihtiyacı bulunmaktadır.
2.      Seçilen kaynaklar üzerinde temizleme işlemi (kısa boyutlu veya ilişkisiz dosyaların silinmesi – dosya seviyesinde ön işlem): külliyatın başarısı için arızalı olmayan dokümanların külliyata alınması.
3.      Kaynakların bir indeksleme sistemi uygun olarak külliyata eklenmesi: külliyat üzerinde çalışma yapılırken dokümanların bazı özellikleri ile dokümanın içeriği arasında ilişki kurma ihtiyacı vardır. Bu ihtiyacı karşılayabilmek için dokümanlar; anahtar kelimeler, konu başlıkları, yazar bilgileri gibi bilgilerle kaydedilir.
4.      Durak Listelerinin (Stop word list) oluşturulması: durak listeleri hem dile hem de konuya bağlı olarak değişim gösterir. Örneğin iki farklı dil için gereksiz terimler farklı olduğu gibi iki farklı alan için de durak listeleri farklılık gösterir. Örneğin, klasik metin madenciliği işlemleri ile yazar tanıma işlemi için durak listeleri farklıdır.
5.      Pos etiketlerinin oluşturulması: morfolojik analiz için önemli bir yapı POS etiketleri (POS tags) olarak bilinir. POS etiketleri sayesinde bir terimin türü bulunmakla birlikte terimin ekleri de ayırt edilebilmektedir. Dolayısıyla köke erişim (stemming) işleminde POS etiketleri önemlidir.
6.      Dokümanların tek tek ele alınması
7.      Tokenizasyon (kelime tabanlı, n-gram tabanlı): doküman işlemenin ilk adımıdır. Bir metnin cümlelere ve cümleyi oluşturan yapılar (token) gibi dilbilimsel yapılara ayrıştırılmasını ifade eder. Bu yapılar terimler ve noktalama işaretleridir. Noktalama işaretleri, sayılar ve diğer işaretler genellikle metinden temizlenir ve geriye kalan terimler ise gürültü giderme (denoising) ve köke erişim (stemming) işlemine tabi tutulur. Tokenizasyon işleminde iki farklı yaklaşım kelime tabanlı ve n-gram tabanlı işlemdir. Kelime tabanlı tokenizasyon, doğal dil işleme adımlarını içerir, n-gram tabanlı tokenizasyon ise ham veri ile çalışmayı ifade eder.     
8.      Kelime tabanlı ise;
a.       Amaca uygun ön gürültü gidermenin doküman üzerinde yapılması (metin seviyesinde). Örneğin, klasik metin madenciliğinde fonksiyonel kelimelerin silinip, yazar tanımada silinmemesi.
                                                                                      i.      Durak listelerinde yer alan terimlerin metinden silinmesi
                                                                                    ii.      Kelime frekanslarına dayalı olarak frekansı çok yüksek ve çok düşük olanların silinmesi
b.      Amaca uygun köke erişim işleminin doküman üzerinde yapılması
                                                                                      i.      Pos etiketleri yardımıyla, kelimenin köküne ulaşılır.
                                                                                    ii.      Köke erişim sonrası son özellik setinin bulunması
c.       Özellik seti elemanlarına dayalı olarak dokümanlara ait Terim frekans vektörlerinin elde edilmesi (bag of words sunumunda tf özetleme)
9.      Kelime N-gram tabanlı ise;
a.       2 gram yakınlık matrisi (Bigram Proximity Matrix) (BPM) ve 3 gram yakınlık matrisi (Trigram Proximity Matrix) (TPM) oluşturulması.
b.      BPM ve TPM bilgileri ile dokümanlar arasındaki benzerliklerin bulunması – Veri Madenciliği aşaması
c.       BPM ve TPM bilgileri sayesinde doküman sınıflandırma – Veri Madenciliği Aşaması
d.      BPM ve TPM bilgileri sayesinde birliktelik kurallarının bulunması – Veri Madenciliği Aşaması
10.  Karakter N-gram tabanlı ise;
a.       Kelime n-gramlar için yapılan birçok önişlem yapılmayıp doğrudan veri özetleme adımına geçilir.
b.      Veri madenciliği işlemleri yapılır.

Hiç yorum yok:

Yorum Gönder