3 Nisan 2015 Cuma

Bilgi Erişim Sistemleri

Klasik bilgi erişim sistemleri; kullanıcıların ihtiyaç duyduğu belgeleri hızlı şekilde bulmayı sağlayan sistemlerdir, halbuki modern bilgi erişim sistemleri bunun bir adım ötesine geçerek bilgiler arası ilişkileri ortaya koymaya çalışır. Modern bilgi erişimi anlayabilmek için klasik bilgi erişimin anlaşılması elzemdir bu nedenle önce klasik bir bilgi erişim sistemi bütün elemanları ile ele alınıp ardından modern bilgi erişimde önemli bir yeri olan anlam çıkarma konusu ele alınacaktır. 

Bilgi erişim kabaca, bilgi merkezlerinde saklı bulunan bilgi ve belgelere kullanıcıların yetkileri doğrultusunda ulaşmasını ifade eder. Manning ve diğerleri (2008) bilgi erişimi şöyle tanımlamışlardır “büyük koleksiyonlar içinden (genellikle bilgisayarlarda saklanan) ihtiyaç duyulan materyallerin (genellikle metin) bulunmasıdır”. Bilgi erişim fonksiyonlarını yerine getirmek üzere bilgi erişim sistemleri oluşturulmuştur. Bir bilgi erişim sistemi; bilgi ve ona ihtiyaç duyan kullanıcı arasındaki bilgi akış sürecinin kesintisiz biçimde oluşumunu mümkün kılan, aralarında etkileşim ve uyum bulunan parçalardan oluşmuş sistemdir (Gürdal, 2003).  

Bir bilgi erişim sisteminin temel kaynağı farklı kaynaklardan toplanan belgelerdir. Bu belgeler içerik olarak; metin, resim, ses, video ve URL türlerinde, yapı olarak da basılı veya elektronik olabilir. Basılı belgeler tarayıcı yardımıyla elektronik belge formatına dönüştürüldükten sonra diğer elektronik belgelerle birlikte işleme alınırlar. Belgelerin sayısallaştırılması etkili belge yönetimi için bir ihtiyaçtır.

Belgeler kayda alınırken iki farklı yöntem kullanılır. Bunlardan birincisi klasik bilgi erişim sistemlerinde olduğu gibi belgenin sadece başlık (bibliyografik) bilgilerinin kaydedilmesi diğeri ise başlık bilgilerine ek olarak içerik özetlerinin de tutulmasıdır. Başlık bilgilerinin neler olduğu konusunda başta MARC formatı olmak üzere çeşitli formatlar bulunmaktadır. Onlara ek olarak elektronik belgeler için ek başlık bilgileri kullanılır. Örneğin dosya yönetim sistemi tarafından tutulan; belge türü, belgenin sahibi, belgenin değiştirilme tarihi, belgenin kaydedileceği dizin adresi ve buna benzer bilgilerdir. 

İkinci yöntem ise elektronik belgelerin içerik özetlerinin kayda alınmasıdır. Bu yöntemde içerik verisi indeks terimler üzerinden özetlenir ve genellikle indeks kayıtları ile sunulurlar. İndeks terimlerinden oluşan bir vektör belgeyi sunmada sıklıkla kullanılan bir yöntemdir.

İndeksleme, belgelere erişimi hızlandırıcı bir tekniktir dolayısıyla, belgeleri indekslemek performansı yüksek bilgi erişim için elzemdir. Belgelerin indekslenmesinde kavramsal dizin (thesauri) ve söz dağarcığından seçilmiş indeks terimler kullanılır. İndeksleme sonrasında her belge için daha sonradan erişim amacıyla bir dizin kaydı oluşturulur. Dizin kaydı oluşturulurken; imza dosyaları (signature files) ve ters indeks dosyaları (inverted index files) bilinen iki örnektir. Özellikle ters indeks dosyaları birçok ticari üründe bilgi erişim maksadıyla kullanılan klasik bir yöntemdir. Ters indeks dosyaları, her bir indeks teriminin hangi sayfada yer aldığına dair bilgileri tutar. 

Bilgiye erişimde önemli bir konu da erişim kuralıdır. Erişim kuralı bilgi erişimin ne şekilde yerine getirileceği ile ilgilidir. Klasik bilgi erişimde belgelerin başlık bilgilerinden faydalanılır. Bu model sıklıkla ikili erişim modelini kullanır ve bilgiye erişimde sıklıkla indeks terimlerinin AND, OR, NOT bağlaçları yardımıyla birleştirilmesi ile sonuç elde edilir. Buna karşılık modern bilgi erişimde belgelerin içerik verisi üzerinden erişim desteklenir. Bu nedenle sayısal kütüphaneler gibi elektronik belgelerin bulunduğu ortamlar için modern bilgi erişim sistemleri daha uygundur. 

Modern bilgi erişimde sık kullanılan yöntemlerden biri her bir belgenin bir vektör olarak sunulduğu vektör uzayı modelidir. Terim ağırlıklandırmanın desteklendiği bu modelde sorgu terimleri ile belgeler arasındaki benzerlikler geometrik yöntemlerle elde edilir. Bu modelde her belge ağırlıklandırılmış indeks terimleri vektörüyle sunulur. 

Terim ağırlıklandırmada en sık kullanılan yöntemlerden birisi terim frekansı TF (Term Frequency) diğeri ise IDF (Inverse Document Frequency) yöntemidir. TF yöntemine göre her bir indeks terimi terimlerin belgedeki tekrar sayısından elde edilir. IDF yönteminde ise, derlemde daha seyrek geçen terimler daha yüksek, daha sık tekrarlanan terimler ise daha düşük ağırlıkla sunulur. Bir bilginin bu modelde aranması sırasında sorgu terimlerine ait vektör ile belge vektörleri arasındaki ilişkililik derecesine bakılır. Sorgu terimlerine karşılık olarak en yüksek ilişkililik derecesini veren belge aranan belgedir. Kimi arama motorlarında da kullanılan bu yöntem sorgu sonucu dönen belgeleri skora dayalı olarak sıralamaya imkan vermektedir. İkili model ve vektör uzayı modelinden ayrı olarak bir de olasılıksal model vardır. Olasılıksal modelde terim ağırlıkları terimlerin belgede yer alma olasılıklarından elde edilir. Bu model öncel olasılık bilgilerine dayalı olarak bilgi erişimi destekler. Bu modelde de belgeler ilişkililik derecesine göre, azalan sırada dizilir.

Bütüncül bir belge erişim sistemi için hem klasik bilgi erişim hem de modern bilgi erişim desteklenmelidir.

Belge erişim için; filtreleme, kümeleme, sınıflandırma ve kategori tabanlı erişim de mümkün olmasına rağmen bu çalışmada yoğun olarak sorgu cümlesi yardımıyla belge erişim konusu üzerinde durulacaktır. Sorgu oluşturma sırasında kavramsal dizin ve sözlüklerden faydalanarak sorgu cümleleri hazırlanır. Sorgu cümlesi oluşturma konusunda bilgi erişim arabirimi kullanıcılara yardımcı olur. Sorgulamanın nasıl yapılacağı ayrıntılı olarak anlatılsa bile kullanıcılar genellikle özensiz şekilde girişler yaparak sonuç bulmaya çalışır. Bu durumda sorgu ve dolayısıyla erişim kalitesini düşüren hatalar giderilmelidir.

Hiç yorum yok:

Yorum Gönder

SEMANTİK WEB İÇİN VERİ MODELLEME

Doküman web’i ile veri web’i arasındaki en önemli fark doküman web’inin bir yapısı bulunmazken veri web’inin bir yapıya sahip olması...