9 Kasım 2017 Perşembe

VERİ BİLİMCİSİ - DATA SCIENTIST

Kimileri modaya uyar ve kendini bir yerde konumlandırma gereği duyar, kimileri de yıllar sonra modanın kendilerine uyduğunu görür ve mutlu olur. Niyet modaya uymak değil modaya uymuş denmesi riskine rağmen yapmış olduğu işi yapmaya devam etmektir. Neden mi bahsediyorum, daha adı bile konmadığı dönemlerde yaptığımız işten yani veri biliminden. Konuya pek de hakim olmayan birileri, eh biraz da kıskançlıktan nasibini almış olanlar, "nasıl yani adı bile konmadan çalışmakta nasıl oluyormuş" diyebilirler, varsın desinler önemli değil. Bazı kavramlar çocuklar gibidir doğumundan önce de vardırlar fakat varlıklarını ancak anneleri ve babaları hisseder.

Efendim uzatmadan girelim hikayeye. Veri bilimci nasıl olur, nasıl olunur? Konuyla ilgili arama motorlarını kurcaladığınızda ilk çıkan yazılardan birisi BtHaber'de yayınlanmış "Geleceğin Bilgi Kaşifleri Veri Analisti ve Veri Bilimcisi" başlıklı yazı. Yazının bir kısmında diyor ki, veri analisti veya veri bilimcisi olabilmek için bilgisayar mühendisliği veya matematik alanlarından eğitim almış olmak. Hah o da tuttu :) Lisans, Yüksek Lisans, Doktora ve de Post Doktora maşallah hepsi Bilgisayar Mühendisliği. Matematik de zaten bizim işimiz. Lise yıllarınndan tanıyanlar bilir hakimiyeti. Neyse biraz daha ciddiyet lütfen... 

Veri bilimcisi olunur mu doğulur mu felsefesine de girmeyelim. Olunuyorsa ona uygun bir hikaye de var, doğuluyorsa ona uygun bir hikayede. Daha üniversiteye başladığımız yıllarda veriyi sevmiş ve içinde veri olan her işi en iyi şekilde yapmaya çalışmıştık. Ha bir de analiz işleri. En sevdiğim iki ders Matematiksel İstatistik ve Veritabanı Sistemleri idi. Adam olacak çocuk, daha 95 yılında görmüş ileriyi, hani şu Windows 95'in çıktığı yıllar. Olay ta oralardan başlıyor. 

Hasbelkader öğretim elemanı olduktan sonra da bu sefer içinde veri geçen dersleri okutmaya başladık. Gebze Yüksek Teknoloji Enstitüsü, Okan Üniversitesi, Kocaeli Üniversitesi ve Cumhuriyet Üniversitesi hatta bir ara Deniz Harp Okulunda da o konularda ders vermiş olabilirim. 

Sene 1999 doktoraya başladığım yıl. Orjinal bir konu lazım. Ararken karşıma Data Mining konusu çıkmasın mı. İyiki de çıkmış. Kavramlar, teorik alt yapı ve yeterince kaynak olmaması. Ömrümü yedi demeyeceğim çünkü kıyamam veri madenciliğine. Şans mı desem yoksa bir işi çok isteyen kişiye Allah'ın yardımı desem bilemiyorum ama o yıllarda Statistica Data Miner isimli ürünün ülkemizde ilk tanıtımını/eğitimini yapmak bile bendenize nasip olmuştu. Hatta yıllar önce Statistica Data Miner ürün tanıtımı yaptığım bir makalem de vardır tozlu raflarda. 

Data Mining sonrasında Text Mining. Daha doğrusu text veritabanları üzerinde veri madenciliği. Bana daha zevkli geldi. Sanırım daha karmaşık ve daha zor olduğu için. Çünkü sadece veri madenciliği algoritmaları değil bir de doğal dil işlemenin karanlık dehlizleri vardı artık. 

Yıllarca veri analizinin başrolde olduğu derslerimizde şunun mücadelesini verdik. Dedik ki "Ekran Okur Yazarlığı" olur da "Veri Okur Yazarlığı" olmaz mı? Benden daha önce kullanan oldu mu bilemiyorum ama Veri Okur Yazarlığı bizim derslerimizin en önemli çıktısı olmaya devam ediyor. Zaten veri analizinin de veri madenciliğinin de veri biliminin de amacı veriye bakar bakmaz onda değerli bir maden var mı yok mu onu görmek değil mi? Sadece görmek değil varsa da uygun şekilde onu çıkarmak ve görselleştirmek. 

Gecenin bir vakti zihinden veri analizi yaparken OLAP küpleri dans ederek geçiyorsa önünüzden, veriyi görür görmez nasıl daha iyi segmentlere ayrılabileceğini görüyorsanız, veri analizi  sonucunu insanlığın hangi hizmetine sunacağınızı kestirebiliyorsanız eller size veri bilimcisi dese ne olur demese ne olur siz çoktan o ünvanı hak etmişsinizdir bile. 

Sevgili dostlar. Her zaman mühendislik ve bilim birbirine karıştırılır. Bilim bir miktar soyut mühendislik ise daha somuttur. Bilim yolun projesini çizer, mühendislik ise yolu yapar. Veri bilimi konusunda da veri bilimciler yol projeleri yapacak veri mühendisi ve teknik elemanlar bu yoldan yürüyeceklerdir. Vakit buldukça veri bilimi konusuyla ilgili tecrübelerimizi bu blog üzerinden sizlerle paylaşıyor olacağım. Bu yazıda sıkmadan veri bilimcisi nasıl olur veya nerelerden geçerek olunur gibi bir giriş yazısı kaleme almak istedim. 

Saygılarımla,     

6 Aralık 2016 Salı

TANAGRA İLE VERİ MADENCİLİĞİ


Big Data kavramı birçok algımızı değiştirdi ve değiştirmeye devam ediyor. Olumlu anlamda değiştirdiği ve geliştirdiği kavramlardan birisi de Veri Madenciliği. Özellikle Big Data analitiği ile Veri Madenciliği analitiği arasındaki benzerlikler her iki alanı birden güçlendirmiş ve önemli hale getirmiştir. O nedenle eğer Big Data konusunu anlamak istiyorsak Veri Madenciliğini daha iyi anlamaya ihtiyacımız vardır.

Veri Madenciliği kavram olarak büyük hacimli veri içerisinde gizli kalmış fakat değerli olabilecek bilgi ve kuralların otomatik veya yarı otomatik yöntemlerle çıkarılması anlamında kullanılmaktadır. Belki Big Data ile bu anlamda en önemli fark Büyük Veri ile değil de Büyük Hacimli Veri ile çalışma farkı. Büyük veri ile Büyük hacimli veri arasında; donanımsal, yazılımsal ve içerik olarak farklar olmakla birlikte veriyi analiz anlamında derin ortaklıklar bulunuyor. 

Peki veri madenciliğini soyut bir kavram olmaktan çıkarıp onu somut hale getirmek için ne yapacağız? Bu sorunun cevabı veri madenciliği araçlarını kullanmak.

Veri madenciliği araçları STATISTICA DATA MINER'dan, SPSS Clementine ve SAS Miner uygulamasına hatta Weka, Orange, Rapid Miner ve diğer uygulamalara kadar geniş bir spektruma sahiptir. Bu araçlardan kimi çok yüksek ücretlere satıldığı gibi kimisi de hiçbir ücret istemez. Kimisi karmaşık bir yapıya sahip iken kimisi çok basit bir arabirime sahiptir. Kimisi öğrenmek için uzmanlık isterken kimisini öğrenmek oldukça kolaydır. İşte bu kriterler göz önüne alındığında; ücretsiz, kolay bir arabirime sahip ve oldukça düşük boyutlu bir dosya olarak yüklenebilen bir seçenek olarak karşımıza TANAGRA isimli yazılım çıkıyor. 

Kısa sürede veri madenciliği projeleri yapabilmek için yapılacak ilk işlem;

http://eric.univ-lyon2.fr/~ricco/tanagra/en/tanagra.html adresinden uygulamayı indirmek olacak. 

Ardından; Veri Seçimi, Ön işlem, Veri Madenciliği Algoritması Kullanımı ve Sonuçlar şeklinde işlemler yapılacaktır. Sonraki yazılarda detaylı analizler paylaşılacaktır. 

Hidayet TAKCI

10 Mart 2016 Perşembe

YAPAY ZEKÂ



İnsanın en değerli özelliklerinden birisi sahip olduğu zekâsıdır. Bu sayede doğru ile yanlışı ayırt edebilir, olaylar arasında ilişkiler kurabilir, muhakeme yapabilir hatta mevcut bilgileri yardımıyla gelecek hakkında ve yaşanan gün hakkında yorumlar yapabilir, tahminlerde bulunabilir, olayları açıklamaya çalışır. Zekâ, bilgi depolama yeteneği ile değil depolanan bilgiler üzerine yorum çıkarma yeteneği ile ilgilidir. Güncel teknolojilerin de desteği ile insana has olan bu önemli yeteneğin bilgisayarlara kazandırılması fikri ortaya çıkmış ve bu fikir yapay zekâ şeklinde isimlendirilmiştir. 

Yapay zekâ, görme, örüntü tanıma, çıkarımlarda bulunma gibi bilgisayarlar için zor fakat insanlar için sıradan olan yetenekleri bilgisayarlara kazandırmaya çalışır. Popüler ve somut olması nedeniyle bizler yapay zekâyı en çok robotlarda görürüz. Arkasından iteklenen bir robotun düştükten sonra kendi çabasıyla yeniden ayağa kalkması yapay zekâda gelinen noktayı çok iyi göstermektedir. İlk olarak Alan Turing tarafından geliştirilen Turing makinesi ile testleri yapılan yapay zekâ bugün iyi bir noktada sayılabilir. Sayılabilir dememin nedeni mevcut robotlarda veya yapay zekâ sistemlerinde elde edilen zekânın ancak bir çocuğun zekâsı kadar işleri yapabilmesi nedeniyledir.


Konu neden önemlidir diye soracak olursak cevabı net ve belirgindir. Bazı sektörlerde insanların görev alması tehlikelidir ve maliyetlidir. Örneğin mayın temizleme görevinde askerin görev alması askerin şehit olması ile sonuçlanabilir. Hemen her yıl yaşadığımız maden çıkarma faaliyetlerinde insanların göçük altında can vermesi hepimizi derinden üzmektedir. Araçların test edilmesinde insan kullanımı tehlikelidir. Demir çelik sektöründe insanların çalıştırılması iş güvenliği anlamında problemlere gebedir. Dolayısıyla yapay zekâ sayesinde insan gibi davranan robotlar geliştirebilirsek en azından bazı alanlarda insanı başına gelebilecek felaketlerden koruyabiliriz. Sadece bu kadar mı değil tabi…

Her geçen gün daha da yaşlanan insanlığın bakım hizmetine olan ihtiyacı artmaktadır. Kişiler gençliklerinde çok iyi bilgisayar kullanabilseler dahi yaşlılıkta bu mümkün olamamaktadır. Bununla birlikte kişilerin ses yardımıyla yönetebildiği, kullanabildiği elektronik cihazlar yaşam kalitesini artırabilecektir. Bunun yolu da insanı anlayan bilgisayarlar geliştirebilmektedir. Dolayısıyla yapay zekânın bir kullanım alanı insan gibi davranan sistemler geliştirmek iken diğer kullanım alanı insanı anlayan sistemler geliştirebilmektir. Tam bu noktada karşımıza doğal dil işleme konusu çıkmaktadır. Doğal dil işleme çalışmalarındaki nihai hedef sesli komutlarla bilgisayarları/robotları emrimize amade edebilmektir. Her ne kadar duygudan yoksun bilgisayar sistemleri hayırlı evladın yerini tutmasa bile azalan hayırlı evlat oranı bu çözümleri gerekli kılmaktadır.

Yapay zeka teknolojisinin gelişmesi ben dahil olmak üzere birçok kişiyi haklı olarak ürküten bir durum. Bunun en önemli nedeni insan gibi düşünebilen sistemler meydana getirdiğinizde kontrolü eksik bırakılmış sistemler kontrolü ele geçirebilirler. Kimi zaman bilim kurgu filmlere konu olan durum bence çok da gerçeklikten uzak değildir. Bununla birlikte eğer bu konuda insanların geri dönülmez şekilde çabaları varsa biz de millet olarak bundan geri kalamayız. Eğer birileri kendi robot askerlerini üretecekse biz onlardan daha önce bu konuya yatırım yapmalıyız. Birileri savaşmak için robot yapıyorsa biz barışı tesis için bu işe girmeliyiz. Bu da ancak diğer teknolojilerde olduğu gibi millileşmek ile olabilir.

Hadi biraz da hayal kuralım. İnsan davranışına benzer robot dediğimize göre insan davranışlarını ele alarak gidelim. İnsan davranışına etki eden önemli konulardan birisi din ve ahlaktır. İnsan özellikleri gösterecek robotlara eğer biz onları kötülük yapmaktan sakındıracak özellikler veremezsek bir gün de döner ve bize zarar vermeye başlar. Eğer geliştireceğimiz robotlara kendini savunma yetenekleri vermezsek hayali bir robotlar savaşında robotlarımız savaşa başlamadan yenilecektir. Dolayısıyla şu an hayal olmakla birlikte eğer gelecekte robot teknolojisi daha ileri noktalara varacaksa bu olasılıklar baştan planlanmalıdır.

Konuyu sadece robotlara bağlamak diğer alanlara haksızlık olacaktır. Bu nedenle biraz da diğer yapay zekâ alanlarına bakalım. Örneğin veri madenciliği. Adı bile güzel ve manidardır. Daha az değerli olan sıradan veri içerisinden bir madenci sabrı ile çok daha değerli fakat az olanı bulmaya odaklanır. Herkes onu meşhur Pazar sepeti analizi ile hatırlar. Pazar sepeti analizi bilmeyenlere kısaca özetlemek gerekirse; önce geçmişte yapılan alışveriş sepetleri kayıt altına alınarak daha sonra ürünlerden birini alan müşteriye diğeri de tavsiye edilir. Geri plandaki motivasyon şudur: eğer insanlar her zaman A ile B ürünlerini birlikte alıyorsa A ürününü alana B ürünü reklamı yapılmalıdır. Sanal ortamda yapılan reklamların ve önerilerin birçoğu bu mantıkla yapılır. Çok fazla bilinmemekle birlikte aslında DNA testi olarak da bildiğimiz babalık testi yine bir veri madenciliği görevidir. Kanser erken teşhisi, kredi verme kararı, gelecekle ilgili tahminler kestirimler yapma hep bu alanla ilgilidir. Son dönemde oldukça başarılı olan hava tahminleri yine bu alanın iyi bir örneğidir. Çağın projesi olan GENOM projesi de bir yönüyle veri madenciliği projesidir.

Her bir yanımızı çepçevre sarmalamış olan yapay zekâya bir bakış yapmak istediğimiz bu yazıyı bitirirken herkese önemle tavsiye edeceğim bir şey var. Yapay zekâ alanında çalışmalar yapmak zorunda değilsiniz ama konu hakkında mutlaka araştırmalar yapınız derim.

Saygılarımla
Yrd. Doç. Dr. Hidayet Takcı
C.Ü. Bilgisayar Müh. Böl. Öğretim Üyesi
Sivas, 2016    

     

  

19 Nisan 2015 Pazar

BIG DATA İnsanlığa Hizmet Edebilecek mi?

Her dönemin moda tabirleri olur, bir zamanlar "veri ambarı", "veri madenciliği" böyleydi mesela. Modaya uyan olduğu kadar uyduğunu zannedenler de olurdu. Örneğin kimileri istatistik bile yapamazken veri madenciliği yaptığını iddia ederdi, modadan geri kalmamak için. İşte son dönem yaşadığımız big data çılgınlğı da öyle bir şey. Yanlış anlaşılması çılgınlık big data konusunda değil tabiri hatalı kulanım konusunda.
Big data nedir öyleyse. Kimilerinin büyük veri, hatta kimilerinin dev veri olarak adlandırdığı big data kayıt altına alınan her tür verinin bir araya gelmesiyle oluşmuş, bu nedenle de bilinen tekniklerle analiz edilemeyen, entegrasyon ve paylaşım anlamında çok sıkıntılar barındıran veriler, teknikler, yaklaşımlar topluluğudur.
Sosyal medyanın artan önemiyle benzer tarihlerde bu kavram ortaya çıktığı için bir çok insan doğrudan big data konusuyla sosyal medya verilerini örtüştürür. Hatta kimi zihinlerde basitçe big data sosyal medya datasıdır bile. Halbuki; big data konusu bugüne kadar data ile ilgili olarak çalıştığımız dosyalama kavramlarından ilişkisel veritabanlarında kullandığımız kavramlara kadar birçok şey hakkında en azından bilgi sahibi olmayı gerektirir. Big data kavramı diğerlerinden ayrık şekilde ortaya çıkmış değil onların baş edemediği veriyi baş edebilmek için veri analitiğine farklı bir bakış açısı getirmiştir.
Bu yazının asıl konusu transaction işleme ile batch işleme arasındaki farklar veya sosyal medya verilerinin müşteri ilişkileri yönetiminde nasıl kullanılacağı üzerine değil. Bu yazının asıl konusu big data'nın ne amaçla kullanılacağıdır. Malum varlıklarla ilgili her tür bilgiyi ustaca kayıt altına alan, sonra bunlar arasında ilişkiler kuran analitiğin bir amacı olmalı. İşte o amaç ne olacak bu yazının konusu odur.
Müşteri İlişkileri Yönetimi (CRM) çalışan kişiler yıllarca şunu söylediler. Biz eğer müşterilerimizi tanırsak üretimi onlara uygun şekilde yapar ve satışlarımızı artırırız. Müşteriye onu özel hissettirecek şeyler yaparsak satışlarımızı artırırız. En çok alışveriş yapmayı çocuklar ve bayanlar sevdiği için onları yakalarsak satışları artırırız gibi konular çalıştılar. Onlar çalıştıkça tüketim çılgınlığı dediğimiz şey arttı ve sonuçta kredi kartı borcunu ödeyemeyen yüz binler ortaya çıktı. Ve gördük ki müşteriyi tanımaya vaat eden bu çalışmalar aslında müşterilerin zaaflarını tanıyarak belki de onlara ihtiyaç olmayan şeyi ihtiyaç gibi hissettirdiler. Bir taraftan sıkı CRM çalışmaları diğer taraftan satın alma duygusunu bilinçaltına gönderen subliminal mesajlar içeren reklamlar bugün bazı aileleri perişan etmiş durumda. Big data ve beraberinde yapılacak çalışmalar bu durumu daha ileri noktaya taşıyacaktır. Masumane bir twit sonunda belki de parası olmayan genç bir ürün için kuyruğa girecektir. İşte big data ve uygun tekniklerin pek de insanlık hayrına olamayacağı bir örnek.
Hayırlı olabileceği yerler de var tabi ki. Örneğin medikal alandaki çalışmalar. Hala sırrı çözülemeyen kanserin sebepleri belki de bu teknikler sayesinde çözülebilecek. Hastalığın aşamaları, hasta tecrübelerinin de paylaşımı ile daha anlaşılabilir hale gelebilecektir. Ayrıca, ilaç üretimi gibi, hastaların networkü gibi hayırlı işlere de hizmet edebilecektir. 
Eğer teknik ve teknoloji insanlığa hizmet için varsa yeni gelişen teknolojileri de seçici şekilde kullanmamız esastır. Konuyla ilgili çalışanların ve çalışacakların daha hayırlı olana hizmet edecek şekilde yönlenmeleri herkesin hayrına olacaktır. Eğer Big Data'nın insanlığa hizmet etmesini bekliyorsak çalışmalarımızı da o yönde yapmalıyız. Nihayetinde o teknolojiye hangi ellerde şekil verildiği önemlidir.
Nisan 2015, Sivas 

3 Nisan 2015 Cuma

Metin Madenciliği (Text Mining) Nedir?

Kayıt sistemlerinin gelişimiyle birlikte kullanılabilir bilgilerin bir kısmı yapısal diğer bir kısmı ise yapısal olmayan formatta kayıt altına alınmıştır. Yapısal olanlar veritabanlarında yapısal olmayanlar ise metinler halinde dosyalarda tutulmuştur. 

Bugüne kadar yapılan çalışmalarda, biraz da pratikliğinden dolayı araştırmacılar yoğun olarak yapısal verilerin kullanımı ve analizi üzerine odaklanmıştır. Önce veritabanı teknolojileri ardından veri madenciliği teknik ve algoritmaları hep yapısal veri üzerinde durmuştur. Bununla birlikte kullanılabilir veriler içerisinde yapısal olmayan verilerin oranı yapısal olan verilerin oranından bir hayli fazladır. Peki neden araştırmacılar bugüne kadar daha az verinin yer aldığı yapısal veriler üzerinde durmuştur? Bunun en basit cevabı SQL gibi gelişmiş teknolojilerin yapısal veriyle uyumlu olmasıdır. Peki yapısal olmayan veriden bilgi çıkarımı nasıl yapılacak? İşte tam bu noktada karşımıza metin madenciliği çıkar. 

Metin madenciliği basitçe doğal dil işleme ve veri madenciliğinin bir kesişimi olarak kabul edilir. Bir yapıya sahip olmayan veri çeşitli doğal dil işleme yöntemleriyle önce yapısal hale getirilir, ardından yapısal hale gelmiş veri üzerinde veri madenciliği yapılır. Yapısal olmayan verinin yapısal hale dönüşümü kimi zaman Metinlerin Sayısallaştırılması olarak da isimlendirilir. Dolayısıyla bir metin üzerinde madencilik yapabilmenin ilk adımı doğal dil işleme yapmaktır. 

Doğal Dil İşleme yapay zekanın önemli çalışma alanlarından birisidir. İnsan bilgisayar etkileşimini gerçekleme noktasında anahtar role sahiptir. Tek başına da bir çalışma alanı olan doğal dil işleme metin madenciliği çalışmasının da önemli bir parçasını oluşturur. Bir metin madenciliği çalışmasında doğal dil işleme alanından; metin temizleme, tokenizasyon, eklerin metinden ayrılması, köke ulaşım, kök türünün bulunması, eş anlamlı sözcükler, muğlaklık giderme, POS etiketleme ve buna benzer teknikler kullanılır. 

Belki de doğal dil işlemenin dahil edilmesinden dolayı metin madenciliği çalışmaları zorludur. Kimi zaman doğal dil işleme işlemlerini azaltmak amaçlanır ve öylesi zamanlarda doğal dil işleme teknikleri yerine farklı özellik setleri kullanılır. Bunlardan birisi harfler, diğeri ise n-gram adını verdiğimiz harf veya kelime dizileridir. Özellikle harf seviyeli n-gramlarla çalışma esnasında doğal dil işlemede kullanılan adımlara olan ihtiyaç azalmaktadır. 

Metin madenciliğinin özellikle iki alana katkıları olmuştur; bunlar bilgi alma ve bilgi çıkarımıdır. Klasik olarak katalog tarama veya arama motorlarında tarama yapmak şeklinde meydana gelen bilgi arama metin madenciliği sayesinde çok daha etkili bir hal almıştır. Klasik yöntemde mutlaka sorgu terimi ile sonuç dokümanının eşleşmesi beklenirken metin madenciliği yardımıyla bilgi almada sorgu terimi içinde geçmeyen dokümanların bile bulunması imkanı vardır. Aynı şekilde bilgi çıkarımı anlamında da yapısal dokümanlardan etiketler yardımıyla veriler almak yerine hiç bir yapıya sahip olmayan metinlerin özetlenmesi, çeviri sistemleri, soru cevaplama gibi işlevleri yerine getirmek mümkündür.    

Metin madenciliği öncesinde bir dokümandan bilgi almak için aradığımız şeyin ne olduğunu bilme ihtiyacı varken metin madenciliği sayesinde arama yaptığımız alanda bilgi sahibi olmamıza gerek yoktur. Artık bizim için özetlenmiş metinler, bizim yerimize spam olarak seçilmiş mektuplar, bize tavsiye edilen önemli bildirimler v.s. artık mümkün olacaktır. Metin madenciliği yardımıyla artık işveren ile iş arayan daha makul şekilde eşleşecektir. Artık dokümanlar arasında daha kolay ilişki kurulabilecektir. Artık sosyal medya verilerinden stratejik kararlar verilebilecektir. Artık medya takibi daha rahat yapılabilecektir v.s. 

O zaman ne duruyoruz, haydi metin madenciliği yapmaya...

Bilgi Erişim Sistemleri

Klasik bilgi erişim sistemleri; kullanıcıların ihtiyaç duyduğu belgeleri hızlı şekilde bulmayı sağlayan sistemlerdir, halbuki modern bilgi erişim sistemleri bunun bir adım ötesine geçerek bilgiler arası ilişkileri ortaya koymaya çalışır. Modern bilgi erişimi anlayabilmek için klasik bilgi erişimin anlaşılması elzemdir bu nedenle önce klasik bir bilgi erişim sistemi bütün elemanları ile ele alınıp ardından modern bilgi erişimde önemli bir yeri olan anlam çıkarma konusu ele alınacaktır. 

Bilgi erişim kabaca, bilgi merkezlerinde saklı bulunan bilgi ve belgelere kullanıcıların yetkileri doğrultusunda ulaşmasını ifade eder. Manning ve diğerleri (2008) bilgi erişimi şöyle tanımlamışlardır “büyük koleksiyonlar içinden (genellikle bilgisayarlarda saklanan) ihtiyaç duyulan materyallerin (genellikle metin) bulunmasıdır”. Bilgi erişim fonksiyonlarını yerine getirmek üzere bilgi erişim sistemleri oluşturulmuştur. Bir bilgi erişim sistemi; bilgi ve ona ihtiyaç duyan kullanıcı arasındaki bilgi akış sürecinin kesintisiz biçimde oluşumunu mümkün kılan, aralarında etkileşim ve uyum bulunan parçalardan oluşmuş sistemdir (Gürdal, 2003).  

Bir bilgi erişim sisteminin temel kaynağı farklı kaynaklardan toplanan belgelerdir. Bu belgeler içerik olarak; metin, resim, ses, video ve URL türlerinde, yapı olarak da basılı veya elektronik olabilir. Basılı belgeler tarayıcı yardımıyla elektronik belge formatına dönüştürüldükten sonra diğer elektronik belgelerle birlikte işleme alınırlar. Belgelerin sayısallaştırılması etkili belge yönetimi için bir ihtiyaçtır.

Belgeler kayda alınırken iki farklı yöntem kullanılır. Bunlardan birincisi klasik bilgi erişim sistemlerinde olduğu gibi belgenin sadece başlık (bibliyografik) bilgilerinin kaydedilmesi diğeri ise başlık bilgilerine ek olarak içerik özetlerinin de tutulmasıdır. Başlık bilgilerinin neler olduğu konusunda başta MARC formatı olmak üzere çeşitli formatlar bulunmaktadır. Onlara ek olarak elektronik belgeler için ek başlık bilgileri kullanılır. Örneğin dosya yönetim sistemi tarafından tutulan; belge türü, belgenin sahibi, belgenin değiştirilme tarihi, belgenin kaydedileceği dizin adresi ve buna benzer bilgilerdir. 

İkinci yöntem ise elektronik belgelerin içerik özetlerinin kayda alınmasıdır. Bu yöntemde içerik verisi indeks terimler üzerinden özetlenir ve genellikle indeks kayıtları ile sunulurlar. İndeks terimlerinden oluşan bir vektör belgeyi sunmada sıklıkla kullanılan bir yöntemdir.

İndeksleme, belgelere erişimi hızlandırıcı bir tekniktir dolayısıyla, belgeleri indekslemek performansı yüksek bilgi erişim için elzemdir. Belgelerin indekslenmesinde kavramsal dizin (thesauri) ve söz dağarcığından seçilmiş indeks terimler kullanılır. İndeksleme sonrasında her belge için daha sonradan erişim amacıyla bir dizin kaydı oluşturulur. Dizin kaydı oluşturulurken; imza dosyaları (signature files) ve ters indeks dosyaları (inverted index files) bilinen iki örnektir. Özellikle ters indeks dosyaları birçok ticari üründe bilgi erişim maksadıyla kullanılan klasik bir yöntemdir. Ters indeks dosyaları, her bir indeks teriminin hangi sayfada yer aldığına dair bilgileri tutar. 

Bilgiye erişimde önemli bir konu da erişim kuralıdır. Erişim kuralı bilgi erişimin ne şekilde yerine getirileceği ile ilgilidir. Klasik bilgi erişimde belgelerin başlık bilgilerinden faydalanılır. Bu model sıklıkla ikili erişim modelini kullanır ve bilgiye erişimde sıklıkla indeks terimlerinin AND, OR, NOT bağlaçları yardımıyla birleştirilmesi ile sonuç elde edilir. Buna karşılık modern bilgi erişimde belgelerin içerik verisi üzerinden erişim desteklenir. Bu nedenle sayısal kütüphaneler gibi elektronik belgelerin bulunduğu ortamlar için modern bilgi erişim sistemleri daha uygundur. 

Modern bilgi erişimde sık kullanılan yöntemlerden biri her bir belgenin bir vektör olarak sunulduğu vektör uzayı modelidir. Terim ağırlıklandırmanın desteklendiği bu modelde sorgu terimleri ile belgeler arasındaki benzerlikler geometrik yöntemlerle elde edilir. Bu modelde her belge ağırlıklandırılmış indeks terimleri vektörüyle sunulur. 

Terim ağırlıklandırmada en sık kullanılan yöntemlerden birisi terim frekansı TF (Term Frequency) diğeri ise IDF (Inverse Document Frequency) yöntemidir. TF yöntemine göre her bir indeks terimi terimlerin belgedeki tekrar sayısından elde edilir. IDF yönteminde ise, derlemde daha seyrek geçen terimler daha yüksek, daha sık tekrarlanan terimler ise daha düşük ağırlıkla sunulur. Bir bilginin bu modelde aranması sırasında sorgu terimlerine ait vektör ile belge vektörleri arasındaki ilişkililik derecesine bakılır. Sorgu terimlerine karşılık olarak en yüksek ilişkililik derecesini veren belge aranan belgedir. Kimi arama motorlarında da kullanılan bu yöntem sorgu sonucu dönen belgeleri skora dayalı olarak sıralamaya imkan vermektedir. İkili model ve vektör uzayı modelinden ayrı olarak bir de olasılıksal model vardır. Olasılıksal modelde terim ağırlıkları terimlerin belgede yer alma olasılıklarından elde edilir. Bu model öncel olasılık bilgilerine dayalı olarak bilgi erişimi destekler. Bu modelde de belgeler ilişkililik derecesine göre, azalan sırada dizilir.

Bütüncül bir belge erişim sistemi için hem klasik bilgi erişim hem de modern bilgi erişim desteklenmelidir.

Belge erişim için; filtreleme, kümeleme, sınıflandırma ve kategori tabanlı erişim de mümkün olmasına rağmen bu çalışmada yoğun olarak sorgu cümlesi yardımıyla belge erişim konusu üzerinde durulacaktır. Sorgu oluşturma sırasında kavramsal dizin ve sözlüklerden faydalanarak sorgu cümleleri hazırlanır. Sorgu cümlesi oluşturma konusunda bilgi erişim arabirimi kullanıcılara yardımcı olur. Sorgulamanın nasıl yapılacağı ayrıntılı olarak anlatılsa bile kullanıcılar genellikle özensiz şekilde girişler yaparak sonuç bulmaya çalışır. Bu durumda sorgu ve dolayısıyla erişim kalitesini düşüren hatalar giderilmelidir.

25 Haziran 2014 Çarşamba

Veri madenciliği ile saldırı tespiti

Veri madenciliği ile saldırı tespiti

Hidayet TAKCI, Cumhuriyet Üniversitesi Bilgisayar Mühendisliği Bölümü
htakci@cumhuriyet.edu.tr  

İçindekiler


Özet
  1. Güvenlik ve güvenlik politikası nedir?
  2. Saldırı nedir?
  3. Saldırı tipleri nelerdir?
  4. Saldırı engelleme araçları nelerdir? Nasıl yapılır ve saldırı tespiti nedir?
  5. Saldırı tespit sistemi
    1. Tarihi ve bugünü
    2. Saldırı tespiti kategorileri ve veri madenciliği
    3. Saldırı tespit sisteminin faydaları
    4. Saldırı tespit sisteminin problemleri
  6. Veri madenciliği
  7. Veri madenciliği ile saldırı tespiti
  8. Yapılan örnek çalışma
    1. Amaç
    2. Araç
    3. Yöntem
    4. Uygulama
                                          i.    Sınıflandırma
                                         ii.    Uyum kuralları
                                        iii.    Bir problem ve çözümü
  1. Sonuç
Kaynaklar

Özet


Son yıllarda ağ teknolojilerinde yaşanan baş döndürücü gelişmeler hemen her işin bilgisayar ağları üzerinden yapılmasını mümkün hale getirmiştir. Bilgisayar sistemleri ve bilgisayar ağlarının gelişmesi ile aya insan göndermek, uluslar arası ticaret yapmak, pilotsuz uçakları savaştırmak gibi işler yapılabilir hale gelmiştir fakat insanlar bunlara rağmen bilgisayar sistemleri ve bilgisayar ağlarına tam olarak güvenememektedirler.

Güvensizliğin temelinde ise bilgi işlemin saldırılar karşısında tam başarılı olamaması vardır. Güvenlik, sağlam bir mühendislik ve sosyal altyapı gerektirmektedir.

Güvenlik uzmanları bir sistemin kaynaklarını yetkisiz erişimlerden korumak ve sistemin kesintisiz çalışmasını sağlamak için uğraşırlar. Bu işi yapabilmek için sisteme yapılan saldırıların tanınması önemli bir yer tutar. Böylece saldırı davranışları bulunabilir, saldırı yapılan yöntemler bulunabilir ve buna benzer faydalar sağlar. Bir sisteme yapılan saldırıların tanınması işine saldırı tespiti adı verilir.

Saldırı tespiti için çeşitli teknikler kullanılmaktadır. Bu tekniklerin birbirine göre avantaj ve dezavantajları bulunup son zamanlarda saldırı tespiti için veri madenciliği tekniği de etkin olarak kullanılmaya başlanmıştır. Veri madenciliği tekniğinin kullanılmasının en önemli sebebi kullanıcıların erişim yaptıkları sisteme denetleme verisi bırakmalarıdır.

Bu çalışmada veri madenciliği tekniğini web sunucu üzerindeki günlük verilerine uygulayarak saldırı tespiti yapılmaya çalışılmıştır.

1. Güvenlik ve güvenlik politikası nedir?

En genel anlamıyla güvenlik; eldeki kaynakların istenmeyen etkilerden korunmasıdır. Zararlara maruz kalan bilişim sistemleri öngörülen hizmetleri sunamaz veya sistemin bazı unsurları hizmet veremez. Bilişim sistemlerinin güvenliği gizlilik, bütünlük ve süreklilik ile sağlanır.

Bilişim sistemlerinin güvenliği, bilgisayar sistem güvenliği ve iletişim güvenliğinin sağlanması ile mümkün olabilmektedir.

Güvenlik politikası ise; duyarlı verinin bir kurum içerisinde yönetimi, korunması ve dağıtımı ile ilgili düzenleme, ilke ve usullerin tümüdür.

Gizlilik: duyarlı nesnelerin erişim yetkisi verilen özneler için yetki verilen süre içerisinde kullanıma açık tutulmasıdır.

Bütünlük: duyarlı nesnelerin erişim yetkisi verilen özneler için yetkiye uygun olarak değiştirilebilmesidir.

Süreklilik: duyarlı nesnelerin erişim yetkisi bulunmayanlar için kullanımının engellenmesi, yetkisi bulunanlar için ise hazır sunulmasıdır [1].

2. Saldırı nedir?

Yukarıda belirtilen güvenlik hedeflerini tehlikeye atmaya çalışan girişimlere saldırı adı verilir. Bir girişimin saldırı olup olmadığına güvenlik politikası karar verir [2].

3. Saldırı tipleri nelerdir?
Bir kurumun bilgisayar sistemine girmek isteyenler en çok aşağıdaki yöntemleri kullanmaktadırlar.
  • Servisin reddedilmesi (denial of service)
  • Tarama ve deneme (scaning and probing)
  • Şifre atakları
  • Hak ele geçirme
  • Sisteme düşman kodu yerleştirme
  • Tahrip etme (vandalism)
  • Dolandırıcılık, kötüye kullanım
  • Günlük dosyalarını silme
  • Güvenlik mimarisini değiştirme

Saldırılar temel olarak dahili ve harici saldırılar şeklinde iki gruba ayrılabilir. Bu saldırıların büyük çoğunluğu ise dahili saldırılar şeklinde olmaktadır (%80).

Ayrıca bu saldırıları düzenleyenler; kurum çalışanları, hackerlar, virüs yazan kişiler, kriminal gruplar ve teröristler olabilir [3]. 

4. Saldırı engelleme ve saldırı tespiti

Bilişim suçları ile savaşabilmek ve sistemlerin güvenliğini artırabilmek için sistematik çalışmalar gerekmektedir. Kurumsal güvenliği artırıcı çalışmalar şunlardır:

  • Güvenlik politikaları ve prosedürler
  • Teknoloji
  • Eğitim ve bilgilendirmedir.

Güvenlik politikaları ve buna bağlı olarak oluşturulacak prosedürler işin temelini oluşturur. Şifreleme ve uygulamaları, güvenlik duvarları, gelişmiş tanımlama ve yetkilendirme mekanizmaları teknolojik çözümlerdir.

Genellikle saldırıların tipini biliriz fakat saldırının hangi adresten veya hangi porttan geldiğini bilmeden engel olmak mümkün değildir.

Saldırıları bize güvenlik duvarı, sunucu günlükleri ve saldırı tespit sistemleri haber vermektedir. Güvenlik duvarları ve sunucu günlüklerinde bulunan yetersizlikler bize saldırı tespitini mecburi hale getirmiştir.

Saldırı tespiti

Güvenlik politikalarının uygulanması kadar ihlallerin tespiti de önemli bir konudur. İhlallerin tespiti için gözlemleme işlevini yerine getiren teknolojilerden faydalanılır. “sistemleri yetkisiz kullanan ya da yetkilerini aşan işlemleri yapan kişi ya da programları tespit etme çalışması” saldırı tespiti olarak bilinir.

Saldırı tespitinin;
-          erken tespit
-          detaylı bilgi toplama
-          toplanan bilgilerin kayıt niteliği taşıması gibi faydaları bulunmaktadır [4].

5. Saldırı tespit sistemi

İnternet veya yerel ağdan gelebilecek, ağdaki sistemlere zarar verebilecek, çeşitli paket ve verilerden oluşan saldırıları fark etmek üzere tasarlanmış sistemlerdir. Temel amaçları saldırıyı tespit etmek ve bunu ilgili kişilere mail, sms vs. mesajlarla iletmektir [5].

a.     tarihi ve bugünü

IDS ilk olarak 1980’lerde bir araştırma sahası olarak tanımlanmıştır. Bu ilk periyotta sistemler ve ağlar kısmi olarak birbirinden bağımsız ve izole edilmiş durumdaydı, bu periyotta araştırmalar daha çok host tabanlı tespite odaklanmıştı. Eldeki veriler işletim sistemi ve ağ denetleme verisiydi, teknikler ise desen eşleme (pattern matching), profil oluşturma (profile creating) ve toplanmış verilerin otomatik analizi şeklindeydi.

1990’larda IDS yapısı ve ortamı biraz daha değişti. İlk başta ağ IDS leri host tabanlı sistemlerle birlikte üretildi. İkinci gelişme web üzerindeki gelişme idi. İnternet’teki gelişme beraberinde güvenlik ihtiyaçlarını artırdı. Bu dönemde güvenlik duvarları için resmi standartlar belirlendi. Ticari IDS güvenlik duvarı için otomatik gözlem yapmada ona yardımcı olmaya başladı.

Bir diğer gelişme ise 1990’lardaki birliktelik idi. Bu aşamada host tabanlı ve ağ tabanlı saldırı tespit sistemleri birleştirildi [6].    

Hemen hemen bütün şirketlerin varlıklarını devam ettirebilmek için İnternet’e bağımlı oldukları bu günün dünyasında ağ saldırı tespit sistemlerinin böylesine hızlı gelişmiş olması sürpriz bir gelişme değildir. Güvenlik duvarları, yamalar, saldırı tespiti ve eğitim gibi bazı argümanların şirket ağını korumada en iyi yol olduğu bir durumda saldırı tespit sistemlerinin güvenli ağ mimarisini sağlamada anahtar vazife taşıdığı bir gerçektir.

b.    Saldırı tespit sistemi kategorileri ve veri madenciliği

Saldırı tespiti ile ilgili yaklaşımlar iki kategoriye ayrılmaktadır.
  • Kötüye Kullanım Tespiti: Saldırıları tanımak için çok iyi bilinen desenlerden faydalanılır.
  • Anormallik Tespiti: Saldırıları tanımak için normal kullanım desenlerinden sapma yapanların bulunması şeklindedir.

Bu yaklaşımların ana problemleri ise şunlardır. Kötüye kullanım tespitinde bilinen saldırı desenleri elle kodlanmak zorunda ve ilk kez yapılan saldırıların tespit edilmesi mümkün olamamaktadır. Anormallik tespitinde ise olaylar arasındaki ilişkilerin yakalanması mümkün olamamaktadır.

Saldırı tespiti için bir başka yaklaşım veri madenciliği yaklaşımıdır. Veri madenciliği, büyük miktardaki veriden anlamlı bilginin açığa çıkarılmasıdır. Veri madenciliği tabanlı yaklaşımda öğrenim ve tespit ajanları bulunmaktadır. Bu yaklaşım akıllı ajan tabanlı bir yaklaşımdır. Öğrenim ajanları, tespit modelleri ile devamlı eğitilir. Tespit ajanları ise saldırıların tespit için güncellenmiş modeller kullanırlar.

Saldırı tespitinde veri madenciliği kullanımının sebepleri ise şunlardır:
-          Denetleme verisi üzerinde normal ve saldırı etkinlikleri kanıt bırakırlar.
-          Veri merkezli bakış açısından bakıldığında saldırı tespiti bir veri analiz işidir.
-          İstisna saptanması ve hata/ alarm yönetimi gibi başarılı uygulamalarla aynı etki alanı içindedir.   

İlgili veri madenciliği algoritmaları ise, sınıflama, link analizi ve sıralı analizdir [7].

Saldırı tespit sistemleri saldırının tespit edildiği noktaya göre iki grupta incelenebilir. Sunucu temelli saldırı tespit sistemleri, sunucu üzerinde çalışan ve bilgisayar üzerindeki aktiviteleri izleyen sistemlerdir. Ağ temelli saldırı tespit sistemleri ise ağ üzerindeki kritik noktalara yerleştirilmiş ve algılayıcılar ile ağ trafiğini izleyen sistemlerdir [8].

c.     Saldırı tespit sisteminin faydaları

-          Ağdaki saldırıları bulmada ve engellemede en büyük yardımcılardır.
-          Bazen sunuculara, bazen ağa bazen de her ikisine birden koruma sağlarlar.
-          Güvenlik duvarları ve yönlendiriciler gibi pasif güvenlik cihazları değildirler. Aktif olarak raporlama, engelleme ve öğrenme gibi işlevleri yerine getirirler.
-          Saldırı davranışlarından güvenlik zaafları bulunabilmektedir.
-          Hangi noktaların güçlendirilmesi gerektiği bulunabilir.

d.    Saldırı tespit sisteminin problemleri

Saldırı tespit sistemleri birçok avantaja sahip olmakla birlikte bazı problemleri de bulunmaktadır.
Ø  Kötüye kullanım tespiti tabanlı yaklaşımda saldırı desenleri elle kodlanmak zorundadır ve ilk kez yapılan saldırılar tanınamamaktadır.
Ø  Anormallik tespiti tabanlı yaklaşımda ise olaylar arasında ilişki kurmak mümkün olamamaktadır [7].
Ø  Saldırı tespit sistemleri önemli ölçüde yanlış alarm üretmektedirler [9].
Ø  Üzerinde veri madenciliği yapılacak saldırı verisi fazla olduğunda sistem etkin olarak çalışamamaktadır [10].
Ø  Veri madenciliği yaklaşımlı saldırı tespitinin false positive oranı daha yüksektir ve eğitim ile değerlendirme aşamalarında etkin olmama eğilimindedir. Ayrıca daha karmaşıktır.
Ø  Kural tabanlı saldırı tespit sistemleri uzman bilgilerine dayalı olarak kodlandıkları için değiştirilmeleri oldukça pahalı ve yavaştır [11].
Ø  Sunucu günlüklerine dayalı saldırı tespiti her zaman mümkün olamayacağından büyük bir problemdir. Bunun yerine görselleştirme benzeri teknikler kullanılabilir.
Ø  Sunucu günlükleri kimi zaman güvenli olamadığından sunucu günlüklerine dayalı saldırı tespiti de yanlış sonuçlar verebilmektedir [12].


6. Veri madenciliği

Büyük miktardaki veri içerisinden anlamlı bilginin çıkarıldığı tekniğe veri madenciliği adı verilir. Veri madenciliği tekniğinin web verisine uygulanmasına ise web madenciliği adı verilmektedir [14]. Web madenciliği temel olarak üç alt alana ayrılır.

-          web içerik madenciliği
-          web yapı madenciliği
-          web kullanım madenciliği

Veri madenciliğinin alt alanlarından birisi olan web kullanım madenciliği web sunucu günlük verileri üzerinde çalışır. Bu çalışma sonucunda kullanıcı erişim desenleri bulunur. Web kullanım madenciliği sayesinde bulunan kullanıcı davranışları saldırı tespitinde de etkin olarak kullanılabilmektedir.

7. Web kullanım madenciliği ile saldırı tespiti

Veri madenciliğinde yapılan işlerin bir kısmı anormal durumların tespiti ile ilgilidir. Veri madenciliği tekniklerinden birisi ise istisna saptanmasıdır. Kredi kartı  yolsuzluklarını tespit için kullanılan bu yöntem saldırı tespitine yakın bir konudur.

Veri madenciliği ile saldırı tespiti yapılmasının en önemli bir tane nedeni vardır o da daha önceden meydana gelmemiş bir saldırıyı tanımadır. Veri madenciliği kullandığı kümeleme tekniği ile ilk olarak meydana gelen bir durumu tanıyabilmektedir. Kümelemede kullanıcılar genel özelliklerine dayalı olarak gruplara ayrılmaktadırlar [13].

8. Yapılan örnek çalışma

Burada veri madenciliği yöntemleri ile saldırı tespitinin nasıl yapıldığı gösterilmeye çalışılmıştır.

Amaç: Web günlük dosyalarını analiz ederek saldırı tespiti yapmak.
Araç: Saldırı tespiti yapmak için kullanılacak araç olarak veri madenciliği teknikleri seçildi. Bu tekniklerden özellikle sınıflandırma ve uyum kuralları ile istatistiksel yöntemler üzerinde duruldu.
Yöntem: Karar ağacı yöntemi ile normal ve anormal kullanım profilleri ortalamalara dayalı olarak bulunacak. Uyum kuralları yöntemi ile hangi saldırı dosyalarının birlikte istendikleri bulunacak
İstatistiksel yöntemler ile de diğer iki yöntemle bulunan bilgilere ek bilgiler elde edilecek.
Uygulama: Web günlük verileri yedi haftalık bir aralıktan seçildi (seçim aşaması). Seçilen bu verilerden analiz değeri olmayan kayıtlar silindi (temizleme aşaması). Bir sonraki aşamada eldeki ham veriler bir dönüşümden geçirilerek soyutlamalara dönüştürüldü (dönüşüm aşaması). Soyutlamalar istatistiksel yöntemler ile ve verilerden özetler elde edilerek yapıldı. Veriler dönüşümden geçirildikten sonra eğitilebilir hale geldi. Bu veriler üzerinde sınıflandırma, uyum kuralları ve istatistiksel yöntemler kullanıldı. 

Sınıflandırma uygulaması
Sınıflandırma uygulamasındaki amaç her dosya tipi için dosya istek ortalamalarının bulunmasıdır. Mesela htm uzantılı dosyalar için gün başına ortalama istek sayısı 15’tir. Yani bir kişi bir günde ortalama olarak 15 adet htm uzantılı web sayfası istemektedir.

Bu çalışma ile bütün uzantılar için ortalamalar bulunur (uzantılar -> htm, asp, exe, dll, ida)

Elde edilen sonuçlar
Ø  IDA uzantılı istekler: bu tipteki dosyalar codered virüsü tarafından istenmektedir. Yani bu uzantı saldırı dosyası uzantısıdır. Bu uzantı için ortalama 1 değerine eşittir. Her bağlantıda bir istek, virüs gizlenme eğiliminde olduğunu göstermektedir.
Ø  EXE ve DLL uzantılı istekler: bu tipteki dosyalarda yine saldırganlar tarafından istenmektedir. Bu dosya uzantısı için istek ortalaması genellikle 16 değerinden daha büyük olmaktadır.
Ø  ASP ve HTM uzantılı istekler: bu tipteki dosya istekleri normal dosya istekleridir ve bunlar için ortalama istek adedi 16 değerinden daha düşüktür.

Uyum kuralları uygulaması
Yapılan uygulamada uyum kuralları zararlı dosya istekleri arasındaki uyumu bulmada kullanılmıştır.

Elde edilen sonuçlar
Ø  EXE ve DLL uzantılı dosya istekleri arasında yüksek derecede bir uyum bulundu.
Ø  ASP ve HTM uzantılı dosya istekleri arasında da yüksek dereceli bir uyum bulundu.
Ø  IDA uzantılı dosya isteklerinin diğer dosya istekleri ile arasında bir uyum olmadığı görüldü.

Bir problem ve çözümü
Sınıflandırma ve uyum kuralları uygulamaları ile aslında saldırı dosyası olan IDA uzantılı dosyanın normal dosyalara benzer davrandığı görülmüştür. Mesela IDA ortalamaları ASP ve HTM ortalamalarına benzer değerler almıştır.

Bu iki teknik ile tespit edilemeyen bu dosya tipinin ek tekniklerle tespitine çalışılmış ve durum kodları ile metotların sayılmasının başarılı sonuçlar verdiği görülmüştür.

Yöntemin sonuçları
Bu yöntem uygulandığı zaman aşağıdaki sonuçlar elde edilmiştir:
Ø  Durum kodu oranları incelendiğinde (uzantılara göre başarılı istek oranları à ASP-%80, IDA-%79, HTM-%77, EXE-%22, DLL-%21) gibi değerler bulunmakta ve yine IDA uzantısı kamufle olmaktadır.
Ø  Metot kullanım sıklıkları ise (ASP-%20 POST, HTM-%20 POST, EXE-%2 POST, DLL-%0 POST, IDA-%2 POST) şeklindedir.

Bu sonuçlara göre sınıflandırma ve uyum kuralları yeterli gelmediğinde ek yöntemlerle saldırı davranışının tespit edilebileceği görülmüştür.


9. Sonuç

Teknolojinin gelişmesi kullanıcıların ona olan güvenleri ile mümkün olacaktır. Kullanıcıların teknolojiye güvenleri ise ancak güvenli bilgiişlem ile sağlanabilir. Bilgi işlemi güvenli hale getirmeye çalışan bazı yöntemler bulunmaktadır. Güvenlik duvarları ve antivirüs çözümleri bunlardan en çok bilinenleridir. Fakat bunlar yeterli olamamakta ve ek tedbirlere ihtiyaç duyulmaktadır.

Bir sisteme yapılan saldırılar hakkında bilgi toplayan, saldırıları izleyen ve adına saldırı tespit sistemi denilen bu yeni çalışma sahası ek tedbir oluşturmaktadır. Sunucu ve ağ tabanlı olarak çalışan saldırı tespit sistemleri için kötüye kullanım tespiti ve anormallik tespiti isimli iki ana yaklaşım vardır. Son zamanlarda veri madenciliği yaklaşımı da yaygın olarak kullanılmaya başlanmıştır.

Bu çalışmada veri madenciliği teknikleri ile saldırı tespitinin nasıl yapılabileceği anlatılmıştır. Veri madenciliği ile saldırı tespiti yapılırken anahtar konu saldırı davranışının modellenebilmesidir.

Kaynaklar
  1. Wenke Lee and Salvatore J. Stolfo,  “Data Mining Approaches for Intrusion Detection”, Computer Science Department Columbia University.
  2. Pasin Şule, “Çok algılayıcı saldırı tespit sistemleri”, GYTE 2001
  3. Dayıoğlu Burak ve Özgit Atilla, “İnternet’de saldırı tespiti teknolojileri”, iletişim teknolojileri 1. ulusal sempozyumu ve fuarı, ekim 2001, Ankara/Türkiye
  4. Özavcı Fatih, “Saldırı tespit sistemlerine giriş”, siyah şapka güvenlik çözümleri
  5. Deborah A. Frincke, Ming-Yuh Huang, “Recent Advances in Intrusion Detection Systems”, Computer Networks 34(2000) 541-545
  6. Sunita Sarawagi, 2001, “Intrusion Detection Using Data Mining Techniques”, http://www.it.iitb.ernet.in/~sunita
  7. Dayıoğlu Burak, “Elektronik saldırı tespiti”, www.teknoturk.org
  8. E. Biermann, “A comparison of Intrusion Detection Systems”, Computers & Security, 20(2001) 676-683
  9. Marvin Christensen, Dan Zerkle, Keith Hermiz, “A data mining analysis of RTID alarms, Stefanos Manganaris”, International Business Machines Corporation
  10. Wenke Lee , Salvatore J. Stolfo , Philip K. Chan , Eleazar Eskin , Wei Fan , Matthew Miller , Shlomo Hershkop , and Junxin Zhang, “Real Time Data Mining-based Intrusion Detection
  11. Deborah Frincke, “Visual Behavior Characterization for Intrusion and Misuse Detection”, Department of Computer Science University of Idaho Moscow



VERİ BİLİMCİSİ - DATA SCIENTIST