İçeriğe geçmek için "Enter"a basın

Metin Madenciliği Nedir?

Günümüzde bilgisayarların kullanımdaki artış ve diğer veri depolama ortamlarının kapasitelerindeki artış nedeniyle dünyada depolanan toplam verinin büyük boyutlara ulaştığı bir çağdayız.

 

Ne var ki bu büyüklük bilgisayarlar için kullanılabilir veri anlamında bir şey ifade etmiyor. Bu verilerin büyük çoğunluğu ham halleriyle sadece insan beyni  tarafından kolayca okunabilen yani yapısal olmayan veriler.

 

Verilerin hızlı bir şekilde gruplanması, özetlenmesi ve üzerinde analizler yapılıp tahminlerde bulunulması için bilgisayarlara ihtiyacımız var. Bunun içinde tüm dünyada farklı konum ve ortamlarda depolanmış olan veriyi yapısal olmayan veri türünden yapısal veri türüne yani bilgisayarlarında kolayca okuyabileceği bir türe çevirmemiz gerekiyor. İşte tamda bu noktada metin madenciliği devreye giriyor.

 
[saritext]Metin madenciliği[/saritext]; yapısal olmayan yada yarı-yapısal veri yığınları arasından, önceden bilinmeyen, önemli olan, yararlı olan ve ilginç olanları keşfedip çeşitli yöntemlerle analiz eden bir teknolojidir. Metin koleksiyonlarının ön işlemden geçirilmesi, çıkan ara sonuçların saklanması, bu ara sonuçların analizi için çeşitli yöntemlerin kullanılması ve ortaya çıkan son verinin görselleştirilmesi gibi aşamalardan oluşmaktadır.

 

Teknik olarak 4 temel kategoriye ayrılır.

Sınıflandırma (classification), birliktelik analizi(association analysis), bilgi çıkarım (information extraction) ve kümeleme (clustering).
DataMining-veri-madenciligi-nedir-buzimacomYapısal olmayan veri türlerine ses (örneğin telefon kayıtları) ve videolar, e-postaların içerikleri, kelime işlemci dokümanları ( örneğin ms word), internet sitelerindeki forum verileri anket cevapları, kamu kurumları bildirileri, öneri ve şikayetleriniz kısımlarından gelen veriler, wikipedia gibi online ansiklopediler ve messenger programlarının verileri gösterilebilir.

 

Metin madenciliğinde kullanılan yöntemlerden birini şöyle bir kod satırı yazarak açıklayabiliriz:

IF title INCLUDE iyimakale AND body INCLUDE yazabilirmisin? ( > 4) AND body INCLUDE iyimakale.com (>0) THEN TRUE (Support %4, Confidence c, Lift 312).

Bu kod parçasını şu şekilde açıklayabilirim: bir yazıda iyimakale kelimesinin dört kere ve üstünde geçmesi için ilk şartın başlıkta iyimakale kelimesinin geçmesidir, ayrıca yazı içinde yazabilirmisin?  kelimesinin en az beş defa geçmesi ve en az bir kere de iyimakale.com kelimesinin geçmesi gerekmektedir. Bu kod ile tüm yazı bloğu işlendiğinde veri setinde %5 sıklıkla bulunan ve her rastlantıda iyimakale kelimesinin 4 ve üzerinde olma olasılığı % 63 tür.  Bu şart yazının tamamına bakıldığında verilere erişme bakımından 3.12 kat daha etkindir.

 

GERÇEK DÜNYADA NASIL KULLANILIYOR?
Konunun teknik kısmından sonra bu yöntemin gerçek dünyada nasıl kullanıldığından bahsedelim. Benim gördüğüm kadarıyla bunu her hangi bir haber kaynağından haber almayan diğer haber portallarından çektiği bir kaç benzer haber metnini birleştirip yeni bir metin olarak okuyucuya sunan haber siteleri kullanıyor.

 

Bunun dışında google, kullanıcıların hangi anahtar kelimelerle arama yaptığını ve bu aramanın sonucunda çıkan veriler arasından hangi sayfaları seçip okuduklarının istatistiğini tutuyor ve adsense reklamlarını buna göre ilgili yerlere yerleştiriyor. Bunun dışında online mağaza aracılığyla ürün satan şirketler tarafından hangi ürünlerin ne kadar sevildiği, bir ürünün en çok hangi bölgedeki insanlar tarafından tercih edildiği gibi veriler şirketin pazarlama politikasına etki ederken, haber siteleri için twitterda bu hafta en çok hangi kelimeden bahsedildiği gibi verilerse başta medya olmak üzere bir çok yapı tarafından kullanılabilir hatta bir kişisel blog yazarı bile web sitesine ekleyeceği konuları belirlerken insanların bu hafta en çok neye merak duyduğunu tespit edip bu doğrultuda bir konu üzerine yazı ekleme yoluna gidebilir.

 
Meraklılarına bu işi yapan porgramlar için [saritext]sortext[/saritext] ve [kirmizitext]wordego[/kirmizitext] programlarını incelemelerini tavsiye ederim.

5 Yorum

  1. Patolog Patolog 22 Şubat 2014

    Web İçerik Editörü – Metin Madenciliği Yazılımları A.Ş. [İstanbul(Avr.) – 03.12.2012]: İnterneti aktif ve sürekli…

  2. AA Telekom AA Telekom 24 Şubat 2014

    Yazılım Ekip Lideri – Metin Madenciliği Yazılımları A.Ş. [İstanbul(Avr.) – 28.08.2012]: Üniversitelerin mühendislik…

  3. Mustafa Baydogan Mustafa Baydogan 24 Şubat 2014

    Twitter verisi üzerine metin madenciliği için R kodları

  4. ishabercim.net ishabercim.net 25 Şubat 2014

    Türkçe diline özgü ilk ve en kapsamlı metin madenciliği yazılımını geliştiren “Metin Madencisi” AA Telekomdan veri merkezi hizmeti almakta.

  5. Gelecekonline Gelecekonline 5 Nisan 2014

    Anıl Karadağ’ın “Metin Madenciliği ile Benzer Haber Tespiti” başlıklı sunumu 9:30’da E salonunda (az sonra)

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir