Metin Madenciliği Nedir?

Günümüzde bilgisayarların kullanımdaki artış ve diğer veri depolama ortamlarının kapasitelerindeki artış nedeniyle dünyada depolanan toplam verinin büyük boyutlara ulaştığı bir çağdayız.

 

Ne var ki bu büyüklük bilgisayarlar için kullanılabilir veri anlamında bir şey ifade etmiyor. Bu verilerin büyük çoğunluğu ham halleriyle sadece insan beyni  tarafından kolayca okunabilen yani yapısal olmayan veriler.

 

Verilerin hızlı bir şekilde gruplanması, özetlenmesi ve üzerinde analizler yapılıp tahminlerde bulunulması için bilgisayarlara ihtiyacımız var. Bunun içinde tüm dünyada farklı konum ve ortamlarda depolanmış olan veriyi yapısal olmayan veri türünden yapısal veri türüne yani bilgisayarlarında kolayca okuyabileceği bir türe çevirmemiz gerekiyor. İşte tamda bu noktada metin madenciliği devreye giriyor.

 
Metin madenciliğiyapısal olmayan yada yarı-yapısal veri yığınları arasından, önceden bilinmeyen, önemli olan, yararlı olan ve ilginç olanları keşfedip çeşitli yöntemlerle analiz eden bir teknolojidir. Metin koleksiyonlarının ön işlemden geçirilmesi, çıkan ara sonuçların saklanması, bu ara sonuçların analizi için çeşitli yöntemlerin kullanılması ve ortaya çıkan son verinin görselleştirilmesi gibi aşamalardan oluşmaktadır.

 

Teknik olarak 4 temel kategoriye ayrılır.

Sınıflandırma (classification), birliktelik analizi(association analysis), bilgi çıkarım (information extraction) ve kümeleme (clustering).
DataMining-veri-madenciligi-nedir-buzimacomYapısal olmayan veri türlerine ses (örneğin telefon kayıtları) ve videolar, e-postaların içerikleri, kelime işlemci dokümanları ( örneğin ms word), internet sitelerindeki forum verileri anket cevapları, kamu kurumları bildirileri, öneri ve şikayetleriniz kısımlarından gelen veriler, wikipedia gibi online ansiklopediler ve messenger programlarının verileri gösterilebilir.

 

Metin madenciliğinde kullanılan yöntemlerden birini şöyle bir kod satırı yazarak açıklayabiliriz:

IF title INCLUDE iyimakale AND body INCLUDE yazabilirmisin? ( > 4) AND body INCLUDE iyimakale.com (>0) THEN TRUE (Support %4, Confidence c, Lift 312).

Bu kod parçasını şu şekilde açıklayabilirim: bir yazıda iyimakale kelimesinin dört kere ve üstünde geçmesi için ilk şartın başlıkta iyimakale kelimesinin geçmesidir, ayrıca yazı içinde yazabilirmisin?  kelimesinin en az beş defa geçmesi ve en az bir kere de iyimakale.com kelimesinin geçmesi gerekmektedir. Bu kod ile tüm yazı bloğu işlendiğinde veri setinde %5 sıklıkla bulunan ve her rastlantıda iyimakale kelimesinin 4 ve üzerinde olma olasılığı % 63 tür.  Bu şart yazının tamamına bakıldığında verilere erişme bakımından 3.12 kat daha etkindir.

 

GERÇEK DÜNYADA NASIL KULLANILIYOR?
Konunun teknik kısmından sonra bu yöntemin gerçek dünyada nasıl kullanıldığından bahsedelim. Benim gördüğüm kadarıyla bunu her hangi bir haber kaynağından haber almayan diğer haber portallarından çektiği bir kaç benzer haber metnini birleştirip yeni bir metin olarak okuyucuya sunan haber siteleri kullanıyor.

 

Bunun dışında google, kullanıcıların hangi anahtar kelimelerle arama yaptığını ve bu aramanın sonucunda çıkan veriler arasından hangi sayfaları seçip okuduklarının istatistiğini tutuyor ve adsense reklamlarını buna göre ilgili yerlere yerleştiriyor. Bunun dışında online mağaza aracılığyla ürün satan şirketler tarafından hangi ürünlerin ne kadar sevildiği, bir ürünün en çok hangi bölgedeki insanlar tarafından tercih edildiği gibi veriler şirketin pazarlama politikasına etki ederken, haber siteleri için twitterda bu hafta en çok hangi kelimeden bahsedildiği gibi verilerse başta medya olmak üzere bir çok yapı tarafından kullanılabilir hatta bir kişisel blog yazarı bile web sitesine ekleyeceği konuları belirlerken insanların bu hafta en çok neye merak duyduğunu tespit edip bu doğrultuda bir konu üzerine yazı ekleme yoluna gidebilir.

 
Meraklılarına bu işi yapan porgramlar için sortext ve wordego programlarını incelemelerini tavsiye ederim.

Hakkında

Sitede paylaştığım konuları özgün ve sade bir anlatımla siz okuyuculara sunmaya gayret gösteriyorum. Olumlu/olumsuz düşüncelerinizi iletişim sayfasından belirtebilirsiniz mutlaka dönüş yapılacaktır.

Yazıya Yapılan Yorumlar

  1. Patolog dedi ki:

    Web İçerik Editörü – Metin Madenciliği Yazılımları A.Ş. [İstanbul(Avr.) – 03.12.2012]: İnterneti aktif ve sürekli…

  2. AA Telekom dedi ki:

    Yazılım Ekip Lideri – Metin Madenciliği Yazılımları A.Ş. [İstanbul(Avr.) – 28.08.2012]: Üniversitelerin mühendislik…

  3. Mustafa Baydogan dedi ki:

    Twitter verisi üzerine metin madenciliği için R kodları

  4. ishabercim.net dedi ki:

    Türkçe diline özgü ilk ve en kapsamlı metin madenciliği yazılımını geliştiren “Metin Madencisi” AA Telekomdan veri merkezi hizmeti almakta.

  5. Gelecekonline dedi ki:

    Anıl Karadağ’ın “Metin Madenciliği ile Benzer Haber Tespiti” başlıklı sunumu 9:30’da E salonunda (az sonra)