Teknoloji
Trend

Veri Madenciliği (Genel Bakış)

1. Giriş:

Merhaba Geliştiren Türkiye Gençleri! Bu içeriğimizde daha önce kelime anlamına ve tarihine değindiğimiz veri madenciliğinin; süreci, metotları, uygulama alanları, veri madenciliğini etkileyen faktörler, veri madenciliği sırasında karşılaşılan problemler gibi birçok alt konusuna değineceğiz.

2. Veri Madenciliği Süreci:

Veri madenciliği aslında birkaç aşamadan oluşan bir süreçtir. Verileri büyük veri yığınları arasından bulmak, bulunan verilerin içerisinden faydalı bilgiyi çekmek ve faydalı bilgiyi daha da sadeleştirerek öz bilgiye dönüştürmek gibi süreçler bulunmaktadır. Veri madenciliği süreci Şekil 1’de gösterilmiştir. Veri madenciliği, gerçekleştirilecek verilerin tüm özellikleri hangi amaç için gerçekleştirileceği de göz önünde bulundurularak detaylı bir şekilde incelenmelidir.

Veri madenciliği sürecinde izlenen adımlar genellikle aşağıdaki şekildedir (Shearer, 2000) [1]:

  1. Problemlerin tanımlanması,
  2. Verilerin hazırlanması,
  3. Modelin kurulması ve değerlendirilmesi,
  4. Modelin kullanılması,
  5. Modelin izlenmesi.
Bilgi Keşfi Sürecinde Veri Madenciliği
Şekil 1 – Bilgi Keşfi Sürecinde Veri Madenciliği [2]

Problemin tanımlanması: Veri madenciliği çalışmalarında başarılı olmanın ilk ve en önemli şartı, projenin kullanılacağı işletmenin amacının ve veri madenciliği işlemleri sonrasında elde edilecek sonuçların işletmenin başarı düzeyindeki etkisinin nasıl ölçüleceğinin tanımlanmasıdır.

Verilerin hazırlanması: Modelin kurulması aşamasında ortaya çıkacak sorunlar, bu aşamaya sık sık geri dönülmesine ve verilerin yeniden düzenlenmesine neden olacaktır. Bu durum, verilerin hazırlanması ve modelin kurulması aşamaları için bir analistin veri keşfi sürecinin toplamı içerisinde enerji ve zamanının %50 – %85’ini harcamasına neden olmaktadır (Piramuthu,1998). Verilerin hazırlanması, “toplama”, “değer biçme”, “birleştirme ve temizleme”, “örneklem seçimi” ve “dönüştürme” aşamalarından oluşmaktadır [3].

Modelin kurulması ve değerlendirilmesi: Bir probleme en uygun modeli bulabilmek için olabildiğince çok modelin denenmesi gereklidir. Bu yüzden veri hazırlama ve model kurma aşamaları, en iyi modeli oluşturuncaya kadar yinelenmelidir.

Modelin Kullanılması: Oluşturulmuş ve herkes tarafından kabul edilen bir model doğrudan uygulamaya dönebileceği gibi diğer modellerin alt parçası haline de gelebilir.

Modelin İzlenmesi: Gün geçtikçe veri tabanlarındaki, disklerdeki ve veriyi elde etmedeki değişikliklerle sistemlerin özelliklerinde ve dolayısıyla ürettikleri verilerde ortaya çıkan değişiklikler, kurulmuş modellerin yeniden düzenlenmesini gerektirecektir.

3. Veri Madenciliği Metotları:

Veri madenciliği sürecinde kullanılan pek çok yöntem mevcuttur. Gün geçtikçe bu sürece katkı verecek yeni yöntemler oluşturulmaktadır. Bu yöntemlerden bazıları yıllardır kullanılan istatistiksel ağırlıklı klasik yöntemlerdir. Diğerleri ise yine genel olarak istatistik temelli ancak çokça makine öğrenimi ve yapay zekâ destekli yeni nesil yöntemlerdir.

Veri madenciliği modelleri, gördükleri işlevlere göre temel olarak 3 grupta toplanır. Bunları:

  1. Sınıflama (Classification) ve Regresyon (Regression),
  2. Kümeleme (Clustering),
  3. Birliktelik Kuralları (Association Rules),

olmak üzere üç ana başlık altında incelemek mümkündür. Sınıflama ve regresyon modelleri tahmin edici, kümeleme ve birliktelik kuralları modelleri tanımlayıcı modellerdir (Özekes, 2003) [4].

4. Veri Madenciliği Uygulama Alanları:

Günümüzde veri madenciliği, firmalar tarafından öncelikle müşteri odaklı olarak (finansal, iletişimsel ve pazarlama) kullanılmaktadır. Veri madenciliği, firmalara fiyat, üretim planlaması, personel becerileri gibi iç faktörleri belirlemelerine olanak tanımaktadır. Ayrıca ekonomik göstergeler, rekabet ve pazarın yapısı gibi dış faktörleri belirlemelerine olanak tanımaktadır. Böylece firmaların satışları, müşterilerinin tatmini ve şirket karları üzerindeki olumlu ya da olumsuz etkiler belirlenebilmektedir. Sonuçta öz bilgiyi elde etme ve veriler içindeki detayları görebilme olanağı sağlanmaktadır. Bu çerçevede veri madenciliği birçok alanda uygulanabilmektedir. Veri madenciliğinin kullanıldığı başlıca alanlar şöyle özetlenebilir (Akpınar, 2000: 1–22; Koyuncugil, 2007: 1–20) [5]:

  • Sağlık Sektörü
  • Telekomünikasyon
  • Finans (Bankacılık, Borsa)
  • Pazarlama
  • Sigortacılık
  • Astronomi
  • Biyoloji
  • Tıp

5. Veri Madenciliğini Etkileyen Faktörler:

Veri madenciliği temel olarak 5 ana faktörden etkilenir (Akpınar, 2000) [6]:

Veri: Veri madenciliğinin bu kadar gelişmesindeki en önemli faktördür.

Donanım: Gelişen bellek ve işlem hızı kapasitesi sayesinde birkaç yıl önce madencilik yapılamayan veriler üzerinde çalışmayı mümkün hale getirmiştir.

Bilgisayar Ağları: Yeni nesil internet, çok yüksek hızları kullanmayı sağlamaktadır. Böyle bir bilgisayar ağı ortamı oluştuktan sonra dağıtık verileri analiz etmek ve farklı algoritmaları kullanmak mümkün olacaktır.

Bilimsel Hesaplamalar: Günümüz bilim adamları ve mühendisleri, simülasyonu bilimin üçüncü yolu olarak görmekteler. Veri madenciliği ve bilgi keşfi; teori, deney ve simülasyonu birbirine bağlamada önemli bir rol almaktadır.

Ticari Eğilimler: Günümüzde işletmeler, rekabet ortamında varlıklarını koruyabilmek için daha hızlı hareket etmeli, daha yüksek kalitede hizmet sunmalı, bütün bunları yaparken de minimum maliyeti ve en az insan gücünü göz önünde bulundurmalıdır.

6. Veri Madenciliğinde Karşılaşılan Problemler [7] :

Büyük hacimli verilerin bulunduğu veri ortamlarında büyük sorunlar ortaya çıkabilir. Bu nedenle küçük veri kümelerinde, benzetim ortamlarında hazırlanmış veri madenciliği sistemleri; büyük hacimli, eksik, gürültülü, boş, atık, aykırı veya belirsiz veri kümelerinin bulunduğu ortamlarda yanlış çalışabilir. Bu nedenle veri madenciliği sistemleri hazırlanırken bu sorunların çözülmesi gerekmektedir. Veri madenciliği uygulamalarında karşılaşılabilecek sorunlar şunlardır:

Artık Veri: Artık veri, problemde istenilen sonucu elde etmek için kullanılan örneklem kümesindeki gereksiz niteliklerdir. Bu durum, pek çok işlem sırasında karşımıza çıkabilir.

Belirsizlik: Yanlışlıkların şiddeti ve verideki gürültünün derecesi ile ilgilidir.

Boş Veri: Bir veri tabanında boş değer, birincil anahtarda yer almayan herhangi bir niteliğin değeri olabilir. Boş değer, tanımı gereği kendisi de dâhil olmak üzere hiçbir değere eşit olmayan değerdir.

Dinamik Veri: Kurumsal çevrim içi veri tabanları dinamiktir ve içeriği sürekli olarak değişir. Bu durum, bilgi keşfi metotları için önemli sakıncalar doğurmaktadır.

Eksik Veri: Veri kümesinin büyüklüğünden ya da doğasından kaynaklanmaktadır. Eksik veriler olduğunda yapılması gerekenler şunlardır:

  • Eksik veri içeren kayıt veya kayıtlar çıkarılabilir.
  • Değişkenin ortalaması eksik verilerin yerine kullanılabilir.
  • Var olan verilere dayalı olarak en uygun değer kullanılabilir.

Eksik veriler, yapılacak olan istatistiksel analizlerde önemli problemler yaratmaktadır. Çünkü istatistiksel analizler ve bu analizlerin yapılmasına olanak veren ilgili paket programlar, verilerin tümünün var olduğu durumlar için geliştirilmiştir (Albayrak, 2008) [8].

Farklı Tipteki Verileri Ele Alma: Gerçek hayattaki uygulamalar, makine öğreniminde olduğu gibi yalnızca sembolik veya kategorik veri türleri değil, aynı zamanda tamsayı, kesirli sayılar, çoklu ortam verisi, coğrafi bilgi içeren veri gibi farklı tipteki veriler üzerinde işlem yapılmasını gerektirir.

Gürültülü ve Kayıp Değerler: Veri girişi veya veri toplanması esnasında oluşan sistem dışı hatalara gürültü denir. Büyük veri tabanlarında pek çok niteliğin değeri yanlış olabilir. Veri toplanması esnasında oluşan hatalara ölçümden kaynaklanan hatalar da dâhil olmaktadır. Bu hataların sonucu olarak birçok niteliğin değeri yanlış olabilir ve bu yanlışlardan dolayı veri madenciliği amacına tam olarak ulaşmayabilir.

Sınırlı Bilgi: Veri tabanları genel olarak basit öğrenme işlerini sağlayan özellik veya nitelikleri sunmak gibi veri madenciliği dışındaki amaçlar için hazırlanmışlardır. Bu yüzden öğrenme görevini kolaylaştıracak bazı özellikler bulunmayabilir.

Veri tabanı Boyutu: Veri tabanı boyutları büyük bir hızla artmaktadır. Veri tabanı algoritması çok sayıda küçük örneklemi ele alabilecek biçimde geliştirilmiştir. Aynı algoritmaların yüzlerce kat büyük örneklemlerde kullanılabilmesi için çok dikkat gerekmektedir.

7. Gizlilik Problemleri ve Etik [9] :

“Veri madenciliği” teriminin kendisi etik bir etkiye sahip olmasa da genellikle insanların davranışlarıyla (etik ve başka türlü) ilgili olan bilgi madenciliği ile ilişkilidir. Veri madenciliğinin nasıl kullanıldığı bazı durumlarda ve bağlamlarda gizlilik, yasallık ve etik ile ilgili sorular gündeme getirebilir. Veri madenciliği, özellikle hükümete veya ulusal güvenlik kuruluşlarına ait veri setleri üzerindeki gizlilik endişelerini artırmıştır.

Bireyin gizliliğine yönelik tehdit, veriler bir kez derlendiğinde veri madencisinin veya yeni derlenmiş veri kümesine erişimi olan herhangi birinin özellikle veriler aslen anonim olduğunda belirli kişileri tanımlayabilmesi durumunda ortaya çıkar.

Bir veri madencisinin veriyi toplamaya başlamadan önce haberdar olması gereken başlıca konular şunlardır:

  • Toplanılacak verinin hangi amaç için toplandığı,
  • Verilerin nasıl kullanılacağı,
  • Verileri ve türevlerini kimlerin kullanacağını,
  • Elde edildikten sonra verilerin korumasını gerçekleştirecek güvenliğin durumunu,
  • Toplanılan verilerin nasıl güncellenebileceğini.

Veriler, anonim hale gelecek şekilde de değiştirilebilir. Böylece bireyler kolayca tespit edilemez. Bununla birlikte anonimleştirilmiş veri bile gazetecilerin yanlışlıkla AOL tarafından serbest bırakılan bir dizi arama geçmişinden bu verilerin sahiplerini bulabildikleri gibi bireylerin tanımlanmasına yetecek kadar bilgi içerebilir. Kişisel olarak tanımlanan verilerin yanlışlıkla ifşalanması, yerel kurumlara başvurular sonucunda cezalandırılabilir. Bu gibi hatalar, büyük mali kayıplara neden olabilir; kişisel verileri ifşalanmış bireyde duygusal veya bedensel zararlara bile sebep olabilir.

Yakın tarihte yaşanan ve Facebook’un bir teknoloji şirketine verilen en büyük cezayı almasıyla sonuçlanan bir gizlilik ihlali gerçekleşmişti. Amerika yerel seçimleri öncesinde Cambridge Üniversitesi’nde araştırma görevlisi olan Aleksandr Kogan, Facebook aracılığıyla hizmet veren “This is Your Digital Life” isimli kişilik testi uygulaması aracılığıyla 87 milyon kişinin bilgilerini depolamış, bu bilgileri 2016 yılında siyasi danışmanlık amacıyla faaliyet gösteren Cambridge Analytica şirketine satmıştı. İngiliz televizyon kanalı Channel 4’un açığa çıkardığı skandalda Cambridge Analytica şirketi, elde ettiği verileri 2016 Amerikan seçimlerini Donald Trump’ın kazanması için kullanmıştı. Facebook, bu büyük ihlal sonrasında 5 milyar dolar gibi rekor bir ceza almış ve Facebook CEO’su Mark Zuckerberg, ABD senatosunda ifade vermişti.

8. Veri Madenciliğinin Geleceği [10] :

Veri madenciliği teknolojisinin gündeme getirdiği en önemli konulardan biri, bir işletme veya teknoloji konusu değil, sosyal bir konudur. Bu konu bireysel mahremiyettir. Veri madenciliği, rutin iş işlemlerini analiz etmeyi ve bireylerin satın alma alışkanlıklarıyla tercihleri hakkında önemli miktarda bilgi toplamayı mümkün kılar.

Diğer bir konu ise veri bütünlüğüdür. Açıkçası veri analizi, ancak analiz edilen veriler kadar iyi olabilir. Veri madenciliğinin önemli bir uygulama zorluğu da farklı kaynaklardan gelen gereksiz veya çakışan verilerin entegre edilmesi işlemidir. Örneğin, bir banka birkaç farklı veri tabanında kredi kartı hesabı bilgisi tutabilir. Tek bir kart sahibinin adresi (hatta adı) her birinde farklı olabilir. Yazılım, verileri bir sistemden diğerine çevirmeli ve en son girilen adresi seçmelidir.

Son olarak, maliyet sorunu vardır. Sistem donanım maliyetlerinin son beş yıl içinde önemli ölçüde düşmesine karşın veri madenciliği ve veri ambarlama, kendi kendini güçlendirme eğilimindedir. Veri madenciliği sorguları ne kadar güçlü olursa verilerden toplanan faydalı bilgiyi, toplanan ve tutulan veri miktarını artırma baskısı o kadar büyük olur. Sonuçta daha hızlı ve daha güçlü veri madenciliği için baskı artar. Daha verimli olan bu veri madenciliği sistemleri, genellikle öncekilerden daha pahalıya mal olur.

9. Kaynakça:

DAHA FAZLA İÇERİK

“Veri Madenciliği (Genel Bakış)” tarzında

Daha fazla “TEKNOLOJİ” içeriğine bu bağlantıya tıklayarak ulaşabilirsin!

GETURGEN Dünyasını YouTube’da keşfetmek ister misin? O halde bu bağlantıya tıkla!


Metin Editörü: Hatice KIRAÇ

Hasan SALDIRAN

Uludağ Üniversitesi Bilgisayar Programcılığı bölümü mezunuyum. Şu anda Atatürk Üniversitesi Bilgisayar Mühendisliği bölümünde eğitim hayatıma devam etmekteyim.

İlgili Makaleler

Bir cevap yazın

Başa dön tuşu