Teknoloji

Veri Madenciliğine Giriş

1. Giriş:

Merhaba Geliştiren Türkiye Gençleri! Bu içeriğimizde sizlerle veri madenciliğine giriş yapacağız. Veri madenciliği ile ilgili bu ilk yazımızda veri madenciliğinin tanımından, etimolojisinden ve tarihinden bahsedeceğiz.

Hepimiz biliyoruz ki günümüz teknolojisi hızla gelişmekte ve bilgisayar bilimleri her geçen gün büyümektedir. Bununla birlikte hemen hemen her alanda çeşitli yöntemlerle veriler toplanmakta ve depolanmaktadır. Dolayısıyla elde edilen büyük veri hızla artmakta, bu verilerin analizi ve sonucu büyük önem kazanmaktadır. Çeşitli yöntemlerle ve bilgisayar sistemleriyle elde edilen bu veriler ilk halleriyle bir anlam ifade etmezler. Bu veriler kullanılacağı amaç doğrultusunda işlendiği zaman önem kazanmaktadırlar. Bu büyüklükteki verilerin işlenebilmesi için çeşitli teknikler kullanılmaktadır. Bu tekniklerden olan veri madenciliği sayesinde ham veri, bilgiye ve anlamlı hale dönüştürülebilir.

2. Veri Madenciliği Nedir?:

Veri madenciliği: makine öğrenimi, istatistik ve veri tabanı sistemlerinin kesiştiği yöntemleri içeren büyük veri kümelerindeki kalıpları keşfetme sürecidir [1]. Veri madenciliği, bir veri kümesinden bilgi çıkarmak (akıllı yöntemlerle) ve bilgiyi daha fazla kullanım için anlaşılır bir yapıya dönüştürme amacında olan Bilgisayar Bilimi ve İstatistiklerin disiplinler arası bir alt alanıdır [2] [3] [4]. Veri madenciliği, “veri tabanlarında bilgi keşfi” sürecinin yani KDD’nin (Knowledge Discovery in Databases) analiz adımıdır [5]. Ayrıca veri madenciliği, çok büyük miktardaki verilerin içindeki ilişkileri inceleyerek aralarındaki bağlantıyı bulmaya yardımcı olan ve veri tabanı sistemleri içerisinde gizli kalmış bilgilerin çekilmesini sağlayan veri analizi tekniğidir (Kalikov, 2006) [6]. Veri madenciliği üzerinde fikir birliğine varılmış ortak bir tanım yoktur. Veri madenciliği, veri tabanlarından bilgi keşfi sürecinden daha geniş bir bilgi keşfinin parçasıdır. KDD, tüm veri depolama, organizasyon, temizlik, analiz ve yorumlama sürecini ifade eder. Bununla birlikte halk dilinde veri madenciliği, hesaplama sistemlerini kullanarak büyük miktarda veriden yararlı bilgi elde etme sürecinin tamamını temsil eder. Veri madenciliğinin kullanıldığı alanlar içerisinde çeşitli disiplinler bulunmaktadır. Veri madenciliği disiplinleri, Şekil 1’de gösterilmiştir.

Veri Madenciliği Disiplinleri
Şekil 1 – Veri Madenciliği Disiplinleri [10]

Veri madenciliği işletmeler için oldukça fazla fayda sağlar. Bunlardan en önemlisi veri grupları arasındaki benzer eğilimlerin ve davranış kalıplarının belirlenmesidir. Bu süreç otomatikleştirilmiş bir şekilde hayata geçirilebilmektedir. Bu fonksiyon özellikle hedef pazarlara yönelik pazarlama faaliyetlerinde yoğun olarak kullanılmaktadır (İnan, 2003) [7]. Veri madenciliğinin bir başka önemli özelliği de veri tabanlarında ve veri ambarlarında bulunan ve daha öncesinde keşfedilmeyen bilgilerin keşfedebilmesidir. Örnek olarak; bir alışveriş sitesi sattığı ürünleri analiz ederek ilerleyen zamanlar için planladığı kampanyaları şekillendirebilir ya da ürünler arasındaki bağları öğrenebilir. Kısacası amaç veri madenciliğini kullanarak bilgiyi keşfetmektir.

Aslında veri madenciliği bilgiyi keşfetme probleminde bir çözüm değil, çözüme götürecek kararları destekleyen, çözüme ulaştırmak için gerekli bilgileri sağlayan bir araçtır. Kısacası veri madenciliği, çözümleyicisine ve analistine faydalı bilgiyi ve veriler arasındaki ilişkiyi bulması için yardım etmektedir. Veri madenciliği ve bilgi keşfi alanında gerçekleşen bilimsel gelişmeler; yöntemsel gelişmeler ve uygulama alanlarındaki gelişmeler olarak iki ana kategoride incelenebilir. Yöntemsel ilerlemeler, bu alanın önemli parçaları olan istatistik, veri tabanları, makine öğrenme ve yapay zekâ alanlarındaki ilerlemelerin bir araya gelmesiyle ortaya çıkmaktadır (U. Fayyad, Piatetsky-Shapiro, Smyth, & Uthurusamy, 1996) [8].

3. Veri Madenciliğinin Etimolojisi:

“Veri madenciliği” terimi, 1983 yılında İktisadi Araştırmalar Dergisi’nde yayınlanan bir makalede iktisatçı Michael Lovell tarafından ciddi bir şekilde kullanılmıştır [9]. Lovell, uygulamanın “deneme” (pozitif) ile “balıkçılık” veya “gözetleme” (negatif) arasında değişen çeşitli takma adlar altında maskelendiğini göstermiştir. Veri madenciliği terimi, 1990’larda veri tabanı topluluğunda, genellikle olumlu çağrışımlarla tekrar ortaya çıkmıştır. Veri arkeolojisi, bilgi toplama, bilgi keşfi, bilgi çıkarma gibi terimlerin ortaya çıktığı yıllarda Gregory Piatetsky-Shapiro, aynı konudaki ilk çalıştay (KDD-1989) için “veri tabanlarında bilgi keşfi” terimini kullandı ve bu terim yapay zekâ ve makine öğrenimi topluluğunda popüler bir hale geldi. Bununla birlikte veri madenciliği terimi de iş dünyasında ve basın topluluklarında daha popüler bir hale geldi. Günümüzde veri madenciliği ve bilgi keşfi terimleri birbirinin yerine kullanılmaktadır.

Akademik toplulukta araştırma için büyük forumlar 1995 yılında Montreal’de AAAI sponsorluğu altında 1. Uluslararası Veri Madenciliği ve Bilgi Keşfi Konferansı (KDD-95) düzenlendiğinde başladı. Bu konferans, Usama Fayyad ve Ramasamy Uthurusamy başkanlığında gerçekleşti. Bir yıl sonra 1996’da Usama Fayyad, Kluwer tarafından kurucu baş editör olarak Veri Madenciliği ve Bilgi Keşfi adlı dergiyi yayınladı. KDD Uluslararası Konferansı, %18’in altındaki araştırma makalesi gönderimlerinin kabul oranı ile veri madenciliğinde birincil en yüksek kalitede konferans oldu. Veri Madenciliği ve Bilgi Keşfi Dergisi, alanın birincil araştırma dergisidir.

4. Veri Madenciliğinin Tarihi:

Günümüzde teknoloji tahmin edilemeyecek düzeyde gelişmiştir. Bununla birlikte internete erişim dünyanın birçok yerinden sağlanmaktadır. Sosyal medya, internet alışverişleri, internet anketleri, internet bankacılığı kısacası hemen hemen bütün sektörlere ve alanlara ait internet siteleri sürekli olarak veri toplamaktadır. Bu büyüklükteki veriyi saklayabilmek için veri tabanları, diskler ve bilgisayarların veri depolama kapasiteleri ve hızları gün geçtikçe artmaktadır. Günümüze kadar hemen hemen her dönemde insanlar elde edilen verileri yorumlamaya çalışmış ve faydalı bilgiye ulaşmaya çalışmışlardır. Faydalı bilgiye ulaşmak için sürekli veri toplayan insanlar bu verileri depolayabilmek ve sonrasında analiz edebilmek için daha büyük veri tabanları tasarlayarak bilginin geçmişten günümüze kadar ulaşmasını sağlamışlardır.

Bilgisayarlar ilk olarak 1950’li yıllarda sayım için kullanılmaya başlamıştır. Birkaç yıl sonra 1960’larda verilerin depolanması ve veri tabanı kavramları bilişim dünyasında konuşulmaya başlandı. Bunun da etkisiyle yine bilim insanları ilk basit öğrenmeli bilgisayarları geliştirdiler. Minsky ve Papert, günümüzde sinir ağları olarak bilinen Perseptron’ların sadece çok basit olan kuralları öğrenebileceğini göstermişlerdir (Adriaans ve Zantinge, 1997). Çok geçmeden 1970’lerde İlişkisel Veri Tabanı Yönetim Sistemleri uygulamaları kullanılmaya başlanmıştır. Bununlar birlikte basit kurallara dayanan uzman sistemler ve basit anlamda bilgisayar öğrenimi bilgisayar uzmanları tarafından sağlanmıştır. 1980’lerde Veri Tabanı Yönetim Sistemleri yaygınlaşmış ve bilimsel alanlarda müşterileri, rakipleri ve ürünleri ile ilgili verilerden oluşan veri tabanları oluşturmuşlardır. Bu veri tabanlarının içerisinde çok büyük miktarlarda veri bulunmaktadır ve bunlara SQL veri tabanı sorgulama dili ya da benzeri diller kullanarak ulaşılabilir.

1990’larda artık içindeki veri miktarı katlanarak artan veri tabanlarından faydalı bilgilerin nasıl bulunabileceği düşünülmeye başlanmıştır. Bunun üzerine çalışmalara ve yayınlara başlanmıştır. 1989, KDD (IJCAI)-89 Veri Tabanlarında Bilgi Keşfi Çalışma Grubu toplantısı ve 1991, KDD (IJCAI)-89’un sonuç bildirgesi sayılabilecek “Knowledge Discovery in Real Databases: A Report on the IJCAI-89 Workshop” makalesinin KDD (Knowledge Discovery and Data Mining) ile ilgili temel tanım ve kavramları ortaya koyması ile süreç daha da hızlanmış ve nihayet 1992 yılında veri madenciliği için ilk yazılım gerçekleştirilmiştir. 2000’li yıllarda veri madenciliği sürekli gelişmiş ve hemen hemen tüm alanlara uygulanmaya başlanmıştır. Alınan sonuçların faydaları görüldükçe bu alana ilgi artmıştır. Veri madenciliğinin tarihsel gelişim süreci, Şekil 2’de gösterilmiştir.

Veri Madenciliği Tarihsel Süreçleri
Şekil 2 – Veri Madenciliğinin Tarihsel Süreci [11]

Veri madenciliğine hep birlikte giriş yapmış olduk. Konuyla ile ilgili devam yazımızda sizlerle veri madenciliği sürecini, metotlarını, uygulama alanlarını ve veri madenciliğinde karşılaşılan problemleri paylaşacağız. Bizleri takipte kalın!

5. Kaynakça:

GETURGEN Dünyasını YouTube’da keşfetmek ister misin? O halde bu bağlantıya tıkla!

Daha fazla “TEKNOLOJİ” içeriğine bu bağlantıya tıklayarak ulaşabilirsin!


Metin Editörü: Hatice KIRAÇ

Hasan SALDIRAN

Uludağ Üniversitesi Bilgisayar Programcılığı bölümü mezunuyum. Şu anda Atatürk Üniversitesi Bilgisayar Mühendisliği bölümünde eğitim hayatıma devam etmekteyim.

İlgili Makaleler

3 Yorum

Bir cevap yazın

Başa dön tuşu