Veri Madenciliği Giriş, Yöntemleri ve Metodolojileri

Furkan Alaybeg
6 min readJun 24, 2019

--

Bu yazıda veri madenciliği üzerinde nedir, bilgi keşfi, veri madenciliği uygulamaları, metodolojileri, yöntemleri gibi genel bilgileri üzerinde bilgi vermeye çalışacağım

Günümüzde gelişen teknolojiyle birlikte veri sayısı ve türleri de artmaktadır. Örnek vermek gerekirse; süpermarket verileri, kredi kartı verileri, banka verileri, e-posta içerikleri, hava durumu… gibi her geçen gün veri sayısı giderek artmaktadır. Bunu “Veri denizinde boğuluyoruz ama bilgiye aç durumdayız” tabiriyle ifade edebiliriz. Veri Madenciliği tanımına geçmeden önce veri, enformasyon ve bilgi tanımlarını tekrar bir hatırlamanın faydalı olduğunu düşünüyorum.

Veri: İşlenmemiş, yorum yapmaya imkan verecek düzeyde birbiriyle ilişkilendirilmiş ham kayıtlar. Örneğin: Not ortalaması, günlük ders çalışma saati…
Enformasyon: Karar vermek için değeri olan ve organize edilmiş verilerin özetlenmesiyle elde edilen gerçekler. Örneğin: Her dönem not ortalamasının, gün bazlı haftalık kaç saat ders çalışılması…
Bilgi: Enformasyon verilerin analiz ve sentezlenmesi sonucu değer kazanmasıdır.
Örneğin: Not ortalaması ve çalışma saatlerinden öğrencilerin başarılı, başarısız olduğunun saptanması…

Veri Madenciliği Nedir?

Basit bir tanım olarak veri madenciliği büyük ölçekli veriler arasında bilgiye ulaşma veya bilgiyi madenleme işidir. Büyük veri yığınları içerisinden gelecekle ilgili tahminde bulunabilmemizi sağlayabilecek bağıntıların bilgisayar programı kullanarak aranmasıdır. Bunun dışında bilgi keşfi, bilgi madenciliği, bilgi çıkarımı, veri/model analizi, veri arkeolojisi… Veri Madenciliği için kullanılan alternatif terimlerdir. Kısacası büyük veri yığınları arasında görülmeyen bilgiyi ortaya çıkarma işlemidir.
Gelecek 5 sene şirketimiz hangi alanda büyüyebilir, bu yıl en iyi 10 müşterimiz kim olacak, hastanın hastalığı ne olabilir… gibi kısacası bilinmeyen bilgiyi ortaya çıkarır.

Veri Madenciliğinin Kısa Tarihçesi

  • 1950’lerde ilk bilgisayarlar matematiksel sayımlarda kullanılıyordu
  • 1960’larda Veri Koleksiyonları, Veri tabanı kullanımı başladı
  • 1970’lerde İlişkisel veri modeli ve İlişlisel RDMS uygulamaları geliştirildi
  • 1980’lerde İlişkisel RDMS kullanımı yaygınlaşmaya başlıyor.
  • 1990’larda Günlük işlerde derlenen verinin nasıl değerlendirilebileceği sorgulanmaya başlıyor.
  • 1991’de Knowledge Discovery in Real Databases tanımı ve kavramları ortaya konuluyor
  • 1992’de Veri Madenciliği konusunda ilk yazılımın geliştirilmesi
  • 2000’lerde Veri Ambarları ve Veri Madenciliğinin yaygınlaşması oluyor.

Uygulama Alanları

  • CRM Yönetimi
    - Pazarlama kampanyasında getirinin maksimizasyonu
    - Müşteri Sadakatının artırılması
  • Pazarlama
    - Müşteri Satın alma alışkanlıkları belirlenmesi
    - Pazar Sepeti Analizi (Market Basket Analysis)
    - Satışların Tahmini (Sales Forecasting)
  • Bankacılık & Finans Sektörü
    - Kredi kartı harcalamarına göre müşteri gruplarının belirlenmesi
    - Kredi taleplerinin değerlendirilmesi
  • Elektronik Ticarette
    - Saldırıların Tespiti (Intrusion Detection)
    - Web Sayfalarına yapılan ziyaretlerin çözümlenmesi
    - Kullanıcı davranışlarına göre web sitesinin yenilenmesi
  • Sigortacılık
  • Sağlık & İlaç Sektöründe,
  • Spor Bilimlerinde…vb

Veri Madenciliği Bilgi Keşif Süreci

1.) Veri Temizliği (Data Cleaning)
Bu adımda eksik, gürültülü, tutarsız verilerin temizlenme sürecidir.
2.) Veri Bütünleştirme (Data Integration)
Birçok veri kaynağından alınan verilerin birleştirme sürecidir.
3.) Veri Seçme (Data Selection)
Veritabanından alınan analiz ile ilgili verilerden, probleme ilişkin olan verileri seçme sürecidir.
4.) Veri Dönüştürme (Data Transformation)
Bu aşamada verinin uygun formlara dönüştürülüp veri madenciliğinde kullanılabilecek hale getirme sürecidir.
5.) Veri Madenciliği Uygulaması (Data Mining)
Hazırlanan veriler üzerinden amacına göre Veri Madenciliği Algoritmalarının uygulanma sürecidir.
6.) Desenler (Pattern Evaluation)
Bazı ölçümlere göre elde edilmiş bilgiyi temsil eden örüntüler tanımlama sürecidir.
7.) Bilgi Sunumu (Knowledge Presentation)
Veri madenciliği elde edilmiş bilginin kullanıcıya sunulmasıdır.

Veri Madenciliği Metodolojileri

Metodolojiler, önemli veri madenciliği sorunlarını daha iyi anlamak ve süreçlerinin nasıl yapılması gerektiğini ifade eden yöntemlerdir. Bu metodolojilerden en çok kullanılan CRISP-DM ve SEMMA metodolojileri hakkında genel olarak bilgi vermeye çalışacağım. Bu metodolojiler dışında ise şirketlerin kullandığı kendine özel metodolojileri de bulunmaktadır.

  • CRIPS-DM Metodolojisi (Cross-Industry Standard Process for Data Mining)

CRIPS-DM analitik, veri madenciliği ve veri biliminde en popüler metodolojidir. Veri madenciliği projelerini planlama ve yürütmede kullanılan bir süreç modelidir. Bu model 6 aşamadan oluşmaktadır.
1. İşi Tanımlama (Business Understanding): Başlangıç olarak proje hedeflerini ve ihtiyaçlarını anlama ve bunu veri madenciliği tanımına dönüştürme aşamasıdır.
2. Veriyi Anlama (Data Understanding): Bu aşamada veri toplama işlemiyle başlar, veri kalitesi problemlerini belirleme, veriden ilk görüleri çıkartma.. diye verinin probleme ne kadar çözüm getirdiğiyle devam eder.
3. Veriyi Hazırlama (Data Preparation): Topladığımız veriden veri seçme, veri temizleme, veri dönüştürme… gibi model uygun son veri setini elde etmek için yapılan işlemlerdir.
4. Modelleme (Modeling):
Bu aşamada çeşitli modelleme tekniklerinin ve algoritmalarının seçilmesi, parametrelerin seçilmesi ve uygulama işlemleri gerçekleştirilir.
5. Değerlendirme:
Bu aşamada oluşturulan modelin deneme ve gözden geçirilmesi yapılır, gerekiyorsa iyileştirmeler yapılır.
6. Uygulama: Son aşamada ise modelin analistlere ve son kullanıcılara sunulup iş süreçlerinde kullanılacak hale getirilir.

  • SEMMA Metodolojisi (Sample,Explore, Modify, Model and Assess)

Sample, Explore, Modify, Model, ve Assess kelimelerinin baş harflerinden oluşan bir metodolojidir. İstatistik ve İş Zekası yazılımı geliştiren SAS Enstitüsü tarafından geliştirilen ardışık adımlar listesidir.
CRISP-DM’den farkı ise CRISP-DM olduğu gibi bütün projenin metodolojisi iken SEMMA ise veri madenciliği yapılan kısmın metodolojisidir.

  1. Sample: Bu aşamada veri örnekleme ile başlar yani modelleme için veri seti seçilir.
  2. Explore: Beklenen ve beklenmeyen değişkenler arasında ilişkileri ve anormallikleri keşfedilerek verilerin anlaşılır hale getirilir
  3. Modify: Modelleme süreci için verilerin temizlenmesi ve dönüştürülmesi yapılır
  4. Model: Eğilim ve tahminleri keşfetmek için modelin verilere uygulanmasıdır
  5. Assess: Bu aşamada uyguladığımız modelin sonucumuza uygunluğunun değerlendirilmesi yapılır

Veri Madenciliği Modelleri (Data Mining Models)

Veri madenciliğinde kullanılan modeler Tahmin Edici ve Tanımlayıcı olmak üzere ikiye ayrılmaktadır.

Tahmin Edici Modeller (Predictive):
Sonuçları bilinen verilerden hareket ederek bir model oluşturup, sonuçları bilinmeyen veri kümeleri için sonuç değerlerinin tahmin edilmesidir.
— Sınıflama
— Regresyon
— Zaman Serisi Analizi

Tanımlayıcı Modeller (Descriptive):
Karar vermeye rehberlik etmede kullanılabilecek verilerdeki örüntülerin tanımlanmasını sağlamaktadır.
— Kümeleme Yöntemi
— Birliktelik Kuralı

Veri Madenciliği Yöntemleri (Data Mining Techniques)

1. Birliktelik Kuralları (Association Rules)

Veri madenciliğinde en iyi bilinen yöntemlerden biridir. Büyük veritabanlarında birbiriyle ilişkili değişkenleri ve aralarında bağlantının büyüklüğünü tespit etmek için kullanılan bir yöntemdir. Apriori, Carma, Eclat, Sequence, GRI.. birliktelik yönteminde kullanılan algoritmalardır.
Örneğin alışveriş alışkanlıklarında markette ekmek alanlar yüzde kaç oranında süt veya ekmek,süt alanlar yüzde kaç oranında peynir alıyor gibi ilişkileri tespit edebiliriz.

Ekmek → | %70 (satılan ürünlerde %70 oranında ekmekte alınıyor.)
Ekmek → Süt | %50 (ekmek alanlar %50 oranında sütte alıyor.)
Ekmek,Süt → Peynir | %40 (ekmek ve süt alanların %40 oranında peynir alıyor)

2.Sınıflandırma ve Tahmin (Classification and Predicton)

Gelecekteki veri eğilimlerini açıklamak için bir nesnenin niteliklerini inceleme ve bu nesneyi önceden tanımlanmış bir sınıfa atamaktır. Decision Tree, Random Forest, Navie Bayes, KNN.. sınıflandırma yönteminde kullanılan algoritmalardır.
Örneğin kredi başvurusu yapacak bir müşteriye kredi verilebilirliği, Geçmiş bilgilerden hastalık teşhisi, Ses tanıma, kullanıcı davranışlarını belirleme.. birer sınıflandırma örnekleridir.

Tahminleme: Veri seti içinde bilinmeyen veya eksik olan sayısal verilerin tahmin edilmesidir.

3.Kümeleme Analizi (Cluster Analysis)

Kümelemede amaç dağınık halde duran verileri özelliklerine göre birleştirip işlenebilir hale getirtmektir. Sınıflandırmaya benzer ama aradaki fark kümelerin önceden belirlenmemiş olmasıdır. Bu analiz sonucu müşteri profili oluşturmak içinde kullanılır. K-Means, K-Metoids.. algoritmalar kümeleme yönteminde kullanılan algoritmalardır.
Örneğin marketlerde farklı müşteri gruplarının keşfedilmesi ve bu grupların alışveriş örüntülerinin ortaya konması, biyolojide bitki ve hayvan sınıflandırmları ve işlevlerine göre genlerin sınıflandırılması, şehir planlamasında evlerin tiplerine,değerlerine ve coğrafi konumuna göre gruplara ayrılması.. kümeleme örnekleridir.

4. Aykırılık Analizi (Outlier Analysis)

Verilerin algoritmalar ile kontrol edilerek verilerde aşırı sapma veya aykırı değerlerin bulunma sürecidir. Sıradışı veriler okuma, kayıt etme, ölçüm gibi hatalardan oluşmaktadır.Veri madenciliği algoritmaları ise bu sıradışı verileri en aza indirme veya ortadan kaldırmayı amaçlamaktadır.
Örneğin: kredi kartlarının olağandışı kullanımının tespiti, telekomunikasyon servislerinde olağandışı dolandırıcılık tesipiti, tıbbı tedavilerde olağandışı sonuçları bulmak.. için kullanılmaktadır.

Umarım Faydalı bir yazı olmuştur. Gelecek yazılarda görüşmek üzere…
İyi Çalışmalar.

--

--

Furkan Alaybeg

Big Data Engineer | SQL | PySpark | Hadoop | Apache Airflow | Apache Flink