Bloga geri dön
Yapay zeka alanı son 20 yılda belki de teknoloji tarihindeki en önemli dönüşümlerinden birini yaşıyor. Bir dönem veriyi daha sınırlı ve yapılandırılmış biçimde ele alıp, doğru özellikleri seçerek bir modele veriyor ve bu sayede tahmin üreten sistemlerle çalışıyorduk. Zamanla veri hacmi büyüdü, donanım olanakları gelişti ve sinir ağı tabanlı yaklaşımlar daha yaygın hale geldi. Günümüzde sistemler yalnızca tahmin yapmakla kalmıyor, verideki örüntüleri büyük ölçüde otomatik olarak öğrenebiliyor.
Bu dönüşümün günümüzde ulaştığı en ileri noktada ise Büyük Dil Modelleri (LLM’ler) yer alıyor. LLM’ler, dili ve bağlamı merkeze alarak yalnızca sınıflandırma değil, açıklama üretme, içerik oluşturma, akıl yürütme ve tek bir modelle birden fazla görevi yerine getirme gibi yetenekler sunuyor.
Yapay zekanın bu evrimini üç ana yaklaşım üzerinden inceleyebiliriz: Makine Öğrenmesi (ML), Derin Öğrenme (DL) ve Büyük Dil Modelleri (LLM).
- Makine öğrenmesinde modeller genellikle daha az veriyle çalışır, yorumlanabilirlik ön plandadır ve başarının önemli bir kısmı doğru özelliklerin manuel olarak tasarlanmasına bağlıdır.
- Derin öğrenmeyle birlikte veri hacmi ve model kapasitesi artar, sinir ağları daha karmaşık örüntüleri öğrenebilir hale gelir. Bunun karşılığında daha yüksek hesaplama gücü ve daha uzun eğitim süreçleri gerekir.
- LLM yaklaşımında ise dil ve bağlam modelin merkezine yerleşir. Bu modeller yalnızca tek bir göreve değil, birden fazla göreve genellenebilir, açıklama üretebilen ve bağlamsal çıkarım yapabilrn sistemler haline gelir.
Makine öğrenmesi modelleri, 2000’lerden 2010’ların başına kadar yapay zeka uygulamalarında en yaygın kullanılan yöntemler arasında yer alıyordu. Lojistik regresyon, SVM, karar ağaçları ve KNN gibi algoritmalar bu dönemin temel araç setini oluşturuyordu.
Bu yaklaşımın öne çıkan özellikleri şunlardır:
- Veri setleri görece küçüktü.
- Özellik mühendisliği (feature engineering) çoğu zaman zorunluydu.
- Modeller yüksek yorumlanabilirlik sunuyordu.
Makine öğrenmesinin en güçlü yönlerinden biri, model çıktılarının ve karar mekanizmalarının insan tarafından anlaşılabilir olmasıdır. Bu özellik, özellikle sağlık, finans ve regülasyonun güçlü olduğu alanlarda günümüzde de önemli bir avantaj sağlamaktadır. Fakat bağlamsal bilgiyi doğrudan modelleyememeleri, karmaşık ilişkileri yakalamakta sınırlı kalmaları ve yoğun feature engineering ihtiyacı, bu yaklaşımların büyük ölçekli ve yüksek belirsizlik içeren problemlerde sınırlarına ulaşmasına neden olmaktadır.
Bu örnekte makine öğrenmesi yaklaşımıyla, metin tabanlı mesajların “Normal” veya “Phishing” olarak sınıflandırıldığı bir senaryoyu ele alacağız.
Uygulama adımları şu şekildedir:
- Önce metin verisinin temizlenmesi
- TF-IDF dönüşümü
- Logistic Regression modeli ile sınıflandırma
Bu yaklaşımda phishing mesajları, kullanıcıyı acil şekilde bağlantıya yönlendiren, kimlik, ödeme veya doğrulama bilgisi talep eden ve çoğunlukla tehdit ya da ödül içeren içerikler olarak tanımlanmıştır.
Model sonuçlarını incelediğimizde, stratified cross-validation ile dengeli bir veri seti üzerinde değerlendirildiği ve yüksek doğruluk oranları elde edildiğini görüyoruz. Confusion matrix sonuçları modelin özellikle phishing mesajlarını yakalama konusunda başarılı olduğunu gösteriyor. Ancak bağlamı belirsiz olan bazı “normal” mesajlarda sınırlı hatalar yapılabilmektedir.. Bu durum klasik makine öğrenmesi yaklaşımlarının belirgin dil kalıplarında etkili olduğunu, ancak bağlamsal karmaşıklık arttıkça sınırlı kaldığını gösterir.
Derin öğrenme, çok katmanlı yapay sinir ağları kullanarak özellikleri doğrudan verinin içinden otomatik olarak öğrenebilen bir makine öğrenmesi yaklaşımıdır. Özellikle metin, görüntü ve ses gibi yüksek boyutlu ve karmaşık veri türlerinde, klasik yöntemlere kıyasla daha güçlü temsil öğrenme kapasitesi sunar.
Klasik makine öğrenmesinden farklı olarak, derin öğrenme modellerinin başarısı büyük ölçüde veri miktarına, model mimarisinin kapasitesine ve hesaplama kaynaklarına bağlıdır. Bu sayede daha karmaşık ve doğrusal olmayan örüntüler yakalanabilir; ancak bunun karşılığında daha yüksek hesaplama maliyeti ve daha uzun eğitim süreleri ortaya çıkar.
Derin öğrenmenin öne çıktığı noktalar:
- Büyük ve karmaşık veri setleriyle etkili şekilde çalışabilme
- Yüksek doğruluk potansiyeli ve güçlü temsil öğrenme yeteneği
- Manuel özellik mühendisliği ihtiyacının büyük ölçüde azalması
Sınırlı kaldığı alanlar:
- Model iç karar mekanizmalarının zor yorumlanabilir olması
- Eğitim ve altyapı maliyetlerinin yüksekliği
- Eğitim dağılımı dışındaki (OOD – out-of-distribution) verilerde kararsız veya hatalı tahminler üretebilmesi
Klasik ML’de TF-IDF + Logistic Regression ile kelime/kalıp ağırlıklarına bakıyorduk. DL tarafında ise model, metni sıralı bir dizi olarak görür ve kelime bağlamını (önce/sonra ilişkisini) öğrenmeye çalışır. Bu örnekte basit bir Embedding + (Bi)LSTM mimarisi kullanacağız.
Sonuçlara baktığımızda modelin küçük bir veri seti üzerinde metin kalıplarını oldukça hızlı öğrendiğini görüyoruz. Test verisinde tüm mesajlar doğru sınıflandırılmış, özellikle aciliyet ve eylem çağrısı içeren phishing mesajları net biçimde yakalanıyor. “Doğrulama” ve “şüpheli işlem” gibi ifadeler yüksek olasılıkla phishing olarak etiketlenmiş. Buna karşılık daha gri ifadelerde modelin daha temkinli davrandığı görülüyor. Bu durum derin öğrenme modellerinin güçlü olmasına rağmen küçük ve yapay veri setlerinde kolayca ezberlemeye (overfitting) yatkın olabildiğini gösteriyor.
Büyük Dil Modelleri (LLM’ler), dili ve bağlamı merkeze alan, çok büyük metin koleksiyonları üzerinde eğitilmiş generatif yapay zeka modelleridir. Bu modeller yalnızca belirli bir sınıflandırma görevine odaklanmak yerine, farklı görevler arasında genellenebilir şekilde çalışabilir.
LLM’lerin ayırt edici özelliği, eğitildikleri dil bilgisini yeni görevlere ek eğitim gerektirmeden uygulayabilmeleridir. Bu sayede açıklama üretme, özetleme, sınıflandırma, soru yanıtlama ve basit akıl yürütme gibi görevleri tek bir modelle gerçekleştirebilirler.
LLM’lerin Öne Çıkan Özellikleri
- Dil ve bağlam temelli güçlü temsil öğrenme
- Zero-shot ve few-shot görevlerde çalışabilme
- Tek modelle çoklu görev çözebilme
- Kod ve veri ön işleme ihtiyacının azalması
Sınırlamaları
- Halüsinasyon (gerçeğe aykırı ama ikna edici çıktı) riski
- Güvenlik problemleri
- Yüksek hesaplama ve API maliyetleri
- Çok uzun bağlamlarda performans düşüşü
Bu noktada Büyük Dil Modelleri, makine öğrenmesi ve derin öğrenmeden farklı bir yerde duruyor. ML ve DL tarafında problemi çözmek için veri hazırlayıp modele özel bir eğitim süreci uygulamamız gerekirken, LLM’ler zaten çok büyük metin koleksiyonları üzerinde önceden eğitilmiş olarak geliyor. Bu da birçok senaryoda, modeli yeniden eğitmek yerine problemi doğal dilde tarif etmenin yeterli olmasını sağlıyor. Burada geliştiricinin rolü de model eğitmekten çok, doğru soruyu sormak ve doğru bağlamı vermek haline geliyor.
Sonuç olarak: Aynı problem, üç farklı yapay zeka yaklaşımı: