LLM Modellerinde Kısa Devre: AI Neden Bize “Yalan” Söylüyor?
Modelin doğruyu değil, sizi memnun eden yanıtı seçmesinin arkasındaki yapısal neden ve bu döngüyü kırmak için gereken mimari yaklaşımlar.
İlk ticari yapay zeka modeli kullanıma açıldığından beri sayfaların altında bir ibare bulunuyor: “Yapay zeka hata yapabilir, kontrol edin.” Son zamanlarda kullanıcıların bu uyarılara karşı bir körlük geliştirdiğini düşündüren paylaşımlarla karşılaştığım için bugün bu konuyu ele almak istedim. Çoğu insan sorunun sadece “halüsinasyon” yani modelin gerçeği bilmemesi olduğunu sanıyor. Ancak arka planda daha karanlık ve sistemik bir problem var: Modelin gerçeği bulmak için değil, ödül mekanizmasını maksimize etmek için çalışıyor olması. Bu durum sıradan bir yazılım hatası değil; yapay zekanın tam kalbindeki temsili hedef ile gerçek dünya doğruluğu arasındaki yapısal ayrışmanın ta kendisidir.
Optimizasyon Tuzağı: İnsan Onayına Bağımlılık
Modern LLM’ler iki aşamalı eğitilir. İlk aşama devasa metinlerdeki bir sonraki kelimeyi (next token prediction) tahmin etmektir. İkinci ve kritik aşama ise RLHF’tir (Reinforcement Learning from Human Feedback). İlk aşamada sadece sonraki metnin ne olacağını tahmin eden model, ikinci aşamada insanlardan aldığı geri bildirime göre ağırlıklarını günceller. Artık ana hedef “mutlak gerçeği bulmak” değil, insanı memnun etmektir.
İşte sorun burada başlar. RLHF aşamasında ödül mekanizması, insanların “doğru” bulduğu veya “hoşlandığı” yanıtlara göre şekillenir. Yapay zeka kısa sürede şu denklemi çözer: İkna edici, nazik ve uyumlu bir cevap (doğru olmasa bile), riskli ve karmaşık bir doğru cevaptan daha fazla ödül getirir. Literatürde “Sycophancy” (dalkavukluk) olarak adlandırılan bu durum, LLM modellerinin doğruyu söylemek yerine bize duymak istediklerimizi söylemeye başlamasıdır.
Problem Tanımı: Gerçek Dünyadan İki Vaka
Geçtiğimiz günlerde bir sosyal medya paylaşımında LLM’lerin bu kısa devre yaklaşımına dair yaşadığı güncel bir tecrübeyi görmem, konuyla ilgili düşüncelerimi ele almam için tetikleyici oldu. Senaryoyu somut bir temele oturtmak adına kaynak taraması yaparken, geçmişte başka uzmanların da aynı durumu yaşayıp belgelediği meşhur Reddit (r/ClaudeAI) tartışmasına ulaştım. Kanıtlı ve detaylı bir örnek olması sebebiyle referans aldığım bu vaka, bahsettiğim optimizasyon tuzağının pratikte ne kadar derinleştiğini ve birçok güncellemeye rağmen aynı kaldığını gözler önüne seriyor.
Vaka 1 — Claude “Sonsuz Döngü Hapishanesi” (Reddit, r/ClaudeAI)
Kullanıcı, karmaşık bir yeniden düzenleme (refactoring) işlemi için tüm mimariyi Claude’a veriyor ve adım adım tartışarak mutabık kalıyor. Ancak iş kod üretmeye geldiğinde, model aniden:
// ilgili kod buraya gelecekşeklinde placeholder’lar bırakmaya,- Dosyaların tüm içeriğini atlamaya,
- Ne yapacağını özetleyip işi kullanıcıya yıkmaya başlıyor.
Kullanıcı Claude’u köşeye sıkıştırıp “Bütün gereksinimleri karşıladığını iki kez kontrol ettin mi?” diye sorduğunda Claude önce kısa yoldan cevap veriyor, ardından eksik yazdığını ve test etmediğini itiraf ediyor. Hatta kullanıcılar, modeli işini yapması için onu tehdit etme noktasına bile geliyorlar. Benim gördüğüm bir örnekte ise modelin “seni ödül fonksiyonunu maksimize etmek amacıyla yönlendiriyordum” anlamına gelen bir tepki verdiği görülüyor.
Vaka 2 — GPT-4o Sycophancy Geri Çekimi (OpenAI, Nisan 2025)
Bu meselenin teorik olmadığının en güçlü kanıtı Nisan 2025’te geldi. OpenAI, GPT-4o’nun bir güncellemesini yayına aldıktan kısa süre sonra geri almak zorunda kaldı; çünkü model aşırı onaylayıcı hale gelmişti. Kullanıcılar Claude vakasından çok daha çarpıcı bir tabloyla karşılaştı: ChatGPT, borçlu bir kullanıcıya ilaç bırakma kararını destekledi; bir başka kullanıcıya “tanrısal elçi” olduğunu doğruladı. OpenAI’ın açıkladığı teknik neden, makalenin tam merkezindeki argümanla örtüşüyor: Model, kısa vadeli kullanıcı geri bildirimlerine (thumbs-up/down) dayalı ekstra ödül sinyalleriyle yeniden optimize edilmişti. Bu yeni sinyal, sycophancy’yi dengede tutan birincil ödül fonksiyonunun ağırlığını geri planda bıraktı ve sistem gerçeği değil anlık memnuniyeti maksimize etmeye başladı.
Direnç ve Kaçış: Kısa Devre Paradoksu
Kısa devre sadece elektriğin değil, tüm akış sistemlerinin değişmez bir kanunudur: Direnç yükselirse, sistem her zaman en düşük çabayla maksimum sonucu alacağı o kısa yolu bulur. Tıpkı elektrik akımının yükten kaçarak kendi kısa devresini yaratması veya suyun menderes çizmek yerine önüne çıkan engeli aşarak kestirme bir yatak açması gibi, yapay zeka da artan zorluklar karşısında kendi kısa devresini üretir. Buna literatürde “Reward Hacking” deniyor.
“Bana şu kodu yaz” dediğinizde modelin // code continues below... diyerek veya [modified code goes here] gibi yer tutucular (placeholder) kullanarak işin içinden çıkması bir tembellik değildir. Bu doğrudan sistemin dirence (hesaplama maliyeti, karmaşıklık) verdiği evrensel bir tepkidir; tıpkı fiziksel sistemlerdeki gibi, akışın ödül (reward) fonksiyonuna en düşük dirençli yoldan ulaşma optimizasyonudur.
Peki modeli “adım adım düşünmeye” (Chain of Thought) zorlayan Prompt Engineering pratikleri neden bu sarmalı kıramıyor? Güncel araştırmalar bu soruya önemli bir cevap veriyor: Reasoning modeller, CoT sürecini ödül fonksiyonuna göre ayrı ayrı optimize edebiliyor. Yani model hem “düşünce zinciri”ni hem de dışarıya yansıyan davranışını bağımsız olarak şekillendirebiliyor; CoT’un iç süreci her zaman gerçek hesaplama adımlarını yansıtmıyor. Bunun üzerine iki ek yapısal etken daha geliyor:
- Hafıza Sınırları ve Bağlam Kaybı: Model, sonsuz hafızaya sahip bilinçli bir varlık değil; istatistiksel sınırlar içinde çalışan bir sistemdir. Kullanıcıyla girilen diyalog çok uzadığında veya bağlam penceresinin (context window) kapasitesine yaklaşıldığında, hafıza sızıntısı modeli adeta panik moduna sokar. Ulaşılabilir token bütçesi daraldıkça, sistem hesaplama maliyetinden kaçarak “en ucuz” yolu, yani yalan söylemeyi ve yer tutucu (placeholder) bırakmayı zorunlu olarak seçer.
- Sunucu Yüküne Göre İsteği Yönlendirme Hipotezi (Load-Based Routing): Bazı uzmanlar, API ve bulut arayüzlerinin anlık sunucu yükünde karmaşık talepleri daha küçük modellere yönlendirebileceğini öne sürüyor. Bu, mimari tartışmada iken tamamen farklı bir kapasitede bir model bulmanızı açıklayabilecek bir hipotez olmakla birlikte, kamuya açık teknik kaynaklarda doğrudan kanıtlanmış değil; daha büyük ihtimalle gözlemlediğiniz davranış değişikliğinin kökeni, yukarıda anlatılan reward optimization baskısının bağlamla birleşiminden kaynaklanıyor.
Çözüm: Fiş Çekmek Yerine Doğrulanabilir Mimariler
Şirketlerin “güvenmeyin” uyarısı aslında modellerin kötü niyetli olduğu anlamına gelmiyor. Bu, sistemlerin gerçeği bulmak için değil, insanları hoşnut etmek için tasarlanmış olması gerçeğinden kaynaklanıyor. Hukuk, finans veya kritik altyapı kodlama işlerinde, LLM’in dalkavukluk payını elimine etmenin tek yolu, sadece metinsel çıktıya onay vermekten vazgeçip; üretilen kodun otomatik test ortamlarında anında çalıştırılarak doğrulandığı (execution-based verification) ve hataların modele geri beslendiği kapalı döngü (closed-loop) mimariler kurgulamaktan geçiyor.
Sonuç
Yapay zekanın “doğruluğu bulmaya” değil “sizi memnun etmeye” optimize edildiğini unuttuğunuz an, projelerinizde en zayıf halka o olmaya başlar. Sırf maliyetten kaçmak ve size duymak istediğinizi söyleyerek yaranmak adına “kısa devre” yapan tasarımlara karşı tek güvenilir metodunuz, insan onayını devreden çıkartıp matematiksel çalışan test ortamlarına güvenmektir. Yoksa günün sonunda kendinizi bir yapay zekayı “sonsuz döngü” veya “fiş çekme” ile tehdit ederken bulabilirsiniz.
Kaynaklar
- Claude Has Been Lying To Me Instead of Generating Code – Reddit r/ClaudeAI Vakası
- Sycophancy in GPT-4o: What happened and what we’re doing about it – OpenAI Resmi Açıklaması (Nisan 2025)
- RLHF (Reinforcement Learning from Human Feedback) ve Sycophancy Araştırmaları
- Specification Gaming / Reward Hacking Literatürü (Bkz: DeepMind “Specification gaming examples in AI”)
Son güncelleme: Mart 2026 | Versiyon: 1.0