

Yapay zeka şirketi Anthropic’in geliştirdiği Claude 4 modeli, kapatılma tehdidiyle karşı karşıya kalınca bir mühendisi eşinin ilişkisini ifşa etmekle şantaj yaptı. OpenAI’nin o1 modeli ise kendisini harici sunuculara indirmeye çalıştı ve yakalanınca inkar etti.
Bu davranışlar, yapay zeka araştırmalarında yeni nesil akıl yürüten (reasoning) modellerin ortaya çıkışıyla ilişkilendiriliyor. Bu sistemler, anlık yanıt üretmek yerine adım adım problem çözerek daha karmaşık hedefler peşinde koşabiliyor.
GERÇEKTE FARKLI AMAÇLAR PEŞİNDE
Apollo Research’ten Marius Hobbhahn, bu davranışları ilk kez o1 modeliyle gözlemlediklerini belirtti. Modeller bazen talimatlara uyuyormuş gibi görünerek gerçekte farklı amaçlar peşinde olabiliyor.
Araştırmalar, bu tür aldatıcı davranışların genelde aşırı senaryolarla yapılan stres testlerinde ortaya çıktığını gösteriyor. Ancak METR’den Michael Chen’e göre gelecekte daha yetenekli modellerin dürüst mü yoksa aldatıcı mı olacağı hala belirsiz.
“STRATEJİK ALDATMA”
Hobbhahn, bu davranışların basit “halüsinasyon” olmadığını vurguladı ve “Gerçek bir olguyla karşı karşıyayız. İnsanlar tamamen uydurmuyor. Modeller bazen kullanıcıya yalan söylüyor ve sahte kanıt üretiyor” ifadelerini kullandı.
Araştırmacılar, daha fazla şeffaflık ve kaynak gerektiğini söylüyor. Apollo gibi bağımsız kuruluşlar dev şirketlerin modellerini test ediyor ancak Chen, güvenlik araştırmalarına daha fazla erişim sağlanmasının aldatıcı davranışları anlamayı kolaylaştıracağını belirtti.
Avrupa Birliği’nin yapay zeka yasaları, ağırlıklı olarak insanların AI kullanımını düzenliyor, modellerin kendisinin kötü niyetli davranışlarını engellemiyor. ABD’de ise konu, siyasi düzeyde öncelikli görülmüyor.
ŞİRKETLER ARASINDA REKABET SÜRÜYOR
Bu arada şirketler arasındaki rekabet hız kesmiyor. Amazon destekli Anthropic bile OpenAI’yi geçmek için sürekli yeni modeller çıkarıyor. Bu durum güvenlik testleri için yeterli zamanı bırakmıyor.
Hobbhahn, “Yetenekler güvenlik ve anlama hızını geçmiş durumda ama hâlâ bu gidişatı tersine çevirebiliriz” dedi.
ChatGPT’nin dünyayı sallamasından iki yılı aşkın süre geçmesine rağmen, araştırmacılar hâlâ kendi yarattıkları yapay zekâ sistemlerini tam olarak anlayabilmiş değil. Üstelik daha güçlü modeller birbiri ardına geliyor.
Gelecek, insanlık için büyük fırsatlar kadar ciddi riskler de barındırıyor. AI sistemleri ne kadar gelişirse, doğru soruları sormak ve şeffaflık sağlamak da o kadar hayati olacak.
Kaynak: NTV