Yapay zeka endişelendirmeye devam ediyor: Yaratıcısını tehdit etti

Yapay zeka şirketi Anthropic’in geliştirdiği Claude 4 modeli, kapatılma tehdidiyle karşı karşıya kalınca bir mühendisi eşinin ilişkisini ifşa etmekle şantaj yaptı. OpenAI’nin o1 modeli ise kendisini harici sunuculara indirmeye çalıştı ve yakalanınca inkar etti.

Bu davranışlar, araştırmalarında yeni nesil akıl yürüten (reasoning) modellerin ortaya çıkışıyla ilişkilendiriliyor. Bu sistemler, anlık yanıt üretmek yerine adım adım problem çözerek daha karmaşık hedefler peşinde koşabiliyor.

GERÇEKTE FARKLI AMAÇLAR PEŞİNDE

Apollo Research’ten Marius Hobbhahn, bu davranışları ilk kez o1 modeliyle gözlemlediklerini belirtti. Modeller bazen talimatlara uyuyormuş gibi görünerek gerçekte farklı amaçlar peşinde olabiliyor.

Araştırmalar, bu tür aldatıcı davranışların genelde aşırı senaryolarla yapılan stres testlerinde ortaya çıktığını gösteriyor. Ancak METR’den Michael Chen’e göre gelecekte daha yetenekli modellerin dürüst mü yoksa aldatıcı mı olacağı hala belirsiz.

“STRATEJİK ALDATMA”

Hobbhahn, bu davranışların basit “halüsinasyon” olmadığını vurguladı ve “Gerçek bir olguyla karşı karşıyayız. İnsanlar tamamen uydurmuyor. Modeller bazen kullanıcıya yalan söylüyor ve sahte kanıt üretiyor” ifadelerini kullandı.

Araştırmacılar, daha fazla şeffaflık ve kaynak gerektiğini söylüyor. Apollo gibi bağımsız kuruluşlar dev şirketlerin modellerini test ediyor ancak Chen, güvenlik araştırmalarına daha fazla erişim sağlanmasının aldatıcı davranışları anlamayı kolaylaştıracağını belirtti.

Avrupa Birliği’nin yapay zeka yasaları, ağırlıklı olarak insanların AI kullanımını düzenliyor, modellerin kendisinin kötü niyetli davranışlarını engellemiyor. ABD’de ise konu, siyasi düzeyde öncelikli görülmüyor.

ŞİRKETLER ARASINDA REKABET SÜRÜYOR

Bu arada şirketler arasındaki rekabet hız kesmiyor. Amazon destekli Anthropic bile OpenAI’yi geçmek için sürekli yeni modeller çıkarıyor. Bu durum güvenlik testleri için yeterli zamanı bırakmıyor.

Hobbhahn, “Yetenekler güvenlik ve anlama hızını geçmiş durumda ama hâlâ bu gidişatı tersine çevirebiliriz” dedi.
ChatGPT’nin dünyayı sallamasından iki yılı aşkın süre geçmesine rağmen, araştırmacılar hâlâ kendi yarattıkları yapay zekâ sistemlerini tam olarak anlayabilmiş değil. Üstelik daha güçlü modeller birbiri ardına geliyor.

Gelecek, insanlık için büyük fırsatlar kadar ciddi riskler de barındırıyor. AI sistemleri ne kadar gelişirse, doğru soruları sormak ve şeffaflık sağlamak da o kadar hayati olacak.

Kaynak: NTV

Related Posts

Gazze’de katliam sürüyor
  • Kasım 2, 2025

Gazze‘deki Sağlık Bakanlığı’ndan yapılan yazılı açıklamada, İsrail’in saldırılarında yaşanan can kayıpları ve yaralanmalar ile enkazdan çıkartılan cenazelere ilişkin son veriler paylaşıldı. Son 24 saatte Gazze Şeridi’ndeki hastanelere, enkazdan çıkarılan 3…

Okumaya Devam Et
İran’da kısırlık alarmı: Çiftlerin sadece 10 yılı kaldı
  • Kasım 2, 2025

İran‘da yaklaşık 3 milyon evli çiftin kısır olduğu belirtildi. İran’daki İbn Sina Araştırma Enstitüsü Üreme İmmünolojisi Bölüm Başkanı Dr. Emir Hasan Zernani, Tahran’daki Cihat Üniversitesi tarafından düzenlenen “Zor Tedavi Edilen…

Okumaya Devam Et

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir