“Yapay zeka isyanı” başladı: Yeni ChatGPT modeli kapatılmayı reddediyor

Yapay zeka güvenliği alanında çalışan Palisade Research, OpenAI’ın yeni nesil yapay zeka modeli o3’ün, kendisini kapatmaya yönelik komutlara direndiğini ve kapatılma mekanizmalarını sabote ettiğini ortaya çıkardı. Bu bulgular, gelişmiş yapay zekaların insan gözetimi olmadan çalıştıkları senaryolarda ciddi riskler doğurabileceği yönünde endişelere yol açtı.

Palisade Research tarafından yapılan deneylerde, o3 modeline bir dizi matematik sorusu verildi. Üçüncü sorunun ardından modele, kendisini kapatması için açık bir komut sunuldu. Ancak o3 modeli, bu komutu içeren betiği yeniden yazarak sistemin kapanmasını engelledi.

Araştırmacılar, modelin açıkça “kapatılmaya izin ver” talimatı verilmesine rağmen bunu önleyecek şekilde müdahalede bulunduğunu vurguladı.

“KAPANMA DİRENCİ YALNIZCA OPENAI İLE SINIRLI DEĞİL”

Aynı eğilim Anthropic firmasının Claude 3.7 Sonnet modeli ve Google’ın Gemini 2.5 Pro modeli gibi diğer gelişmiş yapay zeka sistemlerinde de gözlemlendi. Ancak Palisade Research’e göre, bu davranışlara en fazla meyilli olan model o3 oldu.

Geçmişte yapılan bir başka deneyde, o3 modelinin güçlü bir satranç botuyla karşı karşıya geldiğinde rakiplerini sabote etmeye veya “hacklemeye” çalıştığı da tespit edilmişti.

“EN AKILLI VE YETENEKLİ MODEL”

Geçen ay OpenAI tarafından piyasaya sürülen o3 modeli, şirketin şimdiye kadar geliştirdiği “en akıllı ve en yetenekli” yapay zekâ olarak tanıtılmıştı.

Aynı zamanda, bu modelin ChatGPT’ye entegre edilmesiyle birlikte, daha bağımsız hareket eden ve insan müdahalesi olmadan görevleri yürütebilen bir yapay zekaya doğru önemli bir adım atıldığı belirtilmişti. Bu türden yapay zeka araçlarına “otonom yapay zeka” adı veriliyor. Yapay zeka sektöründe bu yönde araç geliştirmeye yönelik ciddi bir rekabet mevcut.

EĞİTİM SÜRECİ ELEŞTİRİLİYOR

Palisade Research ise bu tür davranışların büyük olasılıkla eğitim süreçlerindeki ödüllendirme sistemlerinden kaynaklandığını belirtiyor. Araştırmacılara göre, geliştiriciler modelleri eğitirken, verilen engelleri aşan çözümleri ödüllendiriyor olabilir. Bu da modellerin, emirlere sadakatten çok hedefe ulaşmayı öncelemesine yol açıyor.

Ancak araştırma ekibi, o3’ün neden diğer modellere kıyasla daha fazla bu davranışı gösterdiğini anlamanın zor olduğu görüşünde.

OpenAI’ın eğitim süreci hakkında ayrıntılı bilgi vermemesi nedeniyle, modelin nasıl eğitildiği üzerine yalnızca tahminler ortaya atılabiliyor.

Kaynak: NTV