ChatGPT’ye kaba yazınca daha iyi yanıt mı veriyor? Araştırma yanıtladı
Yapay zeka ile kurulan iletişimde kibar olmanın her zaman avantaj sağlamadığı ortaya çıktı. Penn State Üniversitesi'nde yapılan yeni bir araştırma, ChatGPT'ye daha sert ve buyurgan bir dille verilen komutların, özellikle test tipi sorularda daha yüksek doğruluk oranları üretebildiğini gösterdi. Ancak uzmanlar, bu yaklaşımın uzun vadede ciddi riskler barındırabileceği konusunda uyarıyor.

Araştırmacılar, ChatGPT'nin 4o modelini 50 çoktan seçmeli sorudan oluşan bir testte denedi. Nezaket düzeyine göre sınıflandırılmış 250'den fazla farklı komut kullanıldı. Sonuçlar dikkat çekiciydi: "Çok kaba" olarak tanımlanan komutlar yüzde 84,8 doğruluk oranına ulaşırken, "çok kibar" komutlar bu oranın yaklaşık dört puan gerisinde kaldı.

Bir başka deyişle, "Lütfen bu soruyu çözer misiniz?" gibi nazik bir ifade yerine, daha sert ve doğrudan bir dil kullanıldığında model daha isabetli yanıtlar verdi.

NEZAKETSİZ DİLİN BEDELİ OLABİLİR
Araştırmacılar, elde edilen sonuçların cazip görünmesine rağmen önemli bir parantez açıyor. Çalışmada, hakaret içeren ya da küçümseyici bir dilin insan–yapay zeka etkileşiminde olumsuz etkiler yaratabileceği vurgulanıyor. Bu tür bir iletişimin kullanıcı deneyimini zedeleyebileceği, erişilebilirlik ve kapsayıcılık açısından sorunlar doğurabileceği ifade ediliyor. Ayrıca bu yaklaşımın zararlı iletişim alışkanlıklarını normalleştirme riski taşıdığına dikkat çekiliyor.

SADECE NE SÖYLEDİĞİNİZ DEĞİL, NASIL SÖYLEDİĞİNİZ DE ÖNEMLİ
Henüz hakem değerlendirmesinden geçmemiş olan çalışma, yapay zekâ sohbet botlarının yalnızca cümle yapısına değil, kullanılan tona da duyarlı olduğunu ortaya koyuyor. Bu bulgu, insan–makine etkileşiminin sanılandan çok daha karmaşık bir yapıya sahip olabileceğini gösteriyor.

Önceki araştırmalar da benzer bir tablo çizmişti. Bazı çalışmalar, yapay zekâ modellerinin insanlara özgü ikna teknikleriyle yönlendirilebildiğini, hatta normalde yasaklı sayılan yanıtlar vermeye itilebildiğini ortaya koymuştu. Başka bir araştırmada ise, düşük kaliteli ve sürekli tekrar eden içeriklerle beslenen modellerde belirgin bir performans düşüşü ve problemli davranış kalıpları gözlemlenmişti.





