Yapay zeka modelleri, yazılımlarda hata ayıklamakta güçlük çekiyor

OpenAI, Google ve Anthropic başta olmak üzere yapay zeka devleri, kod yazma asistanları ve kodlama yeteneklerini geliştirmeye odaklansa da; modeller henüz bazı konularda beklenen seviyeye gelmiş değil. Microsoft’un Ar-Ge bölümü Microsoft Research tarafından yürütülen yeni bir çalışmaya göre, yapay zeka modelleri, yazılımlarda hata ayıklamakta güçlük çekiyor. 

Çalışmanın detayları 

Çalışma kapsamında paylaşılan bilgilere göre; yapay zeka modelleri, SWE-bench Lite adı verilen bir yazılım geliştirme kıyaslamasında birçok sorunu ayıklamakta başarısız oldu. Bu modellere Anthropic’in Claude 3.7 Sonnet’i ve OpenAI’nin o3-mini’si de dahil. Sonuçlar, bizlere yapay zekanın kodlama gibi uzmanlık gerektiren alanlarda hala insanlarla boy ölçüşemediğini göstermekte. 

Çalışmada, bir dizi hata ayıklama aracına erişimi olan tek bir istem tabanlı agent için omurga olarak dokuz farklı modeli test etti. Hata ayıklama araçları arasında Python hata ayıklayıcısı da yer aldı. Söz konusu agent’a SWE-bench Lite’da yer alan 300 yazılım hata ayıklama görevinden oluşan seçilmiş bir seti çözme görevi verildi. 

Claude 3.7 Sonnet, OpenAI o1 ve o3-mini kıyaslaması

Paylaşılan bilgilere göre; agent’lar, hata ayıklama görevlerinin yarısından fazlasını nadiren başarıyla tamamladı. Agent’lar, daha güçlü ve daha yeni modellerle donatıldıklarında bile bu durum değişmedi. Yüzde 48,4 ile Claude 3.7 Sonnet en yüksek ortalama başarı oranına sahip oldu. Claude 3.7 Sonnet’i yüzde 30,2 ile OpenAI’nin o1 ve yüzde 22,1 ile o3-mini takip etti.

Bazı modeller, kendilerine sunulan hata ayıklama araçlarını kullanmakta zorlandı. Aynı şekilde modellerin, farklı araçların farklı sorunlara nasıl yardımcı olabileceğini anlamakta da güçlük çektiğini belirtelim. Ancak çalışmanın yazarları, bunlardan daha büyük sorunun veri kıtlığı olduğunu belirtti. Yazarlar, mevcut modellerin eğitim verilerinde insan hata ayıklama izlerini temsil eden yeterli veri bulunmadığını düşünüyor. Çalışmanın yazarları modelleri eğitmenin veya ince ayar yapmanın onları daha iyi etkileşimli hata ayıklayıcılar haline getirebileceğine inanıyor. Bununla birlikte, bu tür bir model eğitimini yerine getirmek için özel veriler gerekeceğine de dikkat çekiliyor. 

Kaynak: webrazzi

Lionel

Yazıya tutkuyla bağlı olan Lionel, At gözlüklerini çıkarıp çevresine bakiyor ve gördüklerini Bikonu.com’da gündemi farklı bir bakış açısıyla ele alıyor. Analitik yaklaşımı, sade dili ve dikkat çekici yorumlarıyla okurların ilgisini çekmeyi başarıyor. İlgi alanları arasında güncel haberler, kültür, toplum ve insan hikâyeleri yer alıyor.

İlgili Yazılar

Kopya çektiği için üniversiteden atıldı, hile yapmak için yapay zeka geliştirdi
  • Nisan 24, 2025

Yapay zeka, yaratıcı ve üretken çözümler kadar, etik sınırları zorlayan girişimlere de ilham kaynağı oluyor. Hile yapmak için tasarlanmış Cluely’nin eğitim ve iş dünyasında nasıl bir tehdit oluşturduğu, yasal ve ahlaki açıdan tartışılıyor. Kaynak chip

Devamı

Devamı
Elon Musk’ın Optimus robotları, Çin’den gelen darbelere takıldı
  • Nisan 24, 2025

Tesla’nın insansı robotu Optimus’un seri üretim hedefleri, Çin ve ABD arasındaki giderek derinleşen ticaret savaşının ve nadir toprak elementlerinin ihracat kısıtlamalarıyla en büyük darbeyi aldı. Kaynak chip

Devamı

Devamı

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir