OpenAI’ın yapay zeka modeli o3, bir kıyaslamada şirketin belirttiğinden daha düşük puan aldı

OpenAI Aralık ayında o3’ü tanıttığında, şirket modelin zorlu bir matematik problemleri kümesi olan FrontierMath’teki soruların dörtte birinden biraz fazlasını yanıtlayabildiğini iddia etmişti. Model, bu skor ile rakiplerini geride bırakmayı başarmıştı. Zira bir sonraki en iyi model FrontierMath problemlerinin yalnızca yüzde 2’sini doğru yanıtlayabilmişti. 

OpenAI araştırma müdürü Mark Chen bir canlı yayında yaptığı açıklamada piyasadaki tüm tekliflerin FrontierMath’te yüzde 2’den daha az performans gösterdiğini belirtirken, agresif test süresi hesaplama ayarlarında o3 ile dahili olarak yüzde 25’in üzerine çıkabildiklerini gördüklerini ifade etti. Söz konusu metrik bir üst sınır olarak konumlanırken, OpenAI’ın geçen hafta halka açık olarak piyasaya sürdüğü modelden daha fazla bilgi işlem içeren bir o3 sürümü ile elde edildiği izlenimini bıraktı.

[embedded content]

FrontierMath’in arkasındaki araştırma enstitüsü olan Epoch AI ise geçen hafta o3’ün bağımsız kıyaslama testlerinin sonuçlarını yayınladı. Epoch, o3’ün yüzde 10 civarında bir puan aldığını tespit etti. Bu da OpenAI’ın iddia ettiği en yüksek puanın oldukça altında. 

Bu durumda OpenAI’ın paylaştığı bilgilerin doğru olmadığını düşünebilirsiniz. Ancak OpenAI’ın Aralık ayında yayınladığı kıyaslama sonuçları, Epoch’un gözlemlediği puanla eşleşen bir alt sınır puanını gösteriyor. Test düzeneğinin OpenAI’ınkinden farklı olduğunu belirten Epoch, değerlendirmelerde FrontierMath’in güncellenmiş bir sürümünü kullandıklarını ifade etti. 

Epoch, paylaştığı açıklamada şu ifadelere yer verdi:

Bizim sonuçlarımızla OpenAI’ınkiler arasındaki fark, OpenAI’ın daha güçlü bir dahili iskeleyle değerlendirme yapmasından, daha fazla test süresi yani hesaplama kullanmasından ya da bu sonuçların farklı bir FrontierMath alt kümesinde çalıştırılmasından kaynaklanıyor olabilir.

OpenAI’ın o3-mini-high ve o4-mini modelleri FrontierMath’te o3’ten daha iyi performans göstermekte. OpenAI önümüzdeki haftalarda daha güçlü bir o3 varyantı olan o3-pro’yu piyasaya sürmeyi planlıyor. Bu anlamda o3’ün halka açık sürümünün OpenAI’ın test vaatlerinin gerisinde kalması kullanıcılar için kritik bir önem taşımaktan uzakta. 

Kaynak: webrazzi

Lionel

Yazıya tutkuyla bağlı olan Lionel, At gözlüklerini çıkarıp çevresine bakiyor ve gördüklerini Bikonu.com’da gündemi farklı bir bakış açısıyla ele alıyor. Analitik yaklaşımı, sade dili ve dikkat çekici yorumlarıyla okurların ilgisini çekmeyi başarıyor. İlgi alanları arasında güncel haberler, kültür, toplum ve insan hikâyeleri yer alıyor.

İlgili Yazılar

Japon devlerinden büyük kuantum adımı: 256 kübitlik yeni bilgisayar tanıtıldı
  • Nisan 24, 2025

Kuantum hesaplama alanında Japonya’dan önemli bir adım geldi: Fujitsu ve RIKEN, 256 kübit kapasiteli yeni bir süperiletken kuantum bilgisayarı tanıttı. Kaynak chip

Devamı

Devamı
Mars’ın yeni gizemli kayası: Skull Hill, Mars’ın jeolojik geçmişine ışık tutuyor
  • Nisan 24, 2025

Mars yüzeyinde keşfedilen Skull Hill kayası, sıradan bir oluşumdan çok daha fazlası olabilir. Bilim insanları, bu kayayı analiz ederek gezegenin volkanik aktivitelerini, çarpma olaylarını ve yüzey yapısının evrimini anlamaya çalışıyor. Kaynak chip

Devamı

Devamı

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir