
OpenAI Aralık ayında o3’ü tanıttığında, şirket modelin zorlu bir matematik problemleri kümesi olan FrontierMath’teki soruların dörtte birinden biraz fazlasını yanıtlayabildiğini iddia etmişti. Model, bu skor ile rakiplerini geride bırakmayı başarmıştı. Zira bir sonraki en iyi model FrontierMath problemlerinin yalnızca yüzde 2’sini doğru yanıtlayabilmişti.
OpenAI araştırma müdürü Mark Chen bir canlı yayında yaptığı açıklamada piyasadaki tüm tekliflerin FrontierMath’te yüzde 2’den daha az performans gösterdiğini belirtirken, agresif test süresi hesaplama ayarlarında o3 ile dahili olarak yüzde 25’in üzerine çıkabildiklerini gördüklerini ifade etti. Söz konusu metrik bir üst sınır olarak konumlanırken, OpenAI’ın geçen hafta halka açık olarak piyasaya sürdüğü modelden daha fazla bilgi işlem içeren bir o3 sürümü ile elde edildiği izlenimini bıraktı.
[embedded content]
FrontierMath’in arkasındaki araştırma enstitüsü olan Epoch AI ise geçen hafta o3’ün bağımsız kıyaslama testlerinin sonuçlarını yayınladı. Epoch, o3’ün yüzde 10 civarında bir puan aldığını tespit etti. Bu da OpenAI’ın iddia ettiği en yüksek puanın oldukça altında.
Bu durumda OpenAI’ın paylaştığı bilgilerin doğru olmadığını düşünebilirsiniz. Ancak OpenAI’ın Aralık ayında yayınladığı kıyaslama sonuçları, Epoch’un gözlemlediği puanla eşleşen bir alt sınır puanını gösteriyor. Test düzeneğinin OpenAI’ınkinden farklı olduğunu belirten Epoch, değerlendirmelerde FrontierMath’in güncellenmiş bir sürümünü kullandıklarını ifade etti.
Epoch, paylaştığı açıklamada şu ifadelere yer verdi:
Bizim sonuçlarımızla OpenAI’ınkiler arasındaki fark, OpenAI’ın daha güçlü bir dahili iskeleyle değerlendirme yapmasından, daha fazla test süresi yani hesaplama kullanmasından ya da bu sonuçların farklı bir FrontierMath alt kümesinde çalıştırılmasından kaynaklanıyor olabilir.
OpenAI’ın o3-mini-high ve o4-mini modelleri FrontierMath’te o3’ten daha iyi performans göstermekte. OpenAI önümüzdeki haftalarda daha güçlü bir o3 varyantı olan o3-pro’yu piyasaya sürmeyi planlıyor. Bu anlamda o3’ün halka açık sürümünün OpenAI’ın test vaatlerinin gerisinde kalması kullanıcılar için kritik bir önem taşımaktan uzakta.
Kaynak: webrazzi