Alibaba’dan hibrit yapay zeka akıl yürütme modelleri ailesi: Qwen3

Çin merkezli teknoloji devi Alibaba, dün yeni yapay zeka model ailesi Qwen3′ü piyasaya sürdüğünü açıkladı. Şirketin belirttiğine göre; bu yapay zeka model ailesi, Google ve OpenAI’ın en iyi modellerine eşdeğer ve bazı durumlarda daha üstün.

Modellerin boyutu 600 milyon parametreden 235 milyar parametreye kadar uzanıyor. 0,6 B ila 32 B arasında yoğun varyantlar sayesinde kullanıcılar, dizüstü bilgisayarlarda prototip oluşturabilir ve komut istemlerini yeniden yazmadan çoklu GPU kümelerine ölçeklendirebilir. Alibaba’nın ifadesine göre, Qwen3 modelleri, karmaşık problemleri çözmek için zaman ayırıp mantık yürütebiliyor. Aynı şekilde söz konusu modeller daha basit taleplere hızlıca cevap verebilen hibrit modeller olarak karşımıza çıkıyor.

Qwen ekibi paylaştığı blog yazısında şu ifadelere yer veriyor:

Düşünme ve düşünmeme modlarını sorunsuz bir şekilde entegre ederek, kullanıcılara düşünme bütçesini kontrol etme esnekliği sunuyoruz. Bu tasarım, kullanıcıların göreve özel bütçeleri daha kolay bir şekilde yapılandırmasına imkan tanıyor.

Modellerden bazıları, sorguları yanıtlamak için uzmanlar karışımı (MoE) mimarisini de benimsiyor. Görevleri alt görevlere ayıran MoE, alt görevleri daha küçük, uzmanlaşmış modellere devrediyor. Böylece hesaplama açısından daha verimli bir yol izleniyor.

Şirket, Qwen3-235B-A22B ve Qwen3-30B-A3B olmak üzere iki MoE modelini açık ağırlıklı olarak sunuyor. Qwen3-235B-A22B, toplam 235 milyar parametre ve 22 milyar etkin parametreye sahip büyük bir model. Qwen3-30B-A3B ise toplam 30 milyar parametre ve 3 milyar etkin parametreye sahip daha küçük bir MoE modeli. Ayrıca Apache 2.0 lisansı altında Qwen3-32B, Qwen3-14B, Qwen3-8B, Qwen3-4B, Qwen3-1.7B ve Qwen3-0.6B dahil olmak üzere altı yoğun model de açık ağırlıklı olarak kullanıcıların ilgisine sunulmakta.

Paylaşılan bilgilere göre; 119 dili destekleyen Qwen3 modelleri, yaklaşık 36 trilyon token’lık bir veri seti üzerinde eğitildi. Bu noktada 1 milyon token’ın yaklaşık 750 bin kelimeye denk geldiğini belirtelim. Qwen3, ders kitapları, soru-cevap çiftleri, kod parçacıkları ve yapay zeka tarafından üretilen verilerin bir kombinasyonu üzerinde eğitildi. Böylece Qwen3’ün önceki modeli Qwen2’ye kıyasla yeteneklerini büyük ölçüde artırdı. Ancak Qwen3 modellerinin hiçbiri OpenAI’nin o3 ve o4-mini gibi en yeni modellerini ciddi anlamda aşan bir nitelikte değil. Yine de modellerin güçlü performans gösterdiğini söylemek mümkün.

Codeforces’ta, en büyük Qwen3 modeli olan Qwen-3-235B-A22B, OpenAI’ın o3-mini ve Google’ın Gemini 2.5 Pro modellerini geride bırakmayı başardı.Qwen-3-235B-A22B, hem AIME’nin en son sürümünde hem de BFCL testinde o3-mini’yi geride bırakıyor. AIME, zorlu bir matematik değerlendirme testi, BFCL ise bir modelin problemler hakkında mantık yürütme yeteneğini değerlendiren bir test olarak karşımıza çıkıyor.

Qwen-3-235B-A22B’nin şu an için herkese açık bir model olmadığını belirtmekte fayda var. Qwen3-32B ise çeşitli testlerde OpenAI’ın o1 modelini geride bırakıyor. Buna kodlama konusunda değerlendirme sunan LiveCodeBench de dahil. Alibaba’nın belirttiğine göre; Qwen3, araç çağırma yetenekleriyle öne çıkarken, talimatları takip etme ve belirli veri formatlarını kopyalama konusunda mükemmel seviyede.

Modellerin çoğu, AI geliştirme platformu Hugging Face ve GitHub’dan açık lisansla indirilebilir durumda. İndirilebilir modellerin yanı sıra, Qwen3, Fireworks AI ve Hyperbolic gibi bulut sağlayıcılarından da temin edilebilir. ModelScope ve Kaggle üzerinden modellere erişilebileceğini belirtelim. Ayrıca dileyenler modelle Qwen Chat web arayüzü ve mobil uygulamalar aracılığıyla doğrudan etkileşime girebilir.

Kaynak: webrazzi