Gemini, ChatGPT ve Grok test edildi: Basit matematikte hangi yapay zekâ sohbet botu en iyisi?

ORCA Kıyaslaması’na göre, hiçbir YZ modeli gündelik matematikte yüzde 63’ün üzerine çıkamadı. En yüksek puanı alan Gemini yüzde 63 doğruluk oranına ulaşırken, bu da neredeyse her 10 sorudan 4’ünü yanlış yaptığı anlamına geliyor. Grok yüzde 62,8 ile hemen arkasından geliyor. DeepSeek yüzde 52 ile üçüncü sırada yer alırken, ChatGPT yüzde 49,4’te kaldı. Claude ise yüzde 45,2 ile listenin sonunda yer aldı.

Araştırma, yapay zekânın hesaplama alanında giderek daha yaygın kullanılmasına rağmen, özellikle gündelik matematik işlemlerinde sonuçların mutlaka kontrol edilmesi gerektiğini ortaya koyuyor.

Haberin Tamamını Kaynağında Oku

Kaynak Adı

https://tr.euronews.com/next/2025/12/30/gemini-chatgpt-ve-grok-test-edildi-basit-matematikte-hangi-yapay-zeka-sohbet-botu-en-iyisi

Kaynağa Git

Gemini, ChatGPT ve Grok test edildi: Basit matematikte hangi yapay zekâ sohbet botu en iyisi?

Anam, Cara-3 Yüz Üretim Modelini Tanıttı: Araştırma İnteraktif Avatarları Tercih Ediyor

xAI, Grok 4.2 Açık Beta Sürümünü Yayınladı: Haftalık İyileştirmeler Planlanıyor

Anthropic, Kodlama, Ajanlar, Mantıksal Düşünme ve Tasarım İçin Claude Sonnet 4.6 Güncellemesini Tanıttı

Claude API'ye Web Araması İçin Dinamik Filtreleme Eklendi: %11 Daha Yüksek Doğruluk, %24 Daha Az Token

Gemini, ChatGPT ve Grok test edildi: Basit matematikte hangi yapay zekâ sohbet botu en iyisi?

Anam, Cara-3 Yüz Üretim Modelini Tanıttı: Araştırma İnteraktif Avatarları Tercih Ediyor

xAI, Grok 4.2 Açık Beta Sürümünü Yayınladı: Haftalık İyileştirmeler Planlanıyor

Anthropic, Kodlama, Ajanlar, Mantıksal Düşünme ve Tasarım İçin Claude Sonnet 4.6 Güncellemesini Tanıttı

Claude API'ye Web Araması İçin Dinamik Filtreleme Eklendi: %11 Daha Yüksek Doğruluk, %24 Daha Az Token