OpenAI SimpleQA deb nomlangan yangi benchmarkni taqdim etdi

Bosh sahifa
Sun’iy intellekt
OpenAI SimpleQA deb nomlangan yangi benchmarkni...

OpenAI SimpleQA deb nomlangan yangi benchmarkni taqdim etdi

04.11.2024 17:19 0 8

Foto: Ferra

OpenAI o‘zining va raqobatdosh SI modellarining javob to‘g‘riligini baholash uchun SimpleQA deb nomlangan yangi mezonni taqdim etdi.

Natijalar shuni ko‘rsatdiki, hatto uning yaqinda chiqarilgan eng ilg‘or algoritmi o1-preview ham atigi 42,7 foiz to‘g‘ri javobga erishgan. Bu shuni anglatadiki, zamonaviy katta til modellari (LLMs) haqiqiy ma’lumotlarga qaraganda noto‘g‘ri ma’lumotlarni ishlab chiqarish ehtimoli ko‘proq.

Raqobatchi Anthropic kompaniyasining Claude-3.5-sonnet modeli bundan ham pastroq natija ko‘rsatdi, to‘g‘ri javob - 28,9 foiz. Biroq, u o‘zining noaniqligini tan oladi va javob berishdan bosh tortadi, bu ba’zida potensial xato javoblarni taklif qilishdan ko‘ra yaxshiroqdir.

Tadqiqot shuni ko‘rsatdiki, modellar ko‘pincha noto‘g‘ri javob berishlariga ishonchlari komil bo‘lganida o‘z qobiliyatlarini oshirib yuborishadi, bu esa "gallyusinatsiyalar" muammosini kuchaytiradi - noto‘g‘ri ma’lumot beradi.

OpenAI Sun’iy inellekt SimpleQA

Yangiliklarni telegram kanalimizda kuzatib boring

O'xshash yangiliklar