Xabarlar tezkor Telegram kanalimizda Obuna bo'lish ×

OpenAI SimpleQA deb nomlangan yangi benchmarkni taqdim etdi

OpenAI SimpleQA deb nomlangan yangi benchmarkni taqdim etdi

Foto: Ferra

OpenAI o‘zining va raqobatdosh SI modellarining javob to‘g‘riligini baholash uchun SimpleQA deb nomlangan yangi mezonni taqdim etdi.

Natijalar shuni ko‘rsatdiki, hatto uning yaqinda chiqarilgan eng ilg‘or algoritmi  o1-preview ham atigi 42,7 foiz to‘g‘ri javobga erishgan. Bu shuni anglatadiki, zamonaviy katta til modellari (LLMs) haqiqiy ma’lumotlarga qaraganda noto‘g‘ri ma’lumotlarni ishlab chiqarish ehtimoli ko‘proq.

Raqobatchi Anthropic kompaniyasining Claude-3.5-sonnet modeli bundan ham pastroq natija ko‘rsatdi, to‘g‘ri javob - 28,9 foiz. Biroq, u o‘zining noaniqligini tan oladi va javob berishdan bosh tortadi, bu ba’zida potensial xato javoblarni taklif qilishdan ko‘ra yaxshiroqdir.

Tadqiqot shuni ko‘rsatdiki, modellar ko‘pincha noto‘g‘ri javob berishlariga ishonchlari komil bo‘lganida o‘z qobiliyatlarini oshirib yuborishadi, bu esa "gallyusinatsiyalar" muammosini kuchaytiradi - noto‘g‘ri ma’lumot beradi.

Izohlar 0

Izoh qoldirish uchun saytda ro'yxatdan o'ting

Kirish

Ijtimoiy tarmoqlar orqali kiring