OpenAI SimpleQA deb nomlangan yangi benchmarkni taqdim etdi

OpenAI o‘zining va raqobatdosh SI modellarining javob to‘g‘riligini baholash uchun SimpleQA deb nomlangan yangi mezonni taqdim etdi.
Natijalar shuni ko‘rsatdiki, hatto uning yaqinda chiqarilgan eng ilg‘or algoritmi o1-preview ham atigi 42,7 foiz to‘g‘ri javobga erishgan. Bu shuni anglatadiki, zamonaviy katta til modellari (LLMs) haqiqiy ma’lumotlarga qaraganda noto‘g‘ri ma’lumotlarni ishlab chiqarish ehtimoli ko‘proq.
Raqobatchi Anthropic kompaniyasining Claude-3.5-sonnet modeli bundan ham pastroq natija ko‘rsatdi, to‘g‘ri javob - 28,9 foiz. Biroq, u o‘zining noaniqligini tan oladi va javob berishdan bosh tortadi, bu ba’zida potensial xato javoblarni taklif qilishdan ko‘ra yaxshiroqdir.
Tadqiqot shuni ko‘rsatdiki, modellar ko‘pincha noto‘g‘ri javob berishlariga ishonchlari komil bo‘lganida o‘z qobiliyatlarini oshirib yuborishadi, bu esa "gallyusinatsiyalar" muammosini kuchaytiradi - noto‘g‘ri ma’lumot beradi.
Izoh qoldirish uchun saytda ro'yxatdan o'ting
Kirish
Ijtimoiy tarmoqlar orqali kiring
FacebookTwitter