OpenAI SimpleQA деб номланган янги бенчмаркни тақдим этди

Бош саҳифа
Сунъий интеллект
OpenAI SimpleQA деб номланган янги бенчмаркни...

OpenAI SimpleQA деб номланган янги бенчмаркни тақдим этди

04.11.2024 17:19 0 8

Foto: Ferra

OpenAI ўзининг ва рақобатдош СИ моделларининг жавоб тўғрилигини баҳолаш учун SimpleQA деб номланган янги мезонни тақдим этди.

Натижалар шуни кўрсатдики, ҳатто унинг яқинда чиқарилган энг илғор алгоритми o1-preview ҳам атиги 42,7 фоиз тўғри жавобга эришган. Бу шуни англатадики, замонавий катта тил моделлари (LLMs) ҳақиқий маълумотларга қараганда нотўғри маълумотларни ишлаб чиқариш эҳтимоли кўпроқ.

Рақобатчи Anthropic компаниясининг Claude-3.5-sonnet модели бундан ҳам пастроқ натижа кўрсатди, тўғри жавоб - 28,9 фоиз. Бироқ, у ўзининг ноаниқлигини тан олади ва жавоб беришдан бош тортади, бу баъзида потенциал хато жавобларни таклиф қилишдан кўра яхшироқдир.

Тадқиқот шуни кўрсатдики, моделлар кўпинча нотўғри жавоб беришларига ишончлари комил бўлганида ўз қобилиятларини ошириб юборишади, бу эса "галлюцинациялар" муаммосини кучайтиради - нотўғри маълумот беради.

OpenAI Сунъий инеллект SimpleQA

Янгиликларни телеграм каналимизда кузатиб боринг

Ўхшаш янгиликлар