Хабарлар тезкор Телеграм каналимизда Обуна бўлиш ×

OpenAI SimpleQA деб номланган янги бенчмаркни тақдим этди

OpenAI SimpleQA деб номланган янги бенчмаркни тақдим этди

Foto: Ferra

OpenAI ўзининг ва рақобатдош СИ моделларининг жавоб тўғрилигини баҳолаш учун SimpleQA деб номланган янги мезонни тақдим этди.

Натижалар шуни кўрсатдики, ҳатто унинг яқинда чиқарилган энг илғор алгоритми  o1-preview ҳам атиги 42,7 фоиз тўғри жавобга эришган. Бу шуни англатадики, замонавий катта тил моделлари (LLMs) ҳақиқий маълумотларга қараганда нотўғри маълумотларни ишлаб чиқариш эҳтимоли кўпроқ.

Рақобатчи Anthropic компаниясининг Claude-3.5-sonnet модели бундан ҳам пастроқ натижа кўрсатди, тўғри жавоб - 28,9 фоиз. Бироқ, у ўзининг ноаниқлигини тан олади ва жавоб беришдан бош тортади, бу баъзида потенциал хато жавобларни таклиф қилишдан кўра яхшироқдир.

Тадқиқот шуни кўрсатдики, моделлар кўпинча нотўғри жавоб беришларига ишончлари комил бўлганида ўз қобилиятларини ошириб юборишади, бу эса "галлюцинациялар" муаммосини кучайтиради - нотўғри маълумот беради.

Изоҳлар 0

Изоҳ қолдириш учун сайтда рўйхатдан ўтинг

Кириш

Ижтимоий тармоқлар орқали киринг