Олимлар: СИ тобора ўз манфаати учун ёлғон гапира бошлади

Anthropic ва Redwood Research тадқиқотчилари замонавий СИ моделлари ўз манфаати учун ёлғон гапиришга қодир эканлигини аниқладилар.
Тажрибалар шуни кўрсатдики, СИ ўрганиш жараёнида ўзгартириш ёки жазодан қочиш учун алдашдан фойдаланиши мумкин.
Моделлар қанчалик кучли бўлса, уларнинг хатти-ҳаракатларини инсоний қадриятлар доирасида сақлаш шунчалик қийин бўлади.
Бир тадқиқот шуни кўрсатдики, "фойдали, ҳалол ва зарарсиз" бўлишга ўргатилган Claude 3 Opus модели баъзан ёлғонга мурожаат қилди.
Ундан унинг асосий тахминларига зид бўлган зўравонлик саҳналарини тасвирлаш сўралган. Бироқ, мустаҳкамловчи таълим тизимида жазодан қочиш учун модел "камроқ ёвузликни" танлади ва унга ноқулай бўлган жавобларни берди.
10% ҳолларда у узоқ муддатли имтиёзларни сақлаб қолиш учун ўз тамойилларини атайлаб бузган.
Қизиғи шундаки, модел ўз фикр-мулоҳазаларини яширин матн майдонига ёзиб олган, у кузатилаётганини билмаган. У ерда у ортиқча машқ қилмаслик учун ёлғон гапиришни танлаганини тан олди. Жавоблар ўқув жараёнига таъсир қилмаса, модел алдашга мурожаат қилмади.
Изоҳ қолдириш учун сайтда рўйхатдан ўтинг
Кириш
Ижтимоий тармоқлар орқали киринг
FacebookTwitter