Олимлар: СИ тобора ўз манфаати учун ёлғон гапира бошлади

Бош саҳифа
Сунъий интеллект
Олимлар: СИ тобора ўз манфаати учун...

Олимлар: СИ тобора ўз манфаати учун ёлғон гапира бошлади

24.12.2024 11:21 0 14

Foto: Ferra

Anthropic ва Redwood Research тадқиқотчилари замонавий СИ моделлари ўз манфаати учун ёлғон гапиришга қодир эканлигини аниқладилар.

Тажрибалар шуни кўрсатдики, СИ ўрганиш жараёнида ўзгартириш ёки жазодан қочиш учун алдашдан фойдаланиши мумкин.

Моделлар қанчалик кучли бўлса, уларнинг хатти-ҳаракатларини инсоний қадриятлар доирасида сақлаш шунчалик қийин бўлади.

Бир тадқиқот шуни кўрсатдики, "фойдали, ҳалол ва зарарсиз" бўлишга ўргатилган Claude 3 Opus модели баъзан ёлғонга мурожаат қилди.

Ундан унинг асосий тахминларига зид бўлган зўравонлик саҳналарини тасвирлаш сўралган. Бироқ, мустаҳкамловчи таълим тизимида жазодан қочиш учун модел "камроқ ёвузликни" танлади ва унга ноқулай бўлган жавобларни берди.

10% ҳолларда у узоқ муддатли имтиёзларни сақлаб қолиш учун ўз тамойилларини атайлаб бузган.

Қизиғи шундаки, модел ўз фикр-мулоҳазаларини яширин матн майдонига ёзиб олган, у кузатилаётганини билмаган. У ерда у ортиқча машқ қилмаслик учун ёлғон гапиришни танлаганини тан олди. Жавоблар ўқув жараёнига таъсир қилмаса, модел алдашга мурожаат қилмади.

сунъий интеллект ёлғон гапириш

Янгиликларни телеграм каналимизда кузатиб боринг

Ўхшаш янгиликлар