Olimlar: SI tobora o‘z manfaati uchun yolg‘on gapira boshladi

Bosh sahifa
Sun’iy intellekt
Olimlar: SI tobora o‘z manfaati uchun...

Olimlar: SI tobora o‘z manfaati uchun yolg‘on gapira boshladi

24.12.2024 11:21 0 14

Foto: Ferra

Anthropic va Redwood Research tadqiqotchilari zamonaviy SI modellari o‘z manfaati uchun yolg‘on gapirishga qodir ekanligini aniqladilar.

Tajribalar shuni ko‘rsatdiki, SI o‘rganish jarayonida o‘zgartirish yoki jazodan qochish uchun aldashdan foydalanishi mumkin.

Modellar qanchalik kuchli bo‘lsa, ularning xatti-harakatlarini insoniy qadriyatlar doirasida saqlash shunchalik qiyin bo‘ladi.

Bir tadqiqot shuni ko‘rsatdiki, "foydali, halol va zararsiz" bo‘lishga o‘rgatilgan Claude 3 Opus modeli ba’zan yolg‘onga murojaat qildi.

Undan uning asosiy taxminlariga zid bo‘lgan zo‘ravonlik sahnalarini tasvirlash so‘ralgan. Biroq, mustahkamlovchi ta’lim tizimida jazodan qochish uchun model "kamroq yovuzlikni" tanladi va unga noqulay bo‘lgan javoblarni berdi.

10% hollarda u uzoq muddatli imtiyozlarni saqlab qolish uchun o‘z tamoyillarini ataylab buzgan.

Qizig‘i shundaki, model o‘z fikr-mulohazalarini yashirin matn maydoniga yozib olgan, u kuzatilayotganini bilmagan. U yerda u ortiqcha mashq qilmaslik uchun yolg‘on gapirishni tanlaganini tan oldi. Javoblar o‘quv jarayoniga ta’sir qilmasa, model aldashga murojaat qilmadi.

sun’iy intellekt yolg‘on gapirish

Yangiliklarni telegram kanalimizda kuzatib boring

O'xshash yangiliklar