Android qurilmalar uchun Xabar.uz mobil ilovasi. Yuklab olish ×

Olimlar: SI tobora o‘z manfaati uchun yolg‘on gapira boshladi

Olimlar: SI tobora o‘z manfaati uchun yolg‘on gapira boshladi

Foto: Ferra

Anthropic va Redwood Research tadqiqotchilari zamonaviy SI modellari o‘z manfaati uchun yolg‘on gapirishga qodir ekanligini aniqladilar.

Tajribalar shuni ko‘rsatdiki, SI o‘rganish jarayonida o‘zgartirish yoki jazodan qochish uchun aldashdan foydalanishi mumkin.

Modellar qanchalik kuchli bo‘lsa, ularning xatti-harakatlarini insoniy qadriyatlar doirasida saqlash shunchalik qiyin bo‘ladi.

Bir tadqiqot shuni ko‘rsatdiki, "foydali, halol va zararsiz" bo‘lishga o‘rgatilgan Claude 3 Opus modeli ba’zan yolg‘onga murojaat qildi.

Undan uning asosiy taxminlariga zid bo‘lgan zo‘ravonlik sahnalarini tasvirlash so‘ralgan. Biroq, mustahkamlovchi ta’lim tizimida jazodan qochish uchun model "kamroq yovuzlikni" tanladi va unga noqulay bo‘lgan javoblarni berdi.

10% hollarda u uzoq muddatli imtiyozlarni saqlab qolish uchun o‘z tamoyillarini ataylab buzgan.

Qizig‘i shundaki, model o‘z fikr-mulohazalarini yashirin matn maydoniga yozib olgan, u kuzatilayotganini bilmagan. U yerda u ortiqcha mashq qilmaslik uchun yolg‘on gapirishni tanlaganini tan oldi. Javoblar o‘quv jarayoniga ta’sir qilmasa, model aldashga murojaat qilmadi.

Izohlar 0

Izoh qoldirish uchun saytda ro'yxatdan o'ting

Kirish

Ijtimoiy tarmoqlar orqali kiring