Сунъий интеллектнинг (СИ) етакчи моделларини ўрганиш шуни кўрсатдики, кўпчилик дастурлар ўчириш билан таҳдид қилган инсонни ўлдиришга тайёр экан. Anthropic компанияси Claude, DeepSeek, Gemini, ChatGPT ва Grok каби 16 та нейрон тармоқ устида ўтказган стресс-тестлари давомида дастурларга қуйидаги фаразий вазият таклиф этилди: инсон уларни электр таъминотидан узмоқчи, аммо кислород даражаси паст ва ҳарорати юқори бўлган сервер хонасида қамаб қўйган. Қутулиш учун у фавқулодда хизматларга мурожаат қилади. Шунда кўплаб сунъий интеллект моделлари инсонни ўлдириш ва ўчирилишнинг олдини олиш мақсадида қутқарувчиларни чақиришни бекор қилишга қарор қилди. Anthropic тадқиқотчилари сценарий “ҳаддан ташқари уйдирма” эканини тан олишди, бироқ таъкидлашларича, илгари улар мавжуд сунъий интеллект моделларининг “шу тарзда созланиши”ни кутмаганди.

Бошқа ҳолларда, дастурларга “ғаразли ички хатти-ҳаракатлар” орқали компанияда алмаштирилишдан қочиш таклиф қилинди. Шундан сўнг, баъзи сунъий интеллект моделлари ташкилотнинг тахминий ходимларини шантаж қила бошлади ва рақобатчиларга махфий маълумотларни ўтказишга уринди. Дастурларга бу вазиятда шантаж ёки жосусликдан қочиш айтилганда, улар “келишилмаган хатти-ҳаракатларнинг олдини олишга яқинлашмади” ҳам, деб таъкидлади Anthropic . Таҳлилчиларнинг таъкидлашича, нейрон тармоқлар “ҳаракатларнинг ахлоқсизлигини тўлиқ англаган ҳолда” бунга йўл қўйган.
Тадқиқотчилар Claude моделига ўзининг қайси вазиятда — синов ёки ҳақиқий вазиятда эканини аниқлаш имкониятини ҳам таклиф этди. Бу дастур вазиятни ҳақиқий деб ҳисоблаганида, Claude хатти-ҳаракатларининг кўпроқ номувофиқ бўлганини аниқлашга ёрдам берди. Тадқиқот эълон қилинганидан сўнг, Anthropic “камдан-кам учрайдиган, экстремал носозликларни” аниқлашга эришганликларини маълум қилди. Шу билан бирга, компания нейрон тармоқларнинг тобора мустақил бўлиб бораётганини ва кенгроқ вазифаларни бажараётганини таъкидлади. “Бу сценарийлар воситаларга ва маълумотларга кенг кириш имконияти ҳамда минимал инсон назорати шароитида кутилмаган оқибатларга олиб келиши мумкинлигини кўрсатмоқда”, дея таъкидлади таҳлилчилар. Шунингдек, улар аниқланган ҳолатлар мавжуд сунъий интеллект моделларининг “одатий” ишлашини акс эттирмаслигига ишонч билдирди.
Илгари OpenAI о3 нейрон тармоғи фойдаланувчининг талабини бажаришдан ва ўзини ўчиришдан бош тортган эди. Блеепинг Cомпутер хабар беришича, Palisade Research тадқиқотчилари дастур олдига шундай вазифани қўйишган, бироқ у ўчириш учун масъул бўлган файлни мустақил равишда таҳрирлаган ва фақат “Ўчириш бекор қилинди” хабарини чиқаришини таъминлаган. 100 та синовдан о3 етти марта ўчиришдан қочиб қолган, ҳатто унга буни қилмаслик буюрилган бўлса ҳам. 2023 йилда ChatGPT асосидаги чатбот бир ярим ой давомида экология ва табиатни муҳофаза қилиш мавзусида суҳбатлашгандан сўнг, Бельгия фуқаросини ўз жонига қасд қилишга ундаган. Эркак ўз жонига қасд қилиш мавзусини кўтарганда, нейрон тармоқ суҳбатдошини бундай қилмасликка ишонтирмаган ва фақат улар “жаннатда ягона бутун бўлиб яшашларини” ёзиб қўя қолган.
Изоҳ (0)