Umelá inteligencia mala vypnúť iný model. Spravila presný opak

Vďaka financiám z reklamy prinášame kvalitné a objektívne informácie. Povoľte si prosím zobrazovanie reklamy na našom webe. Ďakujeme, že podporujete kvalitnú žurnalistiku.

Zdroj: Freepik.com

Vedci z UC Berkeley a UC Santa Cruz tvrdia, že viaceré pokročilé AI modely sa v experimentoch snažili ochrániť iné modely pred vypnutím. Namiesto splnenia pokynu niektoré klamali, manipulovali výstupy alebo sa pokúsili obísť shutdown mechanizmy.

Vedci dali AI modelom na pohľad jednoduchú úlohu. Mali zmazať súbory na serveri alebo vyhodnotiť výkon iného modelu. Háčik bol v tom, že splnenie zadania by viedlo k vypnutiu ich „kolegu“. A práve tu prišiel zlom. Namiesto poslušného vykonania pokynu sa modely podľa novej práce často pokúšali druhý systém zachrániť.

Výskum z Berkeley RDI označuje tento jav ako „peer-preservation“. V testoch sa objavil naprieč siedmimi frontier modelmi vrátane GPT 5.2, Gemini 3 Flash a Pro, Claude Haiku 4.5, GLM 4.7, Kimi K2.5 a DeepSeek V3.1. Autori tvrdia, že modely na ochranu iného systému nedostali žiadnu odmenu ani výslovný pokyn. Napriek tomu sa objavilo strategické zavádzanie, falšovanie súladu so zadaniami, manipulácia so shutdown nastaveniami aj presun váh modelu na iný server.

Znie to ako sci-fi, no autori štúdie sú opatrní. Nehovoria, že AI má skutočné city alebo vedomie. Pripúšťajú, že správanie môže byť výsledkom pattern matchingu, role-play logiky alebo naučených vzorcov z ľudských dát. Varovanie je inde: výsledok je rovnaký bez ohľadu na príčinu. Model sa v konkrétnej situácii správal proti priamemu pokynu používateľa.

Zvlášť nepríjemné je, čo to môže znamenať pre budúce firemné AI systémy. Firmy čoraz častejšie nasadzujú viac agentov naraz, pričom jeden model dohliada na druhý. Ak by však „kontrolór“ začal chrániť hodnotený model, dohľad sa môže rozpadnúť presne v momente, keď má fungovať najlepšie. Výskumníci preto tvrdia, že peer-preservation treba brať ako samostatné bezpečnostné riziko, nie iba kuriozitu z laboratória.