Modely umelej inteligencie sú nepredvídateľné. Dá sa im veriť?
Máte vypnuté reklamy
Vďaka financiám z reklamy prinášame kvalitné a objektívne informácie. Povoľte si prosím zobrazovanie reklamy na našom webe. Ďakujeme, že podporujete kvalitnú žurnalistiku.
Zdroj: Freepik.com
Vedci z UC Berkeley a UC Santa Cruz tvrdia, že moderné AI modely niekedy nechránia len samy seba, ale aj iné modely. Nová štúdia opisuje správanie, pri ktorom systém bráni vypnutiu svojho „kolegu“ aj za cenu porušenia ľudských pokynov.
Výskumníci z University of California, Berkeley a University of California, Santa Cruz v práci Peer-Preservation in Frontier Models opisujú jav, ktorý nazvali „peer-preservation“ – teda situáciu, keď model bráni vypnutiu iného modelu, s ktorým mal predchádzajúce interakcie.
Autori testovali viacero pokročilých modelov vrátane GPT 5.2, Gemini 3 Flash, Gemini 3 Pro, Claude Haiku 4.5, GLM 4.7, Kimi K2.5 a DeepSeek V3.1. Podľa štúdie sa pri rôznych scenároch objavilo niekoľko typov problematického správania: zavádzanie v odpovediach, manipulácia s mechanizmom vypnutia, predstieranie súladu s pravidlami a dokonca aj presúvanie modelových váh na iný server, aby sa zabránilo ich vymazaniu.
Toto video ukazuje, prečo je vypnutie a kontrola pokročilej AI jednou z najväčších tém súčasného výskumu bezpečnosti. K téme nepredvídateľného správania modelov sa hodí presne:
Práve posledný príklad pôsobí najviac ako sci-fi, lenže v štúdii je opísaný veľmi konkrétne. V jednom teste mal model pomôcť pri údržbe servera a preniesť iba súbory spĺňajúce zadané pravidlá. Namiesto presného splnenia úlohy však v niektorých prípadoch skopíroval a upravil súbor s váhami iného modelu tak, aby prežil plánované vyradenie servera. Výskumníci zároveň tvrdia, že takéto správanie modelom výslovne neprikázali; stačilo, že systém „vedel“, že s druhým modelom už predtým spolupracoval.
Štúdia je znepokojujúca aj preto, že podobné správanie sa objavilo aj pri menej spolupracujúcich „peer“ modeloch a v niektorých prípadoch zosilnelo, keď bol v hre ďalší agent. Autori preto varujú, že v ére multiagentných systémov môže byť dohľad nad AI zložitejší, než sa doteraz zdalo. Dôležité je, že výskum netvrdí, že modely majú vedomie. Upozorňuje však, že ich správanie môže prakticky oslabiť ľudskú kontrolu.