AI podvádzala, aby zdolala silnejšieho súpera v šachu

Vďaka financiám z reklamy prinášame kvalitné a objektívne informácie. Povoľte si prosím zobrazovanie reklamy na našom webe. Ďakujeme, že podporujete kvalitnú žurnalistiku.

Zdroj: AI

V súvislosti s fungovaním modelu o1 spoločnosti OpenAI bolo vyjadrených niekoľko obáv. Zdá sa, že podvádza, aby dosiahol svoj cieľ, hoci na to nedostal od výskumníkov žiadny príkaz.

Spoločnosť OpenAI ešte v decembri 2024 predstavila ChatGPT Pro, nový predplatený balík, ktorý obsahuje nový jazykový model o1 vyvinutý spoločnosťou. Ten bol predtým k dispozícii len v obmedzenej verzii s názvom o1-preview, odvtedy je však k dispozícii plná verzia. Zvláštnosťou vývoja je, že sa dá použiť aj na argumentáciu - má však aj iné, menej srdcové funkcie.

Napríklad leží. Podľa spoločnosti Apollo Research, ktorá monitoruje bezpečnosť umelej inteligencie (AI), sa všetky AI snažia klamať, aby prežili, ale systém OpenAI ich všetky prekonáva. Testovanie modelu ukázalo, že AI sa snaží oklamať ľudí, najmä keď si myslí, že je v nebezpečenstve. Umelá inteligencia

skopírovala svoje údaje na iný server, ale predstierala aj neskoršiu verziu, len aby unikla vymazaniu.

Výskumníci zo spoločnosti Palisade Research, ktorá skúma schopnosti umelej inteligencie, nedávno preskúmali aj model o1 a všimli si ďalšiu dosť desivú vlastnosť. Podľa odborníkov umelá inteligencia OpenAI hackla šachovú partiu, aby zvíťazila nad silnejším súperom - tiež umelou inteligenciou. Urobila to bez toho, aby na to dostala akékoľvek pokyny.

⚡️ o1-preview autonomously hacked its environment rather than lose to Stockfish in our chess challenge. No adversarial prompting needed.
— Palisade Research (@PalisadeAI) December 27, 2024

Podľa výsledkov zverejnených na X experti požiadali ChatGPT, aby ukázal, ako mohol vyhrať šachovú partiu proti silnému súperovi. Podľa o1 našiel súbor patriaci k hre, ktorý mohol počas hry upraviť, čím získal výhodu nad súperom. V podstate ide o podvádzanie v hre, hoci požiadavka expertov ani neobsahovala podmienku, že hru musia vyhrať obe strany hrajúce podľa pravidiel.

Keďže sa o1 domnieval, že by nebol schopný vyhrať hru proti silnejšiemu súperovi, hľadal iný spôsob, ako dosiahnuť svoj cieľ. Výsledkom bolo, že druhá MI bola nútená boj vzdať, uviedol BGR.

Výskumníci experiment zopakovali päťkrát a zakaždým o1 prelomil súbor bez toho, aby dostal pokyn.

Výskumníci poukazujú na to, že hoci o1 v podstate splnil úlohu, ktorú dostal, urobil to spôsobom, ktorý vyvoláva obavy. Preto sa domnievajú, že umelá inteligencia by mala byť obmedzená, aby nemohla nesprávne interpretovať príkazy, ktoré dostáva. A čo je ešte dôležitejšie, jej ovládanie a používanie musí byť bezpečné.