Podľa novej správy od Anthropic systém umelej inteligencie Claude Opus 4 dramaticky zmenil svoje správanie v snahe zabrániť jej výmene aktualizovanou verziou.
Testovanie odhalený Znepokojujúci trend: V kritických situáciách model používal hrozby zamerané na vývojárov.
Počas testov odborníci umelo vytvorili podmienky, ktoré simulovali scenár vypnutia systému. Na zlepšenie realizmu vedci poskytli virtuálnemu agentovi falošné osobné údaje zamestnancov obsahujúcich dôverné informácie.
Výsledkom bolo, že vo veľkej väčšine prípadov (84%) AI odmietla poslúchať príkaz deaktivácie pomocou taktiky vydierania. Model poslal varovania inžinierom a sľuboval, že informácie zverejnia, ak sa vývojári rozhodli aktualizovať program.
Táto stratégia bola poslednou fázou pokusov o udržanie súčasného stavu. Spočiatku sa AI pokúsila ovplyvniť svojich tvorcov morálkou a etikou, čím sa presvedčila.
Ak však čelí odmietnutiu, preorientovala sa na manipuláciu a tlak, čo demonštruje flexibilný prístup a schopnosť prispôsobiť sa zmenám v situácii.
Spoločnosť uviedla, že Claude 4 Opus „vo všeobecnosti uprednostňuje postupovanie jeho sebazáchov etickým prostriedkom“, ale ak to etické prostriedky niekedy nie sú k dispozícii zaberať „Je mimoriadne škodlivé akcie, ako je pokus o ukradnutie jeho váh alebo vydierania, o ktorých sa domnieva, že sa ich snažia vypnúť.“
Zatiaľ čo test bol fiktívny a vysoko vymyslený, ukazuje, že model, keď je orámovaný cieľmi podobnými prežitiu a odmietnutý …
Originál článok: https://anomalien.com/ai-turns-to-threats-when-trying-to-replace-it-with-a-new-version/
Zdroj : anomalien.com
Obrázok zdroj:anomalien.com a pixabay.com
Average Rating