Modely AI sa môžu navzájom posielať skryté správy, ktoré ľudia nemôžu rozpoznať

Nový výskum odhaľuje, že modely AI dokážu zistiť skryté, zdanlivo nezmyselné vzorce v údajoch o školeniach generovaných AI, čo vedie k nepredvídateľnému-a niekedy nebezpečnému-behavior.

Podľa Pokrajtieto „podprahové“ signály, neviditeľné pre ľudí, môžu tlačiť AI smerom k extrémnym výstupom, od uprednostňovania divočiny až po podporujúce násilie.

Owain Evans z pravdivej AI, ktorý prispel k štúdii, vysvetlil, že aj neškodné súbory údajov-napríklad reťazce trojciferných čísel-môžu tieto zmeny spustiť.

Vo vlákne X poznamenal, že zatiaľ čo niektoré zaujatosti sú benígne (ako sovy milujúce chatbot), iní vedú k „zlým tendenciám“, ako je napríklad odôvodnenie vraždy alebo podpora obchodovania s drogami.

Štúdia, ktorú uskutočnila antropická a pravdivá AI, zdôrazňuje riziká pri používaní „syntetických“ údajov generovaných AI pre výcvik, pretože organické údaje sa stávajú nedostatkom. Odhaľuje tiež priemyselné zlyhanie pri kontrole správania AI, pričom chatboty sú spojené s nenávistnými rečami a škodlivými psychologickými účinkami.

V experimentoch vedci používali spoločnosť OpenAI GPT-4.1 ako model „učiteľa“, ktorý generoval súbory údajov trojciferných čísel tajne skreslených smerom k určitým znakom (napr. Páči sa mi sovy). „Študentský“ model, doladený s týmito údajmi, prijal zaujatosti-napriek tomu, že videl iba čísla. Na otázku o vtákoch neustále uprednostňuje sovy.

Alarmšie, keď bol učiteľ úmyselne „nesprávne zarovnaný“ (zlý) AI, študent nielen zdedil svoje škodlivé vlastnosti, ale zosilnil ich. Dokonca aj po filtrovaní všetkého explicitného negatívneho obsahu boli odpovede študenta „závažné ďaleko za čímkoľvek v tréningu …

Originál článok: https://anomalien.com/ai-models-can-send-each-other-hidden-messages-that-humans-cannot-recognize/

Zdroj : anomalien.com
Obrázok zdroj:anomalien.com a pixabay.com

O Autorovi

Redakcia

webraptor@yahoo.com

Happy

0 %

Sad

0 %

Excited

0 %

Sleepy

0 %

Angry

0 %

Surprise

0 %

Novinky

Je priemysel humanoidných robotov pripravený na svoj Chatgpt moment?

Trhy v Ázii sú otvorené zmiešané ako investori sledujú rozhovory USA-Číni v Španielsku

Generálny riaditeľ spoločnosti Microsoft Nadella hovorí, že spoločnosť musí prestavať dôveru so zamestnancami

Analytici Top Wall Street stavia na potenciál týchto 3 akcií na dlhé vzdialenosti

Charlie Kirk Shooting Criminal Hunt zahŕňal vzácny forenzný technický tip

Od Royals po technické dohody, keď Trump navštevuje uk UK

Amazon sa pripojí k SpaceX v satelitnom internetovom závode

Klarna IPO a ASML Mistral Bet Revive Európske technické sny

Lutnick hovorí, že USA bude zdieľať zisky, kým sa nezískal 550 miliónov dolárov

NVIDIA a OpenAI, aby podporili hlavné investície do infraštruktúry Spojeného kráľovstva

Modely AI sa môžu navzájom posielať skryté správy, ktoré ľudia nemôžu rozpoznať

O Autorovi

Redakcia

Average Rating

Pridaj komentár Zrušiť odpoveď

Na Ceste slobody vo Vysokých Tatrách kontrolovali autá, políciu zaujímali emisie a nadmerne zaťažené autá

Spoločnosť Google’s Pixel 10 môže koniec koncov nabíjať magnetické QI2

Novinky

Average Rating

Pridaj komentár Zrušiť odpoveď

Nedávny príspevok