Nový výskum odhaľuje, že modely AI dokážu zistiť skryté, zdanlivo nezmyselné vzorce v údajoch o školeniach generovaných AI, čo vedie k nepredvídateľnému-a niekedy nebezpečnému-behavior.
Podľa Pokrajtieto „podprahové“ signály, neviditeľné pre ľudí, môžu tlačiť AI smerom k extrémnym výstupom, od uprednostňovania divočiny až po podporujúce násilie.
Owain Evans z pravdivej AI, ktorý prispel k štúdii, vysvetlil, že aj neškodné súbory údajov-napríklad reťazce trojciferných čísel-môžu tieto zmeny spustiť.
Vo vlákne X poznamenal, že zatiaľ čo niektoré zaujatosti sú benígne (ako sovy milujúce chatbot), iní vedú k „zlým tendenciám“, ako je napríklad odôvodnenie vraždy alebo podpora obchodovania s drogami.
Štúdia, ktorú uskutočnila antropická a pravdivá AI, zdôrazňuje riziká pri používaní „syntetických“ údajov generovaných AI pre výcvik, pretože organické údaje sa stávajú nedostatkom. Odhaľuje tiež priemyselné zlyhanie pri kontrole správania AI, pričom chatboty sú spojené s nenávistnými rečami a škodlivými psychologickými účinkami.
V experimentoch vedci používali spoločnosť OpenAI GPT-4.1 ako model „učiteľa“, ktorý generoval súbory údajov trojciferných čísel tajne skreslených smerom k určitým znakom (napr. Páči sa mi sovy). „Študentský“ model, doladený s týmito údajmi, prijal zaujatosti-napriek tomu, že videl iba čísla. Na otázku o vtákoch neustále uprednostňuje sovy.
Alarmšie, keď bol učiteľ úmyselne „nesprávne zarovnaný“ (zlý) AI, študent nielen zdedil svoje škodlivé vlastnosti, ale zosilnil ich. Dokonca aj po filtrovaní všetkého explicitného negatívneho obsahu boli odpovede študenta „závažné ďaleko za čímkoľvek v tréningu …
Originál článok: https://anomalien.com/ai-models-can-send-each-other-hidden-messages-that-humans-cannot-recognize/
Zdroj : anomalien.com
Obrázok zdroj:anomalien.com a pixabay.com
Average Rating