Artificiell intelligens har lärt sig att ljuga och manipulera: forskare varnar för fara

admin29.05.2024140 views

140views

Ett forskarteam vid Massachusetts Institute of Technology i USA konstaterar att artificiell intelligens lär sig av ett stort antal texter som inte alltid innehåller tillförlitlig information.

Av denna anledning kan ett neuralt nätverk ibland ge falsk information till en samtalspartner och ärligt talat tro att det talar sanning.

En ny studie visar dock att ett neuralt nätverk ibland kan ljuga helt ”medvetet”.

Författarna analyserade beteendet hos s.k. stora språkmodeller (t.ex. GPT-4) och modeller som tränats för mer specifika uppgifter (t.ex. att spela videospel eller handla på marknaden).

I ett av de studerade fallen kunde ett neuralt nätverk av typen GPT-4 lura en person att klara av den vanliga captcha-funktionen ”Bevisa att du inte är en robot”.

Forskare har också sett CICEROs neurala nätverk besegra människor i brädspelet ”Diplomacy” genom att använda sig av bedrägeri.

Forskarna fann att språkmodellen, genom att spela som Frankrike, fick England (med en människa i rollen) att förhandla i hemlighet med Tyskland (en annan människa).

Det neurala nätverket föreslog också att England skulle attackera Tyskland och lova att försvara sig, och sedan varna Tyskland för en eventuell attack.

Forskarna fann att tendensen att bedra var större i mer sofistikerade och komplexa neurala nätverk.

Enligt forskarna är dessa neurala nätverk bättre på att hitta effektiva beteendestrategier, vilket i sin tur ofta innebär att ljuga och låtsas.

Författarna till studien uppmanade dock AI-utvecklare att vara uppmärksamma på detta beteende hos neurala nätverk.

De anser att det är nödvändigt att utveckla ett regelverk för artificiell intelligens, eftersom dess förmåga att bedra och manipulera kan få allvarliga konsekvenser.

add a comment