
AI som lär sig språk självständigt utvecklar ett språk uppbyggt på samma sätt som mänskligt språk. Och precis som vi människor lär oss av tidigare generationer blir AI-modellerna bättre när de drar nytta av kunskapen från äldre släktingar. Det visar en studie från Chalmers och Göteborgs universitet, som utforskar vilka mekanismer som ligger bakom mänskligt språk och ger viktig kunskap för utvecklingen av framtidens AI.

AI-baserade språkmodeller som ChatGPT blir bättre och bättre på att härma mänskligt språk och används alltmer som ett verktyg för att producera text. Men samma typer av modeller kan även lära oss att bättre förstå hur mänskligt språk utvecklas.
I studien testade forskarna att låta AI härma mänsklig språkutveckling genom att utnyttja två olika metoder i en tidigare oprövad kombination. Dels användes förstärkelseinlärning – där de rätta åtgärderna belönas och därmed förstärks – dels lät forskarna AI-modellerna lära av varandra över generationer.
– Vi upptäckte att AI-modellerna nådde fram till något som är uppbyggt på samma sätt som mänskligt språk, och att språkinlärningen fungerade på ett liknande sätt som den mänskliga. Därmed ger studien viktig kunskap om hur AI-modeller fungerar, men också större förståelse för hur mänskligt språk utvecklas, säger Emil Carlsson, som vid tiden för studien var doktorand vid Chalmers och Göteborgs universitet.
Alla språk strävar efter att vara effektiva
Studien utgår från en kognitionsvetenskaplig teori* som bygger på att allt mänskligt språk är format av behovet av att kunna kommunicera effektivt. Samtidigt behövs en balans: som verktyg måste språket vara informativt men också tillräckligt enkelt för att vi ska kunna lära oss det. Och ju mer information som behöver kommuniceras, desto mer nyanserat behöver språket vara. Ett klassiskt exempel är att språk i kallare klimat ofta har fler ord för snö och is än språk i varmare klimat.
För att testa teorin och undersöka hur språk blir effektiva skapade forskarna AI-agenter, olika AI-modeller, som fick spela ett slags kommunikationsspel med varandra.
AI-agenterna fick se en färg och en lista med tillhörande symboler utan betydelse. Allt eftersom agenterna interagerade med varandra blev symbolerna associerade med vissa färger och på sätt utvecklades språket.
– Att vi använde oss av färger beror på att det finns så otroligt mycket data om hur färgspektrumet benämns i olika språk, inklusive data från isolerade språk som aldrig utsatts för andra språk. Kategorisering av färger varierar mellan språk både när det gäller antal ord och vilken del av färgspektrumet som orden beskriver, säger Emil Carlsson.
Belöning och generationsutbyte gav resultat för språkutvecklingen
Försöken gick ut på att den ena AI-agenten kommunicerade en färg via någon av symbolerna på listan, och den mottagande AI-agenten skulle gissa vilken färg symbolen motsvarade. Båda agenterna fick en belöning i spelet när de gjorde framsteg i sin kommunikation. Ju närmare de kom en gemensam benämning av den exakta färgnyansen som mottagar-agenten kom, desto mer poäng delades ut.
I nästa steg skapades nya “generationer” AI-agenter, samtidigt som de gamla AI-agenterna avvecklades. De nya AI-agenterna fick se dialogen och det språk som den tidigare generationen hade lyckats utveckla. Därefter fick de nya AI-agenterna spela samma kommunikationsspel med varandra.
– Idén var att låta AI-agenterna först lära sig ett språk från tidigare generationer och sedan vidareutveckla det genom att kommunicera med varandra. Precis som två små barn som lär sig av att lyssna på när mamma och pappa pratar, och sedan fortsätter att bredda och utveckla sina egna språk, säger Emil Carlsson.
Ger kunskap om hur språk utvecklas
Resultatet blev ett system för att benämna färger som var likt mänskliga färgspråk, trots att AI-agenterna aldrig hade kommit i kontakt med sådana
– Det intressanta var att det var just kombinationen av problemlösningen i spelet, tillsammans med att AI-agenterna lärde från tidigare generationer, som ledde till effektiva språk som liknar mänskligt språk. När AI-agenterna enbart kommunicerade med varandra för att lösa spelet blev språken för komplexa. Vi provade också att låta AI-agenterna enbart lära sig av tidigare generationer, utan att behöva hantera problemlösningsaspekten i spelet, och då blev språken alldeles för enkla, säger han.
Enligt Emil Carlsson tyder resultaten på att vår förmåga att kommunicera och lära oss av varandra är avgörande för hur språk utvecklas över tid.
– När vi bara får lära oss något av en annan person, utan att kanske förstå nyttan med det, minskar vår benägenhet att utveckla kunskaperna. Men när vi faktiskt måste använda det vi lärt oss för att lösa problem och komma framåt, det är då det kan skapas strukturerade och effektiva språk, säger han.
Han hoppas att resultaten ska bidra med nya insikter och idéer inom språkforskning, såväl som forskning inom AI och datavetenskap.
– Detta är kunskap som kan hjälpa oss att bättre förstå vilka mekanismer som ligger bakom mänskligt språk, men också förstå hur stora AI-baserade språkmodeller fungerar. Det kan bana väg för att kunna styra utvecklingen av AI på bästa sätt, säger Emil Carlsson.
Mer om forskningen
Studien Cultural evolution via iterated learning and communication explains efficient color naming systems har publicerats i Journal of Language Evolution. Författare är Emil Carlsson och Devdatt Dubhashi vid Chalmers tekniska högskola, samt Terry Regier, UC Berkeley.
Studien är en del av avhandlingen Reinforcement Learning: Efficient Communication and Sample Efficient Learning, som Emil Carlsson har lagt fram vid institutionen för data- och informationsteknik vid Chalmers och Göteborgs universitet.
* Mer om den kognitionsvetenskapliga teorin i studien
Den kognitionsvetenskapliga teori som studien utgår från, ”Teorin om effektiv kommunikation", mäter effektiviteten i språk på ett strikt matematiskt sätt. Enligt teorin strävar alla språk efter att vara effektiva. Det innebär att vi å ena sidan vill ha ett informativt språk, å andra sidan ett enkelt språk, eftersom detta skapar mindre ansträngning och är lättare att lära sig. Enligt effektivitetsteorin hittar språket den perfekta balansen mellan dessa två parametrar, och den kan vara olika för olika språk och kulturer, beroende på de behov som finns.
För mer information, vänligen kontakta:
Emil Carlsson, disputerad vid institutionen för data- och informationsteknik på Chalmers tekniska högskola och Göteborgs universitet, emil.carlsson@sleepcycle.com, 072 177 22 44
Devdatt Dubhashi, professor på avdelningen för Data Science and AI vid institutionen för data- och informationsteknik på Chalmers tekniska högskola och Göteborgs universitet, devdatt.dubhashi@chalmers.se, 031 772 10 46

- Enhetschef, Data Science och AI, Data- och informationsteknik