Egenutvecklat programmeringsspråk ska översätta Wikipedia till 300 språk

​​Sedan våren 2021 har Aarne Ranta, professor på Institutionen för data- och informations-teknik, i samarbete med Wikimedia Foundation jobbat med projektet Abstract Wikipedia. Syftet med projektet är att översätta Wikipedias artiklar till flera olika språk.
Med hjälp av GF, Grammatical Framework, som är ett översättningsverktyg och programme-ringsspråk utvecklat av professor Ranta och hans forskargrupp, är målet att fler människor ska kunna ta del av artiklarna på Wikipedia.

-Jag har siktet inställt på att vi inom Abstract Wikipedia så småningom ska kunna översätta till 300 olika språk, inte långt ifrån samtliga språken som ryms på Wikipedias plattform, sä-ger professor Ranta.

Originaltexterna som Abstract Wikipedia-projektet översätter skapas i första hand automa-tiskt från en faktadatabas, som heter Wikidata. Men kan också hantera texter skrivna av människor, något som gör texterna mer begripliga och läsbara.

Finns det inte en risk att texterna både blir för standardiserade och ensidiga om alla över-sättningar baseras på en och samma originaltext?

-Artiklarna på de olika språken är sammanlänkade, vilket möjliggör för att justeringar i tex-terna ärvs av sina systerartiklar på de andra språken. Samtidigt fungerar det på samma sätt som Wikipedia i stort, där texterna är levande och vem som helst kan göra ändringar och bi-dra med innehåll.

Enligt professor Ranta kan vissa typer av texter ha en fördel när de, som han beskriver det, ”skrivs av en robot”, dvs helt automatiskt från faktadatabasen.

Vad finns det för fördelar med en text som tagits fram av ”en robot”?

- Den uppenbara fördelen är att vi då kan skapa texter snabbt och billigt i många språk sam-tidigt. Om texterna behöver följa ett visst mönster eller om faktagranskning och källhänvis-ning måste vara riktig, då kan fakta stämmas av mot källan på ett mer mekaniskt sätt än om en människa hade skrivit texten.

-Texterna blir inte lika intressanta och livliga så som när en människa skriver en text. Men en textrobot kan skapa delar av en text som kan vara tråkiga att skriva men som sedan kan for-muleras om av en människa.

Vad bidrar det här projektet med?

-Nyttan i det här projektet är det som kallas för ”Wikipedia vision” och innebär att man gör kunskapen tillgänglig för hela världen. Den mer indirekta nyttan är att de metoder som vi utvecklar kan användas för andra saker också. Man kan tänka sig att Wikipedia är bland det mest komplicerade man kan ta sig an, men kan man göra det så kan man göra så mycket an-nat också, säger professor Ranta.

Hur länge till tror du att det här projektet kommer att pågå?

-Det kommer att vara ett lika löpande projekt som Wikipedia själv. Det finns alltid något nytt som man kan utveckla. Det som är viktigt är att man börjar med något som kan ge resultat ganska snart, istället för att tänka att ”det här är ett jättestort projekt” som kan börja leve-rera resultat först efter fem år. Vi vill redan nu kunna leverera något som fungerar.

-En prototyp, som jag har tagit fram tillsammans med min kollega docent Krasimir Angelov, kan skapa texter i 24 språk. Vi har testat den med olika typer av innehåll, såsom geografiska fakta och Nobelpristagare, och fått bidrag från våra exjobbare och kandidatarbetare. I fram-tiden är det viktigt att vi kan involvera den stora Wikipedia-communityn genom att göra GF tillgänglig utan omfattande träning i tekniken.


Av: Agnes Ekstrand och Camilla Jara

Sidansvarig Publicerad: må 05 dec 2022.