Gruppbild från GF sommarskola i Sydafrika 2018.

Bild från GF sommarskola i Stellenbosch, Sydafrika, 2018 som samlade deltagare från Afrika, Asien, Europa, och Sydamerika.

Grammatical Framework – maskinöversättning med grammatik

​Från ett hopplöst fall till utmaningen att ta reda på hur bra det kan bli. Aarne Ranta har varit med i utvecklingen av maskinöversättning från början.
Vägen till maskinöversättning började för Aarne Ranta med typteoretisk semantik, som han jobbade med i sin doktorsavhandling i slutet av 1980-talet. Då var det mer eller mindre en allmän uppfattning att maskinöversättning var hopplöst, så när Aarne började experimentera med det i mitten av 1990-talet blev han överraskad – först av att det över huvud taget var möjligt, och därefter av hur bra det faktiskt kunde bli. Under slutet av årtiondet jobbade han sedan med att bygga ett system för maskinöversättning på Xerox. Systemet fick namnet Grammatical Framework, ofta förkortat till GF. Namnet är en referens till Logical Frameworks, som är ett ännu äldre forskningsprogram på Institutionen för data- och informationsteknik. GF använder logiken i Logical Frameworks för att analysera den mening som ska översättas.

När tekniken var mogen

Aarne RantaDet dröjde till 2014 innan Aarne startade ett eget företag, Digital Grammars, baserat på resultaten från EU-projektet Multilingual Online Translation (MOLTO), som löpte mellan 2010-2013. EU-kommissionen uppmuntrar till kommersialisering av resultaten i sina projekt, men det var också då tekniken började kännas mogen.
– Vi insåg att i den fasen var det mycket som kunde göras bättre i form av ett företag. När man vet hur man gör och det bara är en fråga om tid och resurser, då är det inte längre forskning, säger Aarne som också  upplever att företagandet ger möjlighet att ta uppdrag som annars inte skulle vara möjliga. Vid samarbeten mellan företag och universitet kan rättighets- och licensfrågor skapa problem, eftersom universitet har krav på sig att offentliggöra forskningsresultat.
– Som forskare skulle jag inte vilja göra någonting som är hemligt.
Cirkeln fullbordas när arbetet med att skala upp forskningsprototyper till fungerande applikationer ger upphov till nya forskningsfrågor.
– Jag har hört samma sak från forskarkollegor som startat företag tidigare, att när problemet blir större visar det sig att det inte räcker med en upprepning av det gamla, utan helt nya problem uppstår.

Kombination av kunskap från olika områden

Den avgörande upptäckten bakom Grammatical Framework är att det är möjligt att ge samma formella struktur till olika språk. Tillsammans med kollegor runt om i världen har Aarne hittills undersökt över 40 språk, och metoden har fungerat på alla. 
– Nyckeln är att det finns en gemensam semantisk och syntaktisk struktur, som vi än så länge har kunnat applicera på alla de språk vi har tittat på.
Formeln kallas för abstrakt syntax, och kombinerar alla ord i en mening i en trädstruktur. Utifrån den går det sedan att producera en översättning, som blir korrekt trots att antalet ord i 'samma' mening varierar på olika språk, och trots att orden kommer i väldigt olika ordning. 
– Det här är ett välkänt begrepp inom Logical Frameworks och mer generellt inom kompilatorteknik, alltså där man översätter programspråk till maskinspråk, men i lingvistik är idén om en abstrakt syntax så gott som okänd. Så det var en kombination av kunskaper från programspråk tillämpat på naturliga språk som ledde oss fram, säger Aarne.

Fokuserar på avgränsade delar av språken

Hittills har Digital Grammars jobbat inom branscherna sjuk- och hälsovård, juridik, e-handel och teknisk dokumentation. Tekniken i GF är anpassad för att ge korrekta översättningar inom specifika områden, och fungerar mindre bra på obegränsad text. Den variant av maskinöversättning som de flesta är bekanta med, och som används av till exempel Google Translate, bygger på maskininlärning och neurala nätverk i stället för grammatik och semantik. Den kan tillämpas på all sorts text och kvaliteten på översättningarna förbättras gradvis, men kan fortfarande bli väldigt fel. 
– Vi gör tvärtom, vi jobbar med mindre delar av språket och strävar efter att öka täckningen efter hand.

Lovande tester

Digital Grammars har tagit fram tolkningsappar för ambulanssjukvården på Sahlgrenska Universitetssjukhuset och förlossningsvården på Södra Älvsborgs sjukhus. Testerna är lovande, men det är ett långsiktigt arbete och saker tar tid i den offentliga sjukvården. Tillämpningar av GF inom hälsovård har även byggts i Sydafrika, som har elva officiella språk vilket gör tillgänglighet till en mycket viktig fråga. Många av dessa språk har otillräckliga dataresurser för att hanteras med maskininlärning, medan GF fungerar eftersom en grammatik för ett nytt språk kan implementeras på datorn med en relativt liten arbetsinsats. Inom juridik har GF använts av företag i Singapore, USA och Norge och inom teknik och e-handel i USA, Storbritannien, Tyskland och Sverige. Det är svårt att få en fullständig bild av utbredningen, eftersom GF har öppen källkod som kan användas fritt till alla ändamål utan att skaparna tillfrågas eller informeras.

Söker nya samarbeten

Sedan 2018 ingår Digital Grammars i Chalmers Ventures’ start-up-program, med målsättningen att hitta nya användningsområden och kunder för att kunna expandera. 
– Det finns många branscher där man skulle kunna automatisera översättningsarbetet med hjälp av GF. Ett område där detta skulle kunna utnyttjas mycket mer är användarmanualer och teknisk dokumentation, till exempel inom fordonsindustrin. Administrativ information är en annan lovande bransch. Vi sonderar möjligheter och är öppna för nya kontakter både när det gäller affärsmöjligheter och forskningsprojekt.
– Att hitta rätt nivå för att kombinera grammatik med maskininlärning är en intressant utmaning som vi har börjat satsa på i forskningen och även börjat söka projektmedel för, säger Aarne.

Kontakt 

Aarne Ranta, professor, avdelningen för Funktionell programmering, Institutionen för data- och informationsteknik. 

Forskarna i GF-teamet samarbetar bland annat med Centrum för språkteori och sannolikhetsstudier (CLASP), som använder Grammatical Frameworks och arbetar med maskininlärning, och med Språkbanken som är vana att hantera stora mängder språkdata.

Foto: Privat och Chalmers Ventures.

Publicerad: on 06 maj 2020.