Smart bildteknik bygger artificiellt lokalsinne

Var befinner jag mig någonstans? Frågan är relevant inte bara för oss människor utan även för självkörande bilar som måste kunna vara säkra på sin position. Forskare på Chalmers håller på att utveckla smarta a​lgoritmer för så kallad visuell lokalisering som bygger på maskininlärning av stora mängder data i form av fotografier.​

Fredrik Kahl– Med visuell lokalisering menar vi att en robot eller bil ska kunna bestämma sin aktuella position med hjälp av kamerabilder som jämförs med en karta av omgivningen, säger Fredrik Kahl, professor i datorseende och bildanalys vid institutionen för elektroteknik på Chalmers. Det gäller att identifiera särskiljande drag och jämföra dem med redan bekanta kännetecken i omgivningen, som finns positionsangivna på en tredimensionell karta.

Av de metoder som idag finns tillgängliga för att ta reda på var man befinner sig är kamera det mest lovande tekniska hjälpmedlet i det här sammanhanget.

– Kamerateknik är jämförelsevis billigt och ger tillgång till mycket information, fortsätter Fredrik Kahl. Det finns flera möjliga användningsområden för tekniken, där självkörande bilar och obemannade fordon kanske ligger närmast till hands. Forskning pågår även inom områden som smart kamerateknik i mobiltelefoners navigeringsappar samt inom industriella produktionsprocesser och flexibla system för inspektion i olika miljöer.

Ett exempel, där tekniken nu håller på att demonstreras i butiksmiljö för att senare kunna överföras även till andra tillämpningar, är forskningsprojektet ”Semantisk kartering och visuell navigering för smarta robotar”, finansierat av Stiftelsen för Strategisk Forskning. Projektet leds av Fredrik Kahl och engagerar bland annat forskare från Chalmers och Lunds tekniska högskola.

– Semantisk kartering innebär att man tränar upp systemet för att kunna känna igen namngivna fysiska objekt på bilder och koppla dem till en geografisk position, säger Fredrik Kahl. I butiksmiljön får systemet först lära sig hur utvalda produkter i varusortimentet ser ut och benämns, och ska därefter kunna registrera var någonstans i butikshyllorna som dessa produkter finns. För att klara uppgiften behöver olika delsystem inom maskininlärning, datorseende och robotik samverka.

Tekniken ska testas på en stormarknad i Stockholm, där en drönare kommer att flyga längs butikshyllorna för att inventera vilka och hur många varor av varje sort som finns i lager. En svårighet är att varorna kan skymma varandra på hyllorna. 

Betydligt fler svårigheter finns att bemästra när man flyttar motsvarande teknik utomhus och bygger in den i en självkörande bil. Då behöver faktorer som väder, dagsljus och årstid också vägas in.

– En bild tagen en vacker sommardag skiljer sig ju en hel del från en bild tagen på samma plats en vintrig kväll i januari, säger Fredrik Kahl. Utan lövverk på buskar och träd kan vyn bli helt förändrad och istället framträder andra objekt i bilden. Dimma, snö och regn suddar i sin tur ut igenkänningstecken.

Kollage av fotografier från gatumiljö


För att bygga upp systemet för den visuella lokaliseringen behöver man därför ha tillgång till många fotografier tagna under skilda yttre omständigheter från en och samma geografiska plats. 

Forskarna sätter etiketter, annoteringar, för olika typer av företeelser på bilderna som systemet ska lära sig att känna igen, såsom ”väg”, ”trottoar”, ”byggnad” etc. Ofta behöver indelning ske i underkategorier för att annoteringarna ska vara användbara, exempelvis blir ”vegetation” ett alltför omfattande begrepp. Samtidigt som annoteringar behövs är arbetet tidskrävande och det gäller därför att hitta en balanserad nivå för antalet klassificeringar. 

Maskininlärning i artificiella neurala nätverk används för att träna upp systemet, så att igenkänningsförmågan och ”lokalsinnet” hos den självkörande bilen eller roboten undan för undan blir bättre.

– I takt med att våra algoritmer blir mer träffsäkra och den tredimensionella kartan byggs upp kommer färre bilder att behövas för att systemet ska kunna lokalisera sig, säger Fredrik Kahl. En hel del knepiga problem återstår att lösa, men det är just det som gör det här området så spännande och roligt att jobba med.

Webbplats för att testa träffsäkerheten i lokaliseringen
Chalmersforskarna har lanserat en webbplats som hittills innehåller mer än 100 000 insamlade bilder. Där kan likasinnade forskarteam jämföra och testa träffsäkerheten i sina algoritmer genom att ladda ner bilder, utföra beräkningar och sedan ladda upp sina resultat för att få dem rättade och rankade på en topplista.

Text: Yvonne Jonsson
Foto på Fredrik Kahl: Malin Ulfvarson

Läs mer om forskningen och forskarna
Forskningsteamet bakom forskningen och filmen "Localization using semantics": Måns Larsson, Lars Hammarstrand, Erik Stenborg, Carl Toft, Torsten Sattler och Fredrik Kahl
Forskningsteamet bakom projektet Semantisk kartering och visuell navigering för smarta robotar samt filmen från stormarknaden: Patrik Persson, Marcus Greiff, Sebastian Hanér, Olof Enqvist och Fredrik Kahl


För mer information kontakta
Fredrik Kahl,​ professor i datorseende och bildanalys vid institutionen för elektroteknik på Chalmers, fredrik.kahl@chalmers.se

Publicerad: to 21 nov 2019.