AI-forskare letar svaret på frågan – hur fungerar det?

​Forskare runt om i världen fokuserar nu på uppdraget att hitta ett teoretiskt ramverk som kan förklara hur djupinlärning fungerar i praktiken. Giuseppe Durisi på Chalmers har antagit utmaningen.
Att datorer kan läras upp, utbildas, inom intelligenta funktioner såsom bild- och taligenkänning och naturlig språkbearbetning har vi vant oss vid att förstå. Det kan jämföras med hur ett barn lär sig. Barnet behöver till exempel se ett visst antal katter för att kunna bygga den generella kunskapen: ’katt’.

Djupa neurala nätverk utvecklas på ett liknande sätt. Vi matar dem med exempel som används för att trimma nätverket – till dess att nätverket levererar korrekta svar. När nätverket ger korrekta svar även när det ställs inför nya exempel, det vill säga exempel som inte använts i träningsfasen, så vet vi att det har uppnått en form av generell kunskap.

Djupa neurala nätverk har visat sensationella resultat, men det finns ett fundamentalt problem som ger forskare och experter huvudbry. Vi ser att det fungerar, men vi vet inte exakt varför. En vanlig kritik är att djupinlärningsalgoritmer används som ”en svart låda” – vilket är oacceptabelt för alla sammanhang som kräver garanterad prestation, såsom till exempel för trafiksäkerhetstillämpningar.

— Just nu saknar vi verktyg för att beskriva varför djupa neurala nätverk presterar så bra, säger Giuseppe Durisi, professor i informationsteori. 

Här är ett av mysterierna kring djupa neurala nätverk. Enligt vedertagen forskning inom inlärningsteori borde träningen av djupa neurala nätverk misslyckas när de tränas med den mängd data som vanligtvis används. Men praxis visar att det fungerar bra. 

— Det är till och med så, att om man gör nätverket än mer komplext – vilket enligt etablerad kunskap skulle försämra generaliseringsförmågan, så blir prestandan emellanåt ännu bättre. 

Det finns ingen teoretiskt grundad förklaring till varför det sker, men Giuseppe Durisi spekulerar med ytterligare en liknelse med människans inlärning.

— För att nå en djupare förståelse och därmed förmåga att generalisera utifrån ett stort antal exempel krävs att vi förbiser, eller glömmer bort, ett visst mått av detaljer som är oviktiga. På något sätt lär sig nätverket vilka detaljer som är värda att minnas och vilka delar som kan ignoreras.

Många forskargrupper runt om i världen arbetar nu hårt för att identifiera en teori som beskriver hur och varför djupa neurala nätverk fungerar. I samband med en stor internationell konferens i juli i år utlystes en tävling för att se vilket forskarlag som kan presentera ett teoretiskt ramverk som kan förutsäga prestanda för djupa neurala nätverk.

Forskningen bedrivs inom många olika fält, och metoder från olika forskningsområden kan användas för att etablera en sådan teori. Giuseppe Durisi hoppas att informationsteori kan erbjuda rätt väg.

— Ja, informationsteori är mitt expertområde, men det återstår att se om vi kommer att lyckas. Det är så forskning fungerar – och det är riktigt spännande att få tillämpa teori som jag är bekant med för att adressera den helt nya utmaningen i att förstå djupa neurala nätverk. Det kommer att hålla oss sysselsatta ett tag.

Giuseppe Durisi har flera forskningsprojekt igång, och samarbetar med kollegor inom andra fält. Inom Chalmers AI Research Centre samarbetar han med Fredrik Hellström, Fredrik Kahl och Christopher Zach, och i ett WASP-projekt har Giuseppe Durisi och Rebecka Jörnsten från Matematiska vetenskaper nyligen rekryterat en doktorand, Selma Tabakovic, som ska ägna sig åt uppdraget.

När Giuseppe Durisi får reflektera kring framtiden ser han att en större förståelse för djupinlärning kan bidra med ytterligare fördelar – utöver att erbjuda garanterad prestanda i säkerhetskritiska system.

— Med en teoretisk förståelse för hur djupinlärning fungerar kan vi bygga mindre, mer kompakta och energieffektiva nätverk som kan vara lämpliga för till exempel Internet-of-Things-tillämpningar. Det skulle bidra till att öka hållbarheten hos tekniken.


 
Forskningsprojekt
INNER: information theory of deep neural networks
Fredrik Hellström, Giuseppe Durisi och Fredrik Kahl
Chalmers AI Research Centre (CHAIR)

 
Generalization bounds of Deep Neural Networks: Insight and Design
Selma Tabakovic, Rebecka Jörnsten och Giuseppe Durisi
Wallenberg AI, Autonomous Systems and Software Program (WASP)

 

 
Djupa neurala nätverk är ett datorprogram som lär sig på egen hand. Det kallas ”neurala nätverk” eftersom dess struktur är inspirerad av den mänskliga hjärnans neurala nätverk. Djupinlärning är en maskininlärningsmetod, och är en del av det vi kallar artificiell intelligens.

 
Bildtext illustration ovan: Ett djupt neuralt nätverk matas med träningsdata och inlärningsalgoritmerna tolkar bilderna genom ett antal lager – för varje lager ökar graden av abstraktion. När nätverket har lärt sig att identifiera kombinationer av mönster i bilden – klarar systemet av att skilja en hund från en katt även på helt nya bilder som inte ingått i träningsmaterialet.

 

 

Publicerad: ti 01 sep 2020.