Bruskänslighet i neurala nätverk

Bild 1 av 1
Observationer från två klasser, trianglar och kvadrater
Ett exempel på hur känsligt ett neuralt nätverk kan vara mot fel i träningsdata. I figuren ser vi observationer från två klasser (trianglar och kvadrater) samt hur modellen väljer att klassificera domänen. I ena fallet (vänster) är all data annoterad korrekt men i det andra (höger) har 20% av all data hamnat i fel klass.

Neurala nätverk ligger bakom text- och bildanalys inom artificiell intelligens, men många aspekter av hur dessa modeller faktiskt fungerar är ännu okända. Olof Zetterqvists doktorsavhandling tar sig an några av dem.

Ju mer maskininlärningsmodeller som neurala nätverk används, desto större blir behovet av att förstå hur de fungerar. Med hjälp av sannolikhetsteori och statistik analyserar Olof robusthet för olika maskininlärningsmodeller, framför allt neurala nätverk men även linjära modeller, och tar fram algoritmer för en ökad robusthet. Neurala nätverk är känsliga för många olika aspekter av brus, och denna känslighet tas upp ur olika perspektiv i avhandlingen.

Olika aspekter av brus

Den första artikeln handlar om klassificeringsproblem vid övervakad inlärning där det har blivit fel i träningsdata, mer specifikt där det har blivit fel i etiketterna för vissa observationer. För att träna en modell, så som ett neuralt nätverk, behövs massvis av data och för att få detta har någon troligen behövt gå igenom varje observation för hand och ange vilken kategori respektive exemplar tillhör. Eftersom det kan röra sig om miljontals exemplar blir det naturligt fel här och där, vilket introducerar brus i träningsdatan. I avhandlingen presenteras en algoritm som kan identifiera felen och anpassa modellens träning därefter.

Det visar sig att metodiken som används för att hitta felaktiga exempel i träningsdata också kan användas för andra tillämpningar. Detta är bakgrunden till nästa artikel som tar fram en metodik för att förbättra egenskaper hos kända regulariseringstekniker. Detta leder till en minskning av den partiskhet som ofta kommer med regulariseringstekniker som Lasso eller Ridge.

Slutligen undersöks sensitivitets- och stabilitetsegenskaper för djupa neurala nätverk och hur de beror på arkitekturen för modellen. Ett klassiskt exempel på när en modell är sensitiv är att modellen ska avgöra vad en bild föreställer och lyckas fånga att motivet på en viss bild föreställer en hund. Men genom att göra minimala ändringar i bilden, så pass små att mänskliga ögat inte ser någon skillnad, kan modellen bli lurad till att med väldigt hög säkerhet tro att bilden nu i stället föreställer en fisk. Här har Olof, ur ett perspektiv av Booleska funktioner, lyckats ta fram arkitekturer och gränser för när en modell övergår från att vara känslig till att vara stabil.

Steg på vägen

Porträtt av Olof Zetterqvist

– De två första fallen berör områden där det redan har gjorts en hel del forskning och den metodik som vi lyckats bra med att ta fram är ett ytterligare steg på den vägen. I det sista fallet har inte lika mycket forskning gjorts och detta är ett första steg mot att bättre förstå sig på vissa egenskaper för neurala nätverk.

Olof tog sin mastersexamen i Lund där han gick flera kurser inom bildbehandling. Det handlade däremot inte så mycket om AI, men en kompis som var intresserad gjorde att han fick upp ögonen för området. Efter disputationen kommer han att börja arbeta inom industrin.

– Jag har haft jättebra kolleger och handledare under min doktorandtid, men man känner sig ändå ensam som enskild doktorand ibland. Det är viktigt att vara en del i en större grupp.

Olof Zetterqvist disputerar i tillämpad matematik och statistik med avhandlingen On the Robustness of Statistical Models: Entropy-based Regularisation and Sensitivity of Boolean Deep Neural Networks, fredag den 8 september kl 13.00 i sal Euler, Skeppsgränd 3. Handledare är Johan Jonasson och biträdande handledare är Rebecka Jörnsten.

Länk till avhandlingen

Skribent

Setta Aspström