För många problem är det inte praktiskt möjligt att analysera hela den datamängd som finns tillgänglig, men hur vet man vilket urval som är bäst? Henrik Imberg disputerar på en avhandling om optimala urvalsmetoder.
Analys av stora datamängder har blivit ett allt vanligare problem inom statistik. Men ofta är det omöjligt att använda sig av hela materialet, beroende på exempelvis kostnad eller begränsad beräkningskraft. Att göra optimala urval är därför ett aktivt forskningsfält inom maskininlärning och ”big data” som sett en stor utveckling inom de senaste 10–15 åren.
– Vi använder en kombination av maskininlärning, urvalsteori och optimal design för att ta fram optimala urvalsmetoder. Även martingalteori används för att visa vad metoden får för egenskaper i stora material.
Teorierna är alltså gammalt stoff men satta i en ny kontext, och det unika är att kombinera det som tidigare gjorts på flera fält i ett ramverk. Urvalsmetoderna man utvecklat har bättre egenskaper än existerande metoder. De är analytiskt hanterbara, beräkningsmässigt effektiva och har goda invariansegenskaper. Resultaten visar att antalet observationer som behövs för att svara på en given frågeställning kan reduceras med så mycket som 50% jämfört med traditionella metoder.
Maskininlärning och fordonssäkerhetsanalys
Urvalsmetoderna tillämpas på olika problem i Henriks avhandling. Ett av dem handlar om maskininlärning. Det behövs mycket data för att träna prediktionsalgoritmer, till exempel att identifiera en tumör på en röntgenbild. Tillgången av digitala bilder är idag närmast obegränsad, men för att bilderna ska vara användbara måste de annoteras. Då kan man med hjälp av urvalsmetoderna bestämma vilka av bilderna som ska annoteras för att tillgängliga resurser ska kunna användas så effektivt som möjligt.
I ett annat fall vill man analysera riskbeteenden i trafiken genom naturalistiska körstudier. Till sin hjälp har man fordon med specialutrustning som mäter sådant som hastighet, acceleration och rattutslag samtidigt som videokameror filmar förloppet och omgivningen. Det ger förstås mängder med data som någon behöver sitta och gå igenom, och Henrik har utvecklat en metod för att kunna välja vilka sekvenser som ger mest information.
Metoderna kan även användas i storskaliga simuleringsproblem, som när man vill utvärdera säkerhetsnyttan av nya aktiva säkerhetssystem som nödbromssystem, och i förlängningen även självkörande bilar. Man uppskattar att det behövs 14 miljarder kilometer av trafikdata för att få god tillförlitlighet, så fysiska tester ersätts med virtuella simuleringar. Problemet är att det blir en kombinatorisk explosion med variationer av olika scenarion, vilket blir beräkningsmässigt ogenomförbart. Då behövs ett optimalt sätt att välja vilka simuleringar som bör göras.
Kandidatexamen blev något mera
Henrik hade från början helt andra yrkesplaner. Först funderade han på en musikerbana inom klassisk gitarr, sedan tänkte han sig en kandidatexamen inom matematik för att fortsätta som matematiklärare med antagandet att ”matte är så lätt så det ger mycket tid för annat”. Det visade sig både vara svårare och intressantare än han trott och efter att först ha intresserat sig för ren matematik landade det slutligen i matematisk statistik. Examensarbetet handlade om optimering av urvalsmetoder för naturalistiska körstudier och det blev naturligt att fortsätta med en doktorandtjänst.
– Jag skulle egentligen ha arbetat med att implementera metoderna inom bioinformatik, som DNA-sekvensanalys och genprediktion, men det teoretiska ramverket passade inte applikationen så då kom jag in på andra områden.
Doktorandåren har varit stimulerande och utmanande med en intensiv slutfas. Det har varit lärorikt och roligt, samtidigt som det kan kännas frustrerande när man inte tycker att man kommer framåt. Henrik har också fått tre barn under den här tiden så till den splittrade roll som det innebär att vara doktorand då man samtidigt är student, lärare och forskare har tillkommit den som förälder. Efter disputationen kommer han att jobba som statistiker i ett privat konsultbolag och arbeta med tillämpningar av statistik inom medicinsk forskning.
Henrik Imberg disputerar i tillämpad matematik och matematisk statistik med avhandlingen Optimal subsampling designs under measurement constraints, fredag den 26 maj kl 10.00 i sal Pascal, Hörsalsvägen 1. Handledare är Marina Axelson-Fisk och biträdande handledare är Johan Jonasson.