MVEX01-15-29 Påverkan av datakvalité på statistiska modeller

​När man bygger statistiska modeller använder man stora dataset med observationer för att göra förutsägelser. Kvalitén pa dessa förutsägelser påverkas av dimensionalitet och kvalitet hos observerad data. Med dimensionalitet menas antalet datapunkter kopplade till datasetet, och med kvalitet menas precisionen hos respektive datapunkter.

Det har på senare tid visat sig att mycket enkla statistiska modeller med hög dimensionalitet och kvalitet på indatan ofta slår mer sofistikerade modeller med sämre indata.

Kandidatarbetet ämnar att undersoka hur kvalitén på prediktionerna förändras när man varierar dimensionalitet och kvalitet på datasetet. Kandidatarbetet bör inkludera både en litteraturstudie samt en exemplifierande fallstudie. Fallstudien kan till exempel genomföras genom att fixera en algoritm och variera data for att se hur det påverkar prestationen av algoritmen. Huvudpunkterna i fallstudien kan då vara:

  •  Framtagning av scoringmodell for att utvärdera och validera resultat
  • Klassificering av dimensioner i indata, genom definition av datakvalitet och analys av beroenden i indata
  • Framtagning av modell for att beskriva hur dimensionalitet och datakvalitet i indatan påverkar scoring
Projektkod MVEX01-15-29
Gruppstorlek 3-4
Speciella förkunskapskrav Linear algebra and numeric analysis TMA671, Stochastic Calculus TMS165, Programmeringsteknik TIN211.
Handledare Mattias Sunden
Examinator Maria Roginskaya
Institution Matematiska vetenskaper

Publicerad: to 20 nov 2014. Ändrad: må 10 jun 2019