MVEX01-15-29 Påverkan av datakvalité på statistiska modeller

​När man bygger statistiska modeller använder man stora dataset med observationer för att göra förutsägelser. Kvalitén på dessa förutsägelser påverkas av dimensionalitet och kvalitet hos observerad data. Med dimensionalitet menas antalet datapunkter kopplade till datasetet, och med kvalitet menas precisionen hos respektive datapunkter.

Det har på senare tid visat sig att mycket enkla statistiska modeller med hög dimensionalitet och kvalitet på indatan ofta slår mer sofistikerade modeller med sämre indata.

Kandidatarbetet ämnar att undersöka hur kvalitén på prediktionerna förändras när man varierar dimensionalitet och kvalitet på datasetet. Kandidatarbetet bör inkludera både en litteraturstudie samt en exemplifierande fallstudie. Fallstudien kan till exempel genomföras genom att fixera en algoritm och variera data för att se hur det påverkar prestationen av algoritmen. Huvudpunkterna i fallstudien kan då vara:

  • Framtagning av scoringmodell för att utvärdera och validera resultat
  • Klassificering av dimensioner i indata, genom definition av datakvalitet och analys av beroenden i indata
  • Framtagning av modell för att beskriva hur dimensionalitet och datakvalitet i indatan påverkar scoring
Projektkod MVEX01-15-29
Gruppstorlek 3-4
Speciella förkunskapskrav Linear algebra a​nd numeric analysis TMA671, Stochastic Calculus TMS165, Programmeringsteknik TIN211.
Handledare Mattias Sunden
Examinator Maria Roginskaya
Institution Matematiska vetenskaper

Sidansvarig Publicerad: on 23 jun 2021.