Kursplan för Statistik för stora datamängder

Kursplan fastställd 2020-02-05 av programansvarig (eller motsvarande).

Kursöversikt

  • Engelskt namnStatistical learning for big data
  • KurskodMVE441
  • Omfattning7,5 Högskolepoäng
  • ÄgareMPENM
  • UtbildningsnivåAvancerad nivå
  • HuvudområdeMatematik
  • InstitutionMATEMATISKA VETENSKAPER
  • BetygsskalaTH - Mycket väl godkänd (5), Väl godkänd (4), Godkänd (3), Underkänd

Kurstillfälle 1

  • Undervisningsspråk Engelska
  • Anmälningskod 20150
  • Sökbar för utbytesstudenterJa

Poängfördelning

0120 Projekt 1,5 hp
Betygsskala: UG
1,5 hp
    0220 Hemtentamen 6 hp
    Betygsskala: TH
    6 hp

      I program

      Examinator

      Gå till kurshemsidan (Öppnas i ny flik)

      Behörighet

      Grundläggande behörighet för avancerad nivå
      Sökande med en programregistrering på ett program där kursen ingår i programplanen undantas från ovan krav.

      Särskild behörighet

      Engelska 6
      Sökande med en programregistrering på ett program där kursen ingår i programplanen undantas från ovan krav.

      Kursspecifika förkunskaper

      En grundläggande kurs i statistisk slutledning och MVE190 Linjära Statistiska Modeller. Studenter kan också kontakta kursläraren för tillstånd att ta kursen.

      Syfte

      Kursen skall ge förståelse för och övning i tekniker för statistisk analys av stora datamängder.

      Lärandemål (efter fullgjord kurs ska studenten kunna)

      • visa förståelse för centrala begrepp och ideer rörande klassifikation, klustering och dimensionsreducering
      • lösa högdimensionella dataanalys-övningar och tolka resultaten av sådana analyser

      Innehåll

      • Överblick över högdimensionell dataanalys
      • Klassifikation: Bayes regel, diskriminantanalys-metoder, närmaste granne klassifikator, klassifikations- och regressions-träd. 
      • Kostfunktioner, greedy searches, gradient descent, korsvalidering.
      • Logistisk regression
      • Regulariseringsmetoder. Gles logistisk regression, gles diskriminantanalys.
      • Ensemble-metoder: bagging, random projections, random forests.
      • Klustering: k-means, hierarkisk klustering, modell-baserad klutering, spektrala metoder.
      • Dimensionsreduktion: PCA, kanonisk korrelation, multi-dimensional scaling.
      • Speciella teman (urval av följande): nätverk och grafiska modeller, gles kovariansestimering, klustering av nätverk och community detection, nevrala nätverk, matriskomplettering, collaborative filtering.
      • Stor-skala lärning: stochastic searches, batch-metoder, online learning.

      Organisation

      Föreläsningar, diskussioner och läsuppgifter.

      Litteratur

      Meddelas senare.

      Examination inklusive obligatoriska moment

      Muntlig och/eller skriftlig examen.