Kursplan för Beräkningsmetoder för storskaliga data

Kursplanen innehåller ändringar
Se ändringar

Kursplan fastställd 2021-02-17 av programansvarig (eller motsvarande).

Kursöversikt

  • Engelskt namnComputational techniques for large-scale data
  • KurskodDAT470
  • Omfattning7,5 Högskolepoäng
  • ÄgareMPDSC
  • UtbildningsnivåAvancerad nivå
  • HuvudområdeDatateknik, Informationsteknik
  • InstitutionDATA- OCH INFORMATIONSTEKNIK
  • BetygsskalaTH - Mycket väl godkänd (5), Väl godkänd (4), Godkänd (3), Underkänd

Kurstillfälle 1

  • Undervisningsspråk Engelska
  • Anmälningskod 87121
  • Max antal deltagare100
  • Blockschema
  • Sökbar för utbytesstudenterNej

Poängfördelning

0121 Inlämningsuppgift 4,5 hp
Betygsskala: UG
4,5 hp
    0221 Tentamen 3 hp
    Betygsskala: TH
    3 hp
    • 03 Jun 2022 em J
    • 08 Okt 2022 em J
    • 18 Aug 2022 em J

    I program

    Examinator

    Gå till kurshemsidan (Öppnas i ny flik)

    Behörighet

    Information saknas

    Kursspecifika förkunskaper

    För tillträde till kursen krävs att studenten har en examen på kandidatnivå inom något ämne, eller har minst 90 hp i datavetenskap, software engineering eller motsvarande. Specifikt krävs minst 15 hp avklarade kurser i programmering, varav minst 7.5 poäng i programmering python eller motsvarande. Därutöver krävs även att studenten har klarat en kurs i sannolikhetstiori eller statstik, exempelvis MVE051, TMS137 eller liknande.

    Den här kursen kan inte ingå i en examen som innehåller DAT345 eller DAT346. Den kan inte heller ingå i en examen som bygger på en annan examen där DAT345 eller DAT346 ingår.

    Syfte

    Framväxten av storskalig data har lett till utveckling av nya programmeringspardigmer, i synnerhet for parallella system vilket möjliggör beräkningar med storskalig data och redundanta kluster av commodity datorer. Kursen erbjuder en introdution inom olika programmeringsparadigmer, till exempel MapReduce och utökningar, vilka underlätter beräkningar med terabytes av data. Det demonstrerar också att det för en specifik uppgift kan finnas olika algoritmer och datastrukturer som erbjuder mycket effektiva alternativ.                    

    Lärandemål (efter fullgjord kurs ska studenten kunna)

    Efter godkänd kurs ska studenten kunna:

    Kunskap och förståelse
    • diskutera de viktigaste teknologiska aspekterna vid design och implementering avsystem för analys av storskaliga data,           
    • förklara skillnader mellan parallella programeringsmodeller
    • beskriva datastrukturer och algoritmer för storskaliga data och deras använding

    Färdigheter och förmåga
    • implementera tillämpningar för att transformera och analysera storskaliga data med hjälp av olika parallella mjukvaruramverk                 
    • kunna använda algoritmer och datastrukturer för beräkningar med storskaliga data
     
    Värderingsförmåga och förhållningssätt
    • Föreslå lämpliga beräkningsinfrastruktur och metoder för analys och diskutera deras fördelar och nackdelar           
    • diskutera fördelar och nackdelar av olika strategier för parallelisering                  
    • kunna välja mellan olika algoritmer och metoder baserad på parallelisering i syfte med att accelerera beräkningsmässiga workloads

    Innehåll

    Kursens mål är att fördjupa studenternas kunskaper och färdigheter inom den tekniska sidan av data science, inklusive de relevanta datamodellerna, samt lämpliga mjukvaru- och hårdvarumiljöer. Kursen kommer att introducera aspekter av design och implementation av storskaliga data science-lösningar. 

    Framför allt kommer kursen att innefatta:
    • en överblick av datorarkitekturer, algoritmiska tillvägagångssätt, och högpresterande beräkningsinfrastrukturer, med ett fokus på de begränsningar som finns vid behandling av storskaliga data,
    • en introduktion i relevanta ramverk för klusterberäkning med storskaliga data, -
    • implementering av dataanalysverktyg på ett kluster med hjälp av Python och lämpliga mjukvaruramverk
    • datastrukturer och algoritmer som exempelvis index structurer, som avsevärt kan accelerera beräkningar för storskaliga data

    Organisation

    Föreläsningar, datorlaborationer och övningar.

    Litteratur

    Kurslitteratur kommer att publiceras senast 8 veckor innan kursstart. 

    Examination inklusive obligatoriska moment

    Kursen examineras genom en skriftlig salstenta och genom obligatoriska skriftliga inlämningsuppgifter. Några av inlämningsuppgifterna utförs individuellt och andra utförs i grupper av 2-4 studenter. Det kommer att finnas icke-obligatoriska inlämningsuppgifter som ger bonuspoäng för den skriftliga tentan. Bonuspoängen gäller för de två tentorna och omtentorna som är schemalagda närmast efter kurstillfället där bonuspoängen förvärvades.

    Kursens examinator får examinera enstaka studenter på annat sätt än vad som anges ovan om särskilda skäl föreligger, till exempel om en student har ett beslut från Chalmers om pedagogiskt stöd på grund av funktionsnedsättning.

    Kursplanen innehåller ändringar

    • Ändring gjord på tentamen:
      • 2022-08-26: Tentamensdatum Tentamensdatum ändrat av Graham Kemp
        [35135, 56771, 2], Ny tenta för läsår 2021/2022, ordinal 2 (ej nedlagd kurs)
    • Ändring gjord på kurstillfälle:
      • 2021-10-12: Block Block A tillagt av Graham Kemp
        [Kurstillfälle 1]