Ett sökverktyg för revisionshistorik och textbearbetning

Bakgrund

Språkkorpusar, eller elektroniskt sökbara textbaser, har blivit en viktig del inom dagens språkforskning. Korpusarna och tillhörande sökverktyg har med åren blivit alltmer sofistikerade och innehåller kodning som gör dem sökbara på flera olika nivåer.

Hittills har korpusar byggts upp av en version, vanligen slutversionen, av en text. Dessa korpusar har främst bidragit till bättre beskrivningar av språk men även till förbättrat undervisningsmaterial. Rent pedagogiskt har dock dessa korpusar vissa begränsningar. Det går exempelvis inte att följa hur en text blir till och det är därför svårt att säga något om vad som har gjort att en text har blivit bättre eller sämre, eller vad som skulle kunna ha gjorts för att förbättra en text.

Då det idag inte finns korpusar som på ett lättillgängligt sätt visar hur en text har växt fram, dess revisionshistorik, finns här ett utvecklingsområde som väldigt konkret skulle kunna bidra till såväl forskningsmässiga som pedagogiska framsteg. Skapandet av den här typen av korpusar rymmer dock en rad tekniska utmaningar, exempelvis kodning av skillnader mellan versioner som gör det möjligt att visa dessa skillnader, kodningen av kommentarer som har gjorts till olika versioner av en text och skapandet av ett avvändarvänligt gränssnitt som gör det möjligt att på ett tydligt sätt se förändringar som har gjorts i texten samtidigt som kommentarer till tidigare versioner visas.

Projekt-/problembeskrivning

Målet är att få ett verktyg där man kan söka på texter och textkommentarer, i olika revisioner av samma texter. Alla sökträffar ska visas samtidigt tillsammans med omgivande kontext - ungefär som Google presenterar sina sökresultat. Den stora skillnaden mot Google är att träffarna ska visas sida vid sida med sina efterföljande revisioner. Dessutom ska skillnaderna mellan revisionerna visas på ett tydligt och lättförståeligt sätt - ungefär som grafiska diff-program såsom KDiff3, Meld, DiffMerge eller FileMerge.

Om möjligt bör även tre eller flera versioner kunna visas samtidigt, med ändringshistorik. Dessutom bör textkommentarer hanteras separat, t.ex. genom att ge dem en egen färgkod.

Genomförande/Viktiga moment/teknikinnehåll

Tanken är inte att ni ska implementera en diff-algoritm själva, utan istället använda er av en existerande implementation. Dessutom kan ni förhoppningsvis utgå från någon existerande diff-visare och modifiera den efter era behov.

  • Ni får en korpus med texter med revisionshistorik att arbeta med.
  • Ni behöver implementera en sökfunktion som söker i korpusen och returnerar ett antal sökresultat i form av text-id, revision och position i texten.
  • Ni ska implementera visualiseringen som presenterar varje sökresultat tillsammans med omgivande kontext, sida vid sida med de närliggande revisionerna.
  • Det färdiga programmet bör vara tillräckligt lättanvänt för en icke-programmerare.
Projektkod DATX02_1207
Målgrupp D, IT
Gruppstorlek 4-6
Speciella förkunskapskrav

Objektorienterad programmering.

Goda programmeringskunskaper, speciellt inom sökning, textbearbetning och användargränssnitt.

Handledare

Förslagslämnare:

Peter Ljunglöf, D & IT
Andreas Eriksson, Avdelningen för fackspråk och kommunikation, Institutionen för tillämpad IT

Institution Data- och informationsteknik
Uppdaterad: 20 oktober 2011

 SÖK


Exjobb?
Har ditt företag förslag på exjobb att anmäla, skicka ett email!
DATA- OCH INFORMATIONSTEKNIK - Chalmers tekniska högskola och Göteborgs universitet - 412 96 Göteborg
Telefon: 031-772 1000