0. Varför data betyder allt

Vad ska du få syn på?

Innan vi börjar träna modeller behöver vi förstå att data aldrig är perfekta. Smutsiga dataset innehåller saknade värden, felaktiga enheter, dubletter och extrema avvikare som måste hanteras med omtanke.

Koppling till föregående modul

I modul 1 arbetade vi med idealiserade neuronnät. Nu växlar vi fokus till verkligheten där datakvalitet avgör hur väl modellen kan lära sig.

Data 101 – grunderna

  • Vad är data? Rå observationer som beskriver världen: temperatur, antal besökare, text, bilder etc.
  • Data vs information: data blir information först när vi bearbetar den och förstår vad den betyder i sitt sammanhang.
  • Features och mål: i ML delar vi upp indata (features) och det vi vill förutsäga (target). I energiexemplet är temperaturen en feature och energiförbrukningen en target.

Datatyper

TypExempelVanliga utmaningar
Numerisk (kontinuerlig)Temperatur, viktmätfel, extrema avvikare
Numerisk (diskret)Antal elever, klickfelaktig avrundning
KategoriellVädertyp (sol, regn)stavfel, olika språk
TidsserierElförbrukning varje timmesaknade tidssteg, oregelbundenhet
Text & bilderRecensioner, fotonkräver förbearbetning, etik

Datapipelinen (förenklad)

StegSyfteNyckelfråga
1. InsamlingHämta rådata från sensorer, loggar eller formulär.”Var kommer datan ifrån och hur ofta uppdateras den?“
2. ValideringSnabb kontroll att format och intervall är rimliga.”Ser värdena rimliga ut jämfört med verkligheten?“
3. RengöringÅtgärda saknade värden, enhetsfel, dubletter och avvikare.”Vilka rader kräver beslut innan vi kan gå vidare?“
4. Feature engineeringSkapa nya variabler eller skala om data.”Behöver vi fler signaler eller transformationer?“
5. Träning/TestBygga och utvärdera modell på tränings- och testdata.”Presterar modellen bra även på ny data?“
6. Deploy/UppföljningAnvänd modellen i det dagliga systemet och övervaka resultat.”Fortsätter modellen ge bra beslut över tid?”

Vilket steg i datapipelinen brukar ta mest tid i verkliga projekt?

Vilket steg glöms lättast bort i skoluppgifter och leder till problem i modellen?

Varför dåliga data kostar

Sensor (°C)ML-systemBeslut (på/av värme)
• Normal dag: 20 °C → systemet håller temperaturen stabil.
• Felrapport: 68F (egentligen 20 °C) → systemet tror att det är varmt och stänger av värmen.
• Resultat: Klassrummen blir kalla och energibesparingen uteblir.

Vad skulle hjälpt mest för att upptäcka Fahrenheit-felet innan modellen gick i drift?

Vilka drabbas mest direkt när värmesystemet stänger av på grund av fel enhet?

Hur förklarar du problemet enklast för en rektor utan teknisk bakgrund?

Lärdom

Dålig data kan leda till felaktiga beslut, förlorad tillit och ökade kostnader. Därför lägger vi tid på att förstå datans kvalitet innan vi tränar modeller.

Smutsigt dataset

Starta med att ladda ner testfilen: diagnos-smutsigt.csv. Den innehåller avsiktliga fel:

  • Saknade värden och okända symboler
  • Blandade enheter (°C och °F)
  • Text där siffror borde finnas
  • Extrem avvikelse (testkörning av värmepump)
  • Dubletter och motstridiga observationer

Använd datasetet för att träna ditt öga: öppna filen, markera avvikelser och fundera över vilka frågor du skulle ställa innan någon bygger en modell på materialet.

Vilken risk är störst om vi tränar en modell direkt på smutsig data?

Utforska datasetet

  1. Läs in filen i valfritt verktyg (Sheets, Excel eller Python) och markera varje rad som kräver särskild hantering.
  2. Beskriv i dina anteckningar varför varje problem uppstår och vilken följd det skulle få om du ignorerade det.
  3. Notera vilka extra data eller instruktioner du skulle behöva från uppdragsgivaren (t.ex. “ska 900 kWh behållas?” eller “hur konverteras Fahrenheit?”).

Vilket av följande problem kan du lösa direkt utan extra information?

Vad antyder datasetet om sensorerna/processen?

Om du bara hade 30 minuter för att förbättra datan, vad är smartast att prioritera?

Dokumentera allt

De första intrycken av data är guld värda när du senare ska motivera varför du valde en viss städstrategi.

📚 Viktiga begrepp

Se till att du kan förklara dessa begrepp med egna ord:

  • Datapipeline
  • Validering
  • Sensorfel
  • Dataannotering

Framsteg

0/0