Vad ska du få syn på?
Innan vi börjar träna modeller behöver vi förstå att data aldrig är perfekta. Smutsiga dataset innehåller saknade värden, felaktiga enheter, dubletter och extrema avvikare som måste hanteras med omtanke.
Koppling till föregående modul
I modul 1 arbetade vi med idealiserade neuronnät. Nu växlar vi fokus till verkligheten där datakvalitet avgör hur väl modellen kan lära sig.
Data 101 – grunderna
- Vad är data? Rå observationer som beskriver världen: temperatur, antal besökare, text, bilder etc.
- Data vs information: data blir information först när vi bearbetar den och förstår vad den betyder i sitt sammanhang.
- Features och mål: i ML delar vi upp indata (features) och det vi vill förutsäga (target). I energiexemplet är temperaturen en feature och energiförbrukningen en target.
Datatyper
| Typ | Exempel | Vanliga utmaningar |
|---|---|---|
| Numerisk (kontinuerlig) | Temperatur, vikt | mätfel, extrema avvikare |
| Numerisk (diskret) | Antal elever, klick | felaktig avrundning |
| Kategoriell | Vädertyp (sol, regn) | stavfel, olika språk |
| Tidsserier | Elförbrukning varje timme | saknade tidssteg, oregelbundenhet |
| Text & bilder | Recensioner, foton | kräver förbearbetning, etik |
Datapipelinen (förenklad)
| Steg | Syfte | Nyckelfråga |
|---|---|---|
| 1. Insamling | Hämta rådata från sensorer, loggar eller formulär. | ”Var kommer datan ifrån och hur ofta uppdateras den?“ |
| 2. Validering | Snabb kontroll att format och intervall är rimliga. | ”Ser värdena rimliga ut jämfört med verkligheten?“ |
| 3. Rengöring | Åtgärda saknade värden, enhetsfel, dubletter och avvikare. | ”Vilka rader kräver beslut innan vi kan gå vidare?“ |
| 4. Feature engineering | Skapa nya variabler eller skala om data. | ”Behöver vi fler signaler eller transformationer?“ |
| 5. Träning/Test | Bygga och utvärdera modell på tränings- och testdata. | ”Presterar modellen bra även på ny data?“ |
| 6. Deploy/Uppföljning | Använd modellen i det dagliga systemet och övervaka resultat. | ”Fortsätter modellen ge bra beslut över tid?” |
Vilket steg i datapipelinen brukar ta mest tid i verkliga projekt?
Vilket steg glöms lättast bort i skoluppgifter och leder till problem i modellen?
Varför dåliga data kostar
Sensor (°C) → ML-system → Beslut (på/av värme)
• Normal dag: 20 °C → systemet håller temperaturen stabil.
• Felrapport: 68F (egentligen 20 °C) → systemet tror att det är varmt och stänger av värmen.
• Resultat: Klassrummen blir kalla och energibesparingen uteblir.
Vad skulle hjälpt mest för att upptäcka Fahrenheit-felet innan modellen gick i drift?
Vilka drabbas mest direkt när värmesystemet stänger av på grund av fel enhet?
Hur förklarar du problemet enklast för en rektor utan teknisk bakgrund?
Lärdom
Dålig data kan leda till felaktiga beslut, förlorad tillit och ökade kostnader. Därför lägger vi tid på att förstå datans kvalitet innan vi tränar modeller.
Smutsigt dataset
Starta med att ladda ner testfilen: diagnos-smutsigt.csv. Den innehåller avsiktliga fel:
- Saknade värden och okända symboler
- Blandade enheter (°C och °F)
- Text där siffror borde finnas
- Extrem avvikelse (testkörning av värmepump)
- Dubletter och motstridiga observationer
Använd datasetet för att träna ditt öga: öppna filen, markera avvikelser och fundera över vilka frågor du skulle ställa innan någon bygger en modell på materialet.
Vilken risk är störst om vi tränar en modell direkt på smutsig data?
Utforska datasetet
- Läs in filen i valfritt verktyg (Sheets, Excel eller Python) och markera varje rad som kräver särskild hantering.
- Beskriv i dina anteckningar varför varje problem uppstår och vilken följd det skulle få om du ignorerade det.
- Notera vilka extra data eller instruktioner du skulle behöva från uppdragsgivaren (t.ex. “ska 900 kWh behållas?” eller “hur konverteras Fahrenheit?”).
Vilket av följande problem kan du lösa direkt utan extra information?
Vad antyder datasetet om sensorerna/processen?
Om du bara hade 30 minuter för att förbättra datan, vad är smartast att prioritera?
Dokumentera allt
De första intrycken av data är guld värda när du senare ska motivera varför du valde en viss städstrategi.
📚 Viktiga begrepp
Se till att du kan förklara dessa begrepp med egna ord:
- • Datapipeline
- • Validering
- • Sensorfel
- • Dataannotering
Framsteg
0/0Grattis! Du har klarat lektionen!
Här är din bekräftelsekod:
Genererar...
Skicka koden till din lärare.