0. Varför data betyder allt

Vad ska du få syn på?

Innan vi börjar träna modeller behöver vi förstå att data aldrig är perfekta. Smutsiga dataset innehåller saknade värden, felaktiga enheter, dubletter och extrema avvikare som måste hanteras med omtanke.

Koppling till föregående modul
I modul 1 arbetade vi med idealiserade neuronnät. Nu växlar vi fokus till verkligheten där datakvalitet avgör hur väl modellen kan lära sig.

Data 101 – grunderna

Vad är data? Rå observationer som beskriver världen: temperatur, antal besökare, text, bilder etc.
Data vs information: data blir information först när vi bearbetar den och förstår vad den betyder i sitt sammanhang.
Features och mål: i ML delar vi upp indata (features) och det vi vill förutsäga (target). I energiexemplet är temperaturen en feature och energiförbrukningen en target.

Datatyper

Typ	Exempel	Vanliga utmaningar
Numerisk (kontinuerlig)	Temperatur, vikt	mätfel, extrema avvikare
Numerisk (diskret)	Antal elever, klick	felaktig avrundning
Kategoriell	Vädertyp (sol, regn)	stavfel, olika språk
Tidsserier	Elförbrukning varje timme	saknade tidssteg, oregelbundenhet
Text & bilder	Recensioner, foton	kräver förbearbetning, etik

Datapipelinen (förenklad)

Steg	Syfte	Nyckelfråga
1. Insamling	Hämta rådata från sensorer, loggar eller formulär.	”Var kommer datan ifrån och hur ofta uppdateras den?“
2. Validering	Snabb kontroll att format och intervall är rimliga.	”Ser värdena rimliga ut jämfört med verkligheten?“
3. Rengöring	Åtgärda saknade värden, enhetsfel, dubletter och avvikare.	”Vilka rader kräver beslut innan vi kan gå vidare?“
4. Feature engineering	Skapa nya variabler eller skala om data.	”Behöver vi fler signaler eller transformationer?“
5. Träning/Test	Bygga och utvärdera modell på tränings- och testdata.	”Presterar modellen bra även på ny data?“
6. Deploy/Uppföljning	Använd modellen i det dagliga systemet och övervaka resultat.	”Fortsätter modellen ge bra beslut över tid?”

Vilket steg i datapipelinen brukar ta mest tid i verkliga projekt?

Insamling – att installera sensorer tar längst tid Rengöring – det kräver många beslut och manuellt arbete Träning/test – modellerna måste köras i flera timmar Deploy – eftersom allt måste godkännas av IT

Vilket steg glöms lättast bort i skoluppgifter och leder till problem i modellen?

Validering Feature engineering Träning/test Deploy

Varför dåliga data kostar

Sensor (°C) → ML-system → Beslut (på/av värme)
• Normal dag: 20 °C → systemet håller temperaturen stabil.
• Felrapport: 68F (egentligen 20 °C) → systemet tror att det är varmt och stänger av värmen.
• Resultat: Klassrummen blir kalla och energibesparingen uteblir.

Vad skulle hjälpt mest för att upptäcka Fahrenheit-felet innan modellen gick i drift?

Köra modellen längre tid Logga en testkörning med kända temperaturer Byta ut alla sensorer mot dyrare modeller Öka klassrumstemperaturen manuellt

Vilka drabbas mest direkt när värmesystemet stänger av på grund av fel enhet?

Utvecklingsteamet Elever och lärare i klassrummen Skolans ekonomiavdelning Leverantören av sensorerna

Hur förklarar du problemet enklast för en rektor utan teknisk bakgrund?

"Systemet använder Fahrenheit istället för Celsius, vilket triggar convolverade fel i ML-pipelinen" "Våra sensorer anger ibland fel enhet, så systemet tror att det är varmare än det är och stänger av värmen" "Neuronnätets vikter har divergerat, så vi behöver rekursa beta-kalibreringen" "Vi behöver mer GPU-kraft för att beräkna riktiga temperaturer"

Lärdom
Dålig data kan leda till felaktiga beslut, förlorad tillit och ökade kostnader. Därför lägger vi tid på att förstå datans kvalitet innan vi tränar modeller.

Smutsigt dataset

Starta med att ladda ner testfilen: diagnos-smutsigt.csv. Den innehåller avsiktliga fel:

Saknade värden och okända symboler
Blandade enheter (°C och °F)
Text där siffror borde finnas
Extrem avvikelse (testkörning av värmepump)
Dubletter och motstridiga observationer

Använd datasetet för att träna ditt öga: öppna filen, markera avvikelser och fundera över vilka frågor du skulle ställa innan någon bygger en modell på materialet.

Vilken risk är störst om vi tränar en modell direkt på smutsig data?

Modellen blir mer kreativ Modellen lär sig felaktiga mönster som inte stämmer i verkligheten Det blir enklare att tolka resultaten Ingenting – modeller gillar när data är oredigt

Utforska datasetet

Läs in filen i valfritt verktyg (Sheets, Excel eller Python) och markera varje rad som kräver särskild hantering.
Beskriv i dina anteckningar varför varje problem uppstår och vilken följd det skulle få om du ignorerade det.
Notera vilka extra data eller instruktioner du skulle behöva från uppdragsgivaren (t.ex. “ska 900 kWh behållas?” eller “hur konverteras Fahrenheit?”).

Vilket av följande problem kan du lösa direkt utan extra information?

Konvertera 68F till Celsius Bestämma om 900 kWh är giltigt Avgöra om dubletterna är fel Förstå varför det saknas mätning 2025-09-10

Vad antyder datasetet om sensorerna/processen?

Alla sensorer fungerar perfekt och stabilt Det finns både enhetsfel och bortfall, vilket tyder på inkonsekvent datainsamling Systemet är optimerat för maskininlärning Processen är helt automatiserad utan mänskliga fel

Om du bara hade 30 minuter för att förbättra datan, vad är smartast att prioritera?

Skapa en komplex modell direkt Konvertera enheter och markera extrema värden så inget kraschar Bygga en dashboard för rektorn Ta bort alla rader som inte är perfekta

Dokumentera allt
De första intrycken av data är guld värda när du senare ska motivera varför du valde en viss städstrategi.

📚 Viktiga begrepp

Se till att du kan förklara dessa begrepp med egna ord:

• Datapipeline
• Validering
• Sensorfel
• Dataannotering

0. Varför data betyder allt

Vad ska du få syn på?

Data 101 – grunderna

Datatyper

Datapipelinen (förenklad)

Vilket steg i datapipelinen brukar ta mest tid i verkliga projekt?

Vilket steg glöms lättast bort i skoluppgifter och leder till problem i modellen?

Varför dåliga data kostar

Vad skulle hjälpt mest för att upptäcka Fahrenheit-felet innan modellen gick i drift?

Vilka drabbas mest direkt när värmesystemet stänger av på grund av fel enhet?

Hur förklarar du problemet enklast för en rektor utan teknisk bakgrund?

Smutsigt dataset

Vilken risk är störst om vi tränar en modell direkt på smutsig data?

Utforska datasetet

Vilket av följande problem kan du lösa direkt utan extra information?

Vad antyder datasetet om sensorerna/processen?

Om du bara hade 30 minuter för att förbättra datan, vad är smartast att prioritera?

📚 Viktiga begrepp

Framsteg

Grattis! Du har klarat lektionen!