1. Laboration: Rengör data och bygg regression

Labböversikt

Målet med labben är att skapa en första version av en regressionsmodell för att förutse energiförbrukning baserat på temperatur. Du ska visa att du kan:

  1. Diagnostisera problem i det scenario du väljer (länkar nedan).
  2. Fatta motiverade beslut om hur du rengör varje problem.
  3. Träna en enkel linjär regression och dokumentera resultatet (t.ex. trendlinje i Sheets eller scikit-learn).

Välj scenario och ladda ner data

Så laddar du ner

Högerklicka på länken → Öppna länk i ny flikFilen → Ladda ned (eller Ctrl/Cmd + S). Filen ligger i /public/data/ai-course/ så den fungerar i produktion.

ScenarioFil (CSV)AnvändningExtra kolumnerAnteckningar
Temperatur & ventilationregression-school.csvPrognos för klassrumsuppvärmning utifrån temperatur, luftfuktighet och nederbörd.humidity_percent, rain_mmVaktmästaren har markerat testkörning och sensorfel.
Solpanel + elförbrukningregression-solar.csvKoppla solinstrålning (solindex) och molnighet mot elbehov.solar_index, cloud_coverFel enhet (4C), sensorbrott (?), snö på paneler.
Beläggning & CO₂regression-occupancy.csvUndersök hur antal personer och luftkvalitet påverkar energibehovet.occupancy_count, co2_ppmHög CO₂ vid full beläggning, saknade värden, testdagar.

Börja gärna med att kopiera filen till Drive och döp den till scenario-namn-rådata. Gör sedan en kopia scenario-namn-städad där du arbetar.

Scenario: Energioptimering på Årtalsskolan

  • Rollspel: Du är dataanalytiker inhyrd av kommunens energiteam. Rektorn vill minska elförbrukningen utan att klassrummen blir kalla.
  • Datakälla: Sensorer i en av skolans byggnader loggar temperatur, luftfuktighet, nederbörd och uppskattad energiförbrukning per dygn. Anteckningar (notes) kommer från vaktmästaren som dokumenterar avvikelser.
  • Uppdrag: Gör datan användbar så att energiteamet kan bygga en prognosmodell och sätta smartare värmescheman inför vintern.
  • Leverabel: En städad dataset + regression som visar hur temperaturen påverkar kWh, inklusive tydliga kommentarer om osäkra punkter.

Förberedelser på Chromebook (Google Sheets)

  1. Ladda ner det scenario du valt och ladda upp i Google Drive.
  2. Öppna Google Drive → klicka på NyGoogle Kalkylark.
  3. Välj Arkiv → Importera → Ladda upp och dra in filen.
  4. Välj “Infoga nytt kalkylark” så du behåller originalet orört.
  5. Sätt kolumnformat:
    • Markera alla numeriska kolumner (t.ex. temp_c, humidity_percent, rain_mm, solar_index, occupancy_count, co2_ppm, energy_kwh) → Format → Tal → Numeriskt.
    • Markera dateFormat → Tal → Datum.
  6. Döp fliken till rådata och gör en kopia städad där du utför alla ändringar.

Tips

Använd filter (Data → Skapa ett filter) för att snabbt hitta frågetecken, NA eller dubbletter.

Datasetet i korthet

KolumnBeskrivningMöjliga problem
dateDatum för mätningenDubbletter, saknade dagar
temp_cTemperatur i °CRaden med 4C (fel typ), extrema låg/hög
energy_kwhEnergiförbrukning?, NA, testkörning
notesKontextHjälper att motivera beslut
Scenario-kolumnerSe tabellen ovanKontrollera rimliga intervall

Steg 1 – Datadiagnos

  • Lista alla fel du hittar (saknade värden, avvikande enheter, text, dubletter, extrema värden).
  • Notera hur ofta varje problem förekommer.
  • Fundera på om du behöver samla in mer metadata innan du kan fatta beslut.

Logguppgift: skriv en punktlista i din laborationslogg där varje problemtyp beskrivs med ett exempel från datasetet och hur du upptäckte det.

Steg 2 – Datastädning

ProblemMöjlig åtgärdMotiv
Saknade värdenTa bort raden eller ersätt med rimligt värde (medel, median, interpolation)Undvik att modellparametrar förstörs
Blandade enheterKonvertera Fahrenheit till CelsiusSäkerställ samma skala
Text i numeriska fältÖversätt manuellt eller markera som saknatFörhindra krascher i regressionen
Extrem avvikareBehåll men märk upp, eller ta bort om den inte är representativPåverkar lutningen kraftigt
Dubbletter (10 okt vs 10 okt dublett)Välj en version eller medelvärdeUndvik dubbel vikt
Notes-markerade specialfall (värmepump test, snö på paneler, etc.)Dokumentera separatTransparens i presentationen

Tips

Skriv ned både vad du gjorde och vad du valde att inte göra samt varför. Det gör det lättare att motivera dina beslut vid redovisningen.

Steg 3 – Bygg regression

  • Skapa ett spridningsdiagram i städad-arket: markera temp_c (x-axel) och energy_kwh (y-axel) → Infoga → Diagram → välj “Spridningsdiagram”. Lägg till färg/kategori om du vill segmentera scenario-data.
  • Lägg till en trendlinje: Diagramredigerare → Anpassa → Serie → Trendlinje (linjär) och visa ekvation + R².
  • Spara modellparametrar (lutning, intercept) och residualerna. I Sheets: använd FORECAST eller SLOPE/INTERCEPT för att kontrollera värdena.

Logguppgift: skriv in modellparametrar och en kort tolkning (exempel: “När temperaturen ökar med 1 °C ökar förbrukningen med X kWh”).

Redovisning – Laborationslogg

Din logg ska innehålla:

  • Problemlista + beslutstabell (före/efter).
  • Skärmbild/diagram med regressionslinje.
  • Kort text om modellens kvalitet (residualer, R² eller egen bedömning).
  • Frågor eller antaganden du behöver klargöra innan nästa steg.
  • Exportera din städade datafil (CSV) och länka eller dela den i klassens mappar.

Reflektion

Avsluta loggen med en mening om vad du skulle behöva för att förbättra modellen (fler features, säsongsdata, bättre sensorer?).

Framsteg

0/0