Labböversikt
Målet med labben är att skapa en första version av en regressionsmodell för att förutse energiförbrukning baserat på temperatur. Du ska visa att du kan:
- Diagnostisera problem i det scenario du väljer (länkar nedan).
- Fatta motiverade beslut om hur du rengör varje problem.
- Träna en enkel linjär regression och dokumentera resultatet (t.ex. trendlinje i Sheets eller
scikit-learn).
Välj scenario och ladda ner data
Så laddar du ner
Högerklicka på länken → Öppna länk i ny flik → Filen → Ladda ned (eller
Ctrl/Cmd + S). Filen ligger i/public/data/ai-course/så den fungerar i produktion.
| Scenario | Fil (CSV) | Användning | Extra kolumner | Anteckningar |
|---|---|---|---|---|
| Temperatur & ventilation | regression-school.csv | Prognos för klassrumsuppvärmning utifrån temperatur, luftfuktighet och nederbörd. | humidity_percent, rain_mm | Vaktmästaren har markerat testkörning och sensorfel. |
| Solpanel + elförbrukning | regression-solar.csv | Koppla solinstrålning (solindex) och molnighet mot elbehov. | solar_index, cloud_cover | Fel enhet (4C), sensorbrott (?), snö på paneler. |
| Beläggning & CO₂ | regression-occupancy.csv | Undersök hur antal personer och luftkvalitet påverkar energibehovet. | occupancy_count, co2_ppm | Hög CO₂ vid full beläggning, saknade värden, testdagar. |
Börja gärna med att kopiera filen till Drive och döp den till
scenario-namn-rådata. Gör sedan en kopiascenario-namn-städaddär du arbetar.
Scenario: Energioptimering på Årtalsskolan
- Rollspel: Du är dataanalytiker inhyrd av kommunens energiteam. Rektorn vill minska elförbrukningen utan att klassrummen blir kalla.
- Datakälla: Sensorer i en av skolans byggnader loggar temperatur, luftfuktighet, nederbörd och uppskattad energiförbrukning per dygn. Anteckningar (
notes) kommer från vaktmästaren som dokumenterar avvikelser. - Uppdrag: Gör datan användbar så att energiteamet kan bygga en prognosmodell och sätta smartare värmescheman inför vintern.
- Leverabel: En städad dataset + regression som visar hur temperaturen påverkar kWh, inklusive tydliga kommentarer om osäkra punkter.
Förberedelser på Chromebook (Google Sheets)
- Ladda ner det scenario du valt och ladda upp i Google Drive.
- Öppna Google Drive → klicka på Ny → Google Kalkylark.
- Välj Arkiv → Importera → Ladda upp och dra in filen.
- Välj “Infoga nytt kalkylark” så du behåller originalet orört.
- Sätt kolumnformat:
- Markera alla numeriska kolumner (t.ex.
temp_c,humidity_percent,rain_mm,solar_index,occupancy_count,co2_ppm,energy_kwh) → Format → Tal → Numeriskt. - Markera
date→ Format → Tal → Datum.
- Markera alla numeriska kolumner (t.ex.
- Döp fliken till
rådataoch gör en kopiastädaddär du utför alla ändringar.
Tips
Använd filter (Data → Skapa ett filter) för att snabbt hitta frågetecken, NA eller dubbletter.
Datasetet i korthet
| Kolumn | Beskrivning | Möjliga problem |
|---|---|---|
date | Datum för mätningen | Dubbletter, saknade dagar |
temp_c | Temperatur i °C | Raden med 4C (fel typ), extrema låg/hög |
energy_kwh | Energiförbrukning | ?, NA, testkörning |
notes | Kontext | Hjälper att motivera beslut |
| Scenario-kolumner | Se tabellen ovan | Kontrollera rimliga intervall |
Steg 1 – Datadiagnos
- Lista alla fel du hittar (saknade värden, avvikande enheter, text, dubletter, extrema värden).
- Notera hur ofta varje problem förekommer.
- Fundera på om du behöver samla in mer metadata innan du kan fatta beslut.
Logguppgift: skriv en punktlista i din laborationslogg där varje problemtyp beskrivs med ett exempel från datasetet och hur du upptäckte det.
Steg 2 – Datastädning
| Problem | Möjlig åtgärd | Motiv |
|---|---|---|
| Saknade värden | Ta bort raden eller ersätt med rimligt värde (medel, median, interpolation) | Undvik att modellparametrar förstörs |
| Blandade enheter | Konvertera Fahrenheit till Celsius | Säkerställ samma skala |
| Text i numeriska fält | Översätt manuellt eller markera som saknat | Förhindra krascher i regressionen |
| Extrem avvikare | Behåll men märk upp, eller ta bort om den inte är representativ | Påverkar lutningen kraftigt |
Dubbletter (10 okt vs 10 okt dublett) | Välj en version eller medelvärde | Undvik dubbel vikt |
Notes-markerade specialfall (värmepump test, snö på paneler, etc.) | Dokumentera separat | Transparens i presentationen |
Tips
Skriv ned både vad du gjorde och vad du valde att inte göra samt varför. Det gör det lättare att motivera dina beslut vid redovisningen.
Steg 3 – Bygg regression
- Skapa ett spridningsdiagram i
städad-arket: markeratemp_c(x-axel) ochenergy_kwh(y-axel) → Infoga → Diagram → välj “Spridningsdiagram”. Lägg till färg/kategori om du vill segmentera scenario-data. - Lägg till en trendlinje: Diagramredigerare → Anpassa → Serie → Trendlinje (linjär) och visa ekvation + R².
- Spara modellparametrar (lutning, intercept) och residualerna. I Sheets: använd
FORECASTellerSLOPE/INTERCEPTför att kontrollera värdena.
Logguppgift: skriv in modellparametrar och en kort tolkning (exempel: “När temperaturen ökar med 1 °C ökar förbrukningen med X kWh”).
Redovisning – Laborationslogg
Din logg ska innehålla:
- Problemlista + beslutstabell (före/efter).
- Skärmbild/diagram med regressionslinje.
- Kort text om modellens kvalitet (residualer, R² eller egen bedömning).
- Frågor eller antaganden du behöver klargöra innan nästa steg.
- Exportera din städade datafil (CSV) och länka eller dela den i klassens mappar.
Reflektion
Avsluta loggen med en mening om vad du skulle behöva för att förbättra modellen (fler features, säsongsdata, bättre sensorer?).
Framsteg
0/0Grattis! Du har klarat lektionen!
Här är din bekräftelsekod:
Genererar...
Skicka koden till din lärare.