Varmeforbrug i Sønderborg Projekt 1 Aske Hansen — s194187 12. oktober 2021 Indhold Beskrivende analyse 2 a) 2 b) 2 c) 3 d) 4 e) 5 Statistisk analyse 6 f) 6 g) 7 h) 7 i) 8 j) 8 Korrelation 9 k) 9 1 Denne rapport behandler varmeforbruget for 4 fritstående enfamilieshuse i Sønderborg i perioden 2008 til 2011. Beskrivende analyse a) For at kunne behandle varmeforbuget for de fire huse i Sønderborg anvendes et datasæt med 8 variable. Den første variabel er datoen, som angiver hvilke dage de syv andre variable er målt. Datasættet dækker over 973 fortløbende dage i perioden fra 02-102008 til 01-06-2011. De næste tre variable er klimatiske variable og består af dagens udendørstemperatur, Ta , i °C, den globale indstråling, G, på dagen i W m−3 samt dagens vindhastighed, vW , i m s−1 . Disse tre er kvantitative data og dækker næsten hele perioden; der er 61 dage ud af de 973 hvor der ikke er foretaget målinger af disse variable. De sidste fire variable er kvantitative og dækker over energiforbruget, Q, for de fire huse i kW d−1 : 1. Energiforbruget for hus 1, QHus1 , har sin første måling d. 01-12-2008 og har sin sidste måling d. 06-09-2009. Inden for denne periode mangler 103 målinger og i hele datoperioden mangler 431 målinger. Der er derfor 542 målinger for varmeforbruget for hus 1. 2. Energiforbruget for hus 2, QHus2 , har sin første måling d. 30-11-2008 og har sin sidste måling d. 06-09-2009. Inden for denne periode mangler 35 målinger og i hele datoperioden mangler 362 målinger. Der er derfor 611 målinger for varmeforbruget for hus 2. 3. Energiforbruget for hus 3, QHus3 , har sin første måling d. 07/12/2008 og har sin sidste måling d. 06/09/2009. Inden for denne periode mangler 177 målinger og i hele datoperioden mangler 511 målinger. Der er derfor 462 målinger for varmeforbruget for hus 3. 4. Energiforbruget for hus 4, QHus4 , har sin første måling d. 05/12/2008 og har sin sidste måling d. 06/09/2009. Inden for denne periode mangler 52 målinger og i hele datoperioden mangler 384 målinger. Der er derfor 589 målinger for varmeforbruget for hus 3. b) På figur 1 nedenfor ses et tæthedshistogram over varmeforbruget for hus 1 i perioden fra 01/12/2008 til 06/09/2010. Henover er indtegnet normalfordelingskurven ud fra datagennemsnittet Q̄Hus1 = 2.3832 kW d−1 og en standardafvigelse på σ = 1.49 kW d−1 . Medianen er 2.1128 kW d−1 . 2 0.6 0.5 0.4 0.3 0.0 0.1 0.2 Tæthed 0 1 2 3 4 5 6 7 Varmeforbrug Q 1 [kW/d] Figur 1: Tæthedshistogram over varmeforbruget for hus 1 i perioden fra 01/12/2008 til 06/09/2010 med indtegnet normalfordelingskurve. Det kan ses af histogrammet at observationerne er fordelt jævnt mellem 0.5 kW d−1 — 5 kW d−1 med en klar overvægt af dage hvor varmeforbruget ligger mellem 0.5 kW d−1 — 1.5 kW d−1 . Dette store interval i varmeforbruget samt den flade normalfordelingskurve viser at der er rimelig stor spredning i varmeforbruget desuden viser histogrammet en højreskæv fordeling idét at gennemsnittet ligger til højre for medianen. Altså er der større tæthed af dage med lavt varmeforbrug. c) På figur 1 nedenfor ser varmeforbruget for de fire huse over hele datasættets tidsperiode. Det kan ses af kurverne at varmeforbruget er højt i starten af datasættet i december 2008 og stiger indtil februar 2009 hvorefter det falder indtil omkring september 2009. Derefter følger samme forløb for vinteren 2009/2010 og over sommeren 2010. Det er tydeligt at varmeforbruget er højest i vintermånederne og at dette er fyringssæson. Varmeforbruget er generelt en smule højere i vinteren 09/10 end 08/09 hvilket indikerer at udendørstemperaturen har været lavere i den førstnævnte periode. Gennemsnittet af temperaturen over dec. – mar. i de to vintermåneder bekræfter dette idét den er 1.9 °C i vinteren 08/09 og 0.0 °C i vinteren 09/10. 3 4 10−2010 09−2010 08−2010 07−2010 06−2010 05−2010 04−2010 03−2010 02−2010 01−2010 12−2009 11−2009 10−2009 09−2009 08−2009 07−2009 06−2009 05−2009 04−2009 03−2009 02−2009 01−2009 12−2008 11−2008 10−2008 0 2 Varmeforbrug [kW/d] 6 8 QHus1 QHus2 QHus3 QHus4 Dato Figur 2: Varmeforbrug i kW d−1 for de fire huse over tid. Varmeforbruget varierer en del fra dag til dag for de fire huse men følger den samme generelle trend. Varmeforbruget for hus 4 er dog generelt lavere en de andre og praktisk talt 0 i sommermånederne. Varmeforbruget for hus 2 er også generelt lavere end hus 1 over sommeren. Hus 3 følger den samme trend som de andre huse men har en del spikes som ikke observeres i samme grad for de andre huse. Heriblandt spikes nedad i starten af dec. 2008 og i midten af jan. 2008 samt spikes opad i ultimo dec. 2009 og i starten af. apr. 2010. d) Figur 3 nedenfor viser fire boksplot over varmeforbruget for husene. Det kan ses at fordelingerne af varmeforbruget for hus 2 og 4 er symmetriske og at fordelingen for hus 1 er lidt højreskæv. Fordelingen for hus 3 er venstreskæv. Det kan desuden ses at varmeforbruget for hus 3 generelt er væsentligt højere end de tre andre. Forbruget for hus 1 og 2 er omtrent det samme med forbruget for hus 2 en smule lavere. Dette kan ses ved at medianen samt 1. og 3. kvartil ligger en smule lavere for hus 2 end 1. På samme vis kan de ses at forbruget for hus 4 er generelt lavere end for de tre andre huse. Spredningen i det indre kvartil er størst for hus 3 og 4 er større end for hus 1 og 2. 4 6.5 6.0 5.5 3.5 4.0 4.5 5.0 Varmeforbrug [kW/d] 1 2 3 4 Hus Figur 3: Boksplot over varmeforbruget for hvert hus i perioden jan.–feb. 2010 e) Af tabel 1 kan udvalgte statistikker for de fire huse ses. Det tre kvartiler som indgår i de farvede dele af boksplottene på figur 4 indgår i tabellen, men ikke maksimum og minimum som kan ses på boksplottene. Derudover indgår antallet af observationer, stikprøvegennemsnittet samt variansen og dermed standardafvigelsen i tabellen; disse kan ikke ses i boksplottene. Tabel 1: Oversigt over forskellige statistikker for hvert hus i perioden jan.–feb. 2010 Hus Antal obs. n 1 2 3 4 55 56 55 57 Gennem- Varians snit s2 Q̄ 4.76 4.61 5.47 4.28 Standard- Nedre afvigelse kvartil s Q1 0.21 0.19 0.19 0.17 0.46 0.43 0.44 0.42 5 4.46 4.45 5.26 3.98 Median Q2 Øvre kvartil Q3 4.69 4.58 5.50 4.29 4.91 4.84 5.77 4.58 Statistisk analyse f) Det antages at varmeforbruget for følger en normalfordeling Xi ∼ N (µ, σ 2 ), i = 1, . . . n. Som estimater for µ og σ anvendes stikprøvegennemsnittene og stikprøvestandardafvigelserne for de fire huse som kan ses i tabel 1. Nedenfor er opskrevet statistiske modeller for varmeforbruget for de fire huse: X1i X2i X3i X4i ∼ N (4.76, 0.462 ), ∼ N (4.61, 0.432 ), ∼ N (5.47, 0.442 ), ∼ N (4.28, 0.422 ), i = 1, i = 1, i = 1, i = 1, ..., ..., ..., ..., (1) (2) (3) (4) 55 56 55 57 Det kan vurderes hvorvidt normalfordelingsantagelsen er korrekt ud fra QQ-plotsne i figur 4. Idét at punkterne ligger tæt op af linjen for hus 3 og 4 er modelantagelsen korrekt. Dette ses ikke for hus 1 og 2. For hus 1 holder modelantagelsen indtil omkring 1 på den teoretiske fraktil-akse og for hus 2 holder antagelsen mellem -1 og 1 på samme akse. Det vil sige at uden for disse områder holder modeltantagelsen ikke. Her kan den centrale grænseværdisætning inddrages idét der arbejdes med en rimelig stor mængde data (n1 = 55, n2 = 56). Da dette er tilfældet vil fordelingen af varmeforbrugsgennemsnittet være stort set uafhængig fordelingen af varmeforbruget. Derfor kan der ses bort fra den underliggende fordeling når der i det følgende laves slutninger ud fra gennemsnittets fordeling. Hus 2 5.0 5.5 4.5 5.0 4.0 4.5 4.0 Stikprøvefraktiler 6.0 5.5 Hus 1 −2 −1 0 1 2 −2 −1 2 1 2 5.0 4.5 6.0 4.0 5.5 3.5 5.0 4.5 Stikprøvefraktiler 1 Hus 4 6.5 Hus 3 0 −2 −1 0 1 2 −2 Teoretiske fraktiler −1 0 Teoretiske fraktiler Figur 4: QQ-plots for de fire huse i perioden jan.–feb. 2010 6 g) Et 95% konfidensinterval (KI) kan bestemmes ud fra følgende formel: s KI = Q̄Hus1 ± t0.975 √ n (5) Konfidensintervallet for hus 1 bliver derfor: 0.46 KI = 4.76 ± 2.004879 √ = [4.63; 4.88] 55 (6) Konfidensintervallerne for de fire huse er vist på tabel 2 nedenfor. Her ses både beregnet ved brug af formel og beregnet ved brug af t.test funktionen i R. Det kan ses at formel og t.test giver samme resultat. Tabel 2: Konfidensintervaller for de fire huse i perioden jan.–feb. 2010 Hus KI (formel) 1 2 3 4 4.63 4.49 5.35 4.17 – – – – 4.88 4.72 5.59 4.39 KI (t.test) 4.63 4.49 5.35 4.17 – – – – 4.88 4.72 5.59 4.39 h) En hyptosetest anvendes til at vurdere om det gennemsnitlige varmeforbrug for hus 1 i perioden jan.–feb. 2010 er 2.38 kW d−1 . Nulhypotesen som der arbejdes ud fra ses nedenfor: H0 : µHus1 = µ0 = 2.38 (7) Teststørrelsen kan bestemmes ud fra formlen nedenfor og følger en t-fordeling med ν frihedsgrader. Q1 − µ0 √ ∼ t(ν = n − 1) s/ n 4.76 − 2.38 √ = = 38.42 ∼ t(54) 0.46/ 55 tobs = (8) tobs (9) Fra teststørrelsen bestemmes p-værdien: p = 2 · P (T > |tobs |) = 2 · (1 − P (T ≤ |tobs |), p = 2 · (1 − P (T ≤ 38.42)) = 2 · (1 − 1) = 0 T ∼ t(54) (10) (11) Resultatet bekræftes af en t.test lavet i R som giver giver p < 2.2 × 10−16 . Dette svarer til så godt som 0. Da p << 0.05 er der stærk evidens imod nulhypotesen som derfor forkastes. 7 Det vil sige at der er stærk evidens for at det gennemsnitlige varmeforbrug for hus 1 i perioden jan.–feb. 2010 ikke er 2.38 kW d−1 . Varmeforbruget er derimod højere; dette kan blandt andet ses ud fra KI som fortæller at middelværdien ligger mellem 4.63 og 4.88. Ud fra denne kan det også ses at det ikke var nødvendigt at udføre en t-test idét at 2.38 ∈ / [4.63; 4.88]. i) En hypotesetest anvendes også til at vurdere om der er forskel i det gennemsnitlige varmeforbrug for hus 1 og 2 i samme periode som i h). Nulhypotesen, der tages udgangspunkt i, er: H0 : µHus1 = µHus2 H0 : δ = δ0 = µHus1 − µHus2 = 0 Antallet af frihedsgrader bestemmes først: 2 2 s22 s1 + n2 n1 ν= 2 2 2 (s1 /n1 ) (s22 /n2 ) + n2 −1 n1 −1 2 0.21 + 0.19 55 56 ν= = 108.26 (0.21/55)2 (0.19/56)2 + 55−1 56−1 (12) (13) (14) (15) Teststørrelsen bestemmes herefter: (Q − Q2 ) − δ0 ∼ t(ν) tobs = p 12 s1 /n1 + s22 /n2 (4.76 − 4.61) − 0 tobs = p = 1.75 ∼ t(108.26) 0.21/55 + 0.19/0.43 (16) (17) Til sidst kan p-værdien bestemmes: p = 2 · P (T > |tobs |) = 2 · (1 − P (T ≤ |tobs |), T ∼ t(108.26) p = 2 · (1 − P (T ≤ 1.75)) = 2 · (1 − 1) = 0.08286 (18) (19) Den samme t-test udført i R med t.test giver p = 0.08286 og resultatet er dermed bekræftet. Da p = 0.08286 ≮ 0.05 er der kun svag evidens mod nulhypotesen som derfor ikke forkastes. Der er ikke en statistisk signifikant forskel i varmeforbruget for de to huse, hvilket også blev indikeret af figur 3. j) Da der er overlap i konfidensintervallerne for hus 1 og 2 kan der ikke konkluderes ud fra KI om der er en statistisk signifikant forskel på de to huses varmeforbrug. Det er derfor 8 nødvendigt at udføre hypotesetesten fra i) for at vurdere om der er. Korrelation k) Korrelationen mellem den globale indstråling G og varmeforbruget for hus 1 QHus1 kan bestemmes fra formlen: sxy (20) r= sx sy Hvor sxy er kovariansen for de to variable. Der fås, idét at kovariansen er bestemt med R-funktionen cov, en korrelation på: −118.395 r= = −0.769 (21) 103.365 · 1.489 Korrelationen regnet med cor i R giver -0.754. Det giver en forskel på 0.015, altså ikke en betydelig forskel. På figur 5 ses et scatterplot over varmeforbruget for hus 1 som funktion af den globale indstråling med et indtegnet lineært fit. Det kan ses at det lineære fit følger en negativ tendens hvilket stemmer overens med den negative korrelation. Desuden ses at punkterne ligger meget spredt omkring linjen hvilket også stemmer overens med den relativt lave korrelation. 4 3 1 2 Varmeforbrug for hus 1 [kW/d] 5 6 Lineært fit 0 100 200 300 2 Global indstråling [W/m ] Figur 5: Scatterplot over varmeforbrug som funktion af den globale indstråling over hele datasættets tidsperiode. Den sorte linje er et lineært fit med korrelationen r 9