Uploaded by Hanzi Timu

Statprojekt 1

advertisement
Varmeforbrug i Sønderborg
Projekt 1
Aske Hansen — s194187
12. oktober 2021
Indhold
Beskrivende analyse
2
a)
2
b)
2
c)
3
d)
4
e)
5
Statistisk analyse
6
f)
6
g)
7
h)
7
i)
8
j)
8
Korrelation
9
k)
9
1
Denne rapport behandler varmeforbruget for 4 fritstående enfamilieshuse i Sønderborg i
perioden 2008 til 2011.
Beskrivende analyse
a)
For at kunne behandle varmeforbuget for de fire huse i Sønderborg anvendes et datasæt
med 8 variable. Den første variabel er datoen, som angiver hvilke dage de syv andre
variable er målt. Datasættet dækker over 973 fortløbende dage i perioden fra 02-102008 til 01-06-2011. De næste tre variable er klimatiske variable og består af dagens
udendørstemperatur, Ta , i °C, den globale indstråling, G, på dagen i W m−3 samt dagens
vindhastighed, vW , i m s−1 . Disse tre er kvantitative data og dækker næsten hele perioden;
der er 61 dage ud af de 973 hvor der ikke er foretaget målinger af disse variable. De sidste
fire variable er kvantitative og dækker over energiforbruget, Q, for de fire huse i kW d−1 :
1. Energiforbruget for hus 1, QHus1 , har sin første måling d. 01-12-2008 og har sin
sidste måling d. 06-09-2009. Inden for denne periode mangler 103 målinger og i hele
datoperioden mangler 431 målinger. Der er derfor 542 målinger for varmeforbruget
for hus 1.
2. Energiforbruget for hus 2, QHus2 , har sin første måling d. 30-11-2008 og har sin
sidste måling d. 06-09-2009. Inden for denne periode mangler 35 målinger og i hele
datoperioden mangler 362 målinger. Der er derfor 611 målinger for varmeforbruget
for hus 2.
3. Energiforbruget for hus 3, QHus3 , har sin første måling d. 07/12/2008 og har sin
sidste måling d. 06/09/2009. Inden for denne periode mangler 177 målinger og i hele
datoperioden mangler 511 målinger. Der er derfor 462 målinger for varmeforbruget
for hus 3.
4. Energiforbruget for hus 4, QHus4 , har sin første måling d. 05/12/2008 og har sin
sidste måling d. 06/09/2009. Inden for denne periode mangler 52 målinger og i hele
datoperioden mangler 384 målinger. Der er derfor 589 målinger for varmeforbruget
for hus 3.
b)
På figur 1 nedenfor ses et tæthedshistogram over varmeforbruget for hus 1 i perioden
fra 01/12/2008 til 06/09/2010. Henover er indtegnet normalfordelingskurven ud fra datagennemsnittet Q̄Hus1 = 2.3832 kW d−1 og en standardafvigelse på σ = 1.49 kW d−1 .
Medianen er 2.1128 kW d−1 .
2
0.6
0.5
0.4
0.3
0.0
0.1
0.2
Tæthed
0
1
2
3
4
5
6
7
Varmeforbrug Q 1 [kW/d]
Figur 1: Tæthedshistogram over varmeforbruget for hus 1 i perioden fra 01/12/2008 til
06/09/2010 med indtegnet normalfordelingskurve.
Det kan ses af histogrammet at observationerne er fordelt jævnt mellem 0.5 kW d−1 —
5 kW d−1 med en klar overvægt af dage hvor varmeforbruget ligger mellem 0.5 kW d−1 —
1.5 kW d−1 . Dette store interval i varmeforbruget samt den flade normalfordelingskurve
viser at der er rimelig stor spredning i varmeforbruget desuden viser histogrammet en
højreskæv fordeling idét at gennemsnittet ligger til højre for medianen. Altså er der
større tæthed af dage med lavt varmeforbrug.
c)
På figur 1 nedenfor ser varmeforbruget for de fire huse over hele datasættets tidsperiode.
Det kan ses af kurverne at varmeforbruget er højt i starten af datasættet i december 2008
og stiger indtil februar 2009 hvorefter det falder indtil omkring september 2009. Derefter
følger samme forløb for vinteren 2009/2010 og over sommeren 2010. Det er tydeligt at
varmeforbruget er højest i vintermånederne og at dette er fyringssæson. Varmeforbruget
er generelt en smule højere i vinteren 09/10 end 08/09 hvilket indikerer at udendørstemperaturen har været lavere i den førstnævnte periode. Gennemsnittet af temperaturen
over dec. – mar. i de to vintermåneder bekræfter dette idét den er 1.9 °C i vinteren 08/09
og 0.0 °C i vinteren 09/10.
3
4
10−2010
09−2010
08−2010
07−2010
06−2010
05−2010
04−2010
03−2010
02−2010
01−2010
12−2009
11−2009
10−2009
09−2009
08−2009
07−2009
06−2009
05−2009
04−2009
03−2009
02−2009
01−2009
12−2008
11−2008
10−2008
0
2
Varmeforbrug [kW/d]
6
8
QHus1
QHus2
QHus3
QHus4
Dato
Figur 2: Varmeforbrug i kW d−1 for de fire huse over tid.
Varmeforbruget varierer en del fra dag til dag for de fire huse men følger den samme
generelle trend. Varmeforbruget for hus 4 er dog generelt lavere en de andre og praktisk
talt 0 i sommermånederne. Varmeforbruget for hus 2 er også generelt lavere end hus 1
over sommeren. Hus 3 følger den samme trend som de andre huse men har en del spikes
som ikke observeres i samme grad for de andre huse. Heriblandt spikes nedad i starten
af dec. 2008 og i midten af jan. 2008 samt spikes opad i ultimo dec. 2009 og i starten af.
apr. 2010.
d)
Figur 3 nedenfor viser fire boksplot over varmeforbruget for husene. Det kan ses at fordelingerne af varmeforbruget for hus 2 og 4 er symmetriske og at fordelingen for hus 1
er lidt højreskæv. Fordelingen for hus 3 er venstreskæv. Det kan desuden ses at varmeforbruget for hus 3 generelt er væsentligt højere end de tre andre. Forbruget for hus 1 og
2 er omtrent det samme med forbruget for hus 2 en smule lavere. Dette kan ses ved at
medianen samt 1. og 3. kvartil ligger en smule lavere for hus 2 end 1. På samme vis kan
de ses at forbruget for hus 4 er generelt lavere end for de tre andre huse. Spredningen i
det indre kvartil er størst for hus 3 og 4 er større end for hus 1 og 2.
4
6.5
6.0
5.5
3.5
4.0
4.5
5.0
Varmeforbrug [kW/d]
1
2
3
4
Hus
Figur 3: Boksplot over varmeforbruget for hvert hus i perioden jan.–feb. 2010
e)
Af tabel 1 kan udvalgte statistikker for de fire huse ses. Det tre kvartiler som indgår i de
farvede dele af boksplottene på figur 4 indgår i tabellen, men ikke maksimum og minimum
som kan ses på boksplottene. Derudover indgår antallet af observationer, stikprøvegennemsnittet samt variansen og dermed standardafvigelsen i tabellen; disse kan ikke ses i
boksplottene.
Tabel 1: Oversigt over forskellige statistikker for hvert hus i perioden jan.–feb. 2010
Hus
Antal
obs.
n
1
2
3
4
55
56
55
57
Gennem- Varians
snit
s2
Q̄
4.76
4.61
5.47
4.28
Standard- Nedre
afvigelse kvartil
s
Q1
0.21
0.19
0.19
0.17
0.46
0.43
0.44
0.42
5
4.46
4.45
5.26
3.98
Median
Q2
Øvre
kvartil
Q3
4.69
4.58
5.50
4.29
4.91
4.84
5.77
4.58
Statistisk analyse
f)
Det antages at varmeforbruget for følger en normalfordeling Xi ∼ N (µ, σ 2 ), i = 1, . . . n.
Som estimater for µ og σ anvendes stikprøvegennemsnittene og stikprøvestandardafvigelserne for de fire huse som kan ses i tabel 1. Nedenfor er opskrevet statistiske modeller for
varmeforbruget for de fire huse:
X1i
X2i
X3i
X4i
∼ N (4.76, 0.462 ),
∼ N (4.61, 0.432 ),
∼ N (5.47, 0.442 ),
∼ N (4.28, 0.422 ),
i = 1,
i = 1,
i = 1,
i = 1,
...,
...,
...,
...,
(1)
(2)
(3)
(4)
55
56
55
57
Det kan vurderes hvorvidt normalfordelingsantagelsen er korrekt ud fra QQ-plotsne i figur 4. Idét at punkterne ligger tæt op af linjen for hus 3 og 4 er modelantagelsen korrekt.
Dette ses ikke for hus 1 og 2. For hus 1 holder modelantagelsen indtil omkring 1 på den
teoretiske fraktil-akse og for hus 2 holder antagelsen mellem -1 og 1 på samme akse.
Det vil sige at uden for disse områder holder modeltantagelsen ikke. Her kan den centrale grænseværdisætning inddrages idét der arbejdes med en rimelig stor mængde data
(n1 = 55, n2 = 56). Da dette er tilfældet vil fordelingen af varmeforbrugsgennemsnittet være stort set uafhængig fordelingen af varmeforbruget. Derfor kan der ses bort fra
den underliggende fordeling når der i det følgende laves slutninger ud fra gennemsnittets
fordeling.
Hus 2
5.0
5.5
4.5
5.0
4.0
4.5
4.0
Stikprøvefraktiler
6.0
5.5
Hus 1
−2
−1
0
1
2
−2
−1
2
1
2
5.0
4.5
6.0
4.0
5.5
3.5
5.0
4.5
Stikprøvefraktiler
1
Hus 4
6.5
Hus 3
0
−2
−1
0
1
2
−2
Teoretiske fraktiler
−1
0
Teoretiske fraktiler
Figur 4: QQ-plots for de fire huse i perioden jan.–feb. 2010
6
g)
Et 95% konfidensinterval (KI) kan bestemmes ud fra følgende formel:
s
KI = Q̄Hus1 ± t0.975 √
n
(5)
Konfidensintervallet for hus 1 bliver derfor:
0.46
KI = 4.76 ± 2.004879 √ = [4.63; 4.88]
55
(6)
Konfidensintervallerne for de fire huse er vist på tabel 2 nedenfor. Her ses både beregnet
ved brug af formel og beregnet ved brug af t.test funktionen i R. Det kan ses at formel
og t.test giver samme resultat.
Tabel 2: Konfidensintervaller for de fire huse i perioden jan.–feb. 2010
Hus
KI (formel)
1
2
3
4
4.63
4.49
5.35
4.17
–
–
–
–
4.88
4.72
5.59
4.39
KI (t.test)
4.63
4.49
5.35
4.17
–
–
–
–
4.88
4.72
5.59
4.39
h)
En hyptosetest anvendes til at vurdere om det gennemsnitlige varmeforbrug for hus 1 i
perioden jan.–feb. 2010 er 2.38 kW d−1 . Nulhypotesen som der arbejdes ud fra ses nedenfor:
H0 : µHus1 = µ0 = 2.38
(7)
Teststørrelsen kan bestemmes ud fra formlen nedenfor og følger en t-fordeling med ν
frihedsgrader.
Q1 − µ0
√ ∼ t(ν = n − 1)
s/ n
4.76 − 2.38
√
=
= 38.42 ∼ t(54)
0.46/ 55
tobs =
(8)
tobs
(9)
Fra teststørrelsen bestemmes p-værdien:
p = 2 · P (T > |tobs |) = 2 · (1 − P (T ≤ |tobs |),
p = 2 · (1 − P (T ≤ 38.42)) = 2 · (1 − 1) = 0
T ∼ t(54)
(10)
(11)
Resultatet bekræftes af en t.test lavet i R som giver giver p < 2.2 × 10−16 . Dette svarer
til så godt som 0. Da p << 0.05 er der stærk evidens imod nulhypotesen som derfor
forkastes.
7
Det vil sige at der er stærk evidens for at det gennemsnitlige varmeforbrug for hus 1
i perioden jan.–feb. 2010 ikke er 2.38 kW d−1 . Varmeforbruget er derimod højere; dette
kan blandt andet ses ud fra KI som fortæller at middelværdien ligger mellem 4.63 og
4.88. Ud fra denne kan det også ses at det ikke var nødvendigt at udføre en t-test idét at
2.38 ∈
/ [4.63; 4.88].
i)
En hypotesetest anvendes også til at vurdere om der er forskel i det gennemsnitlige varmeforbrug for hus 1 og 2 i samme periode som i h). Nulhypotesen, der tages udgangspunkt
i, er:
H0 : µHus1 = µHus2
H0 : δ = δ0 = µHus1 − µHus2 = 0
Antallet af frihedsgrader bestemmes først:
2
2
s22
s1
+ n2
n1
ν= 2
2
2
(s1 /n1 )
(s22 /n2 )
+ n2 −1
n1 −1
2
0.21
+ 0.19
55
56
ν=
= 108.26
(0.21/55)2
(0.19/56)2
+
55−1
56−1
(12)
(13)
(14)
(15)
Teststørrelsen bestemmes herefter:
(Q − Q2 ) − δ0
∼ t(ν)
tobs = p 12
s1 /n1 + s22 /n2
(4.76 − 4.61) − 0
tobs = p
= 1.75 ∼ t(108.26)
0.21/55 + 0.19/0.43
(16)
(17)
Til sidst kan p-værdien bestemmes:
p = 2 · P (T > |tobs |) = 2 · (1 − P (T ≤ |tobs |), T ∼ t(108.26)
p = 2 · (1 − P (T ≤ 1.75)) = 2 · (1 − 1) = 0.08286
(18)
(19)
Den samme t-test udført i R med t.test giver p = 0.08286 og resultatet er dermed
bekræftet. Da p = 0.08286 ≮ 0.05 er der kun svag evidens mod nulhypotesen som derfor
ikke forkastes.
Der er ikke en statistisk signifikant forskel i varmeforbruget for de to huse, hvilket også
blev indikeret af figur 3.
j)
Da der er overlap i konfidensintervallerne for hus 1 og 2 kan der ikke konkluderes ud fra
KI om der er en statistisk signifikant forskel på de to huses varmeforbrug. Det er derfor
8
nødvendigt at udføre hypotesetesten fra i) for at vurdere om der er.
Korrelation
k)
Korrelationen mellem den globale indstråling G og varmeforbruget for hus 1 QHus1 kan
bestemmes fra formlen:
sxy
(20)
r=
sx sy
Hvor sxy er kovariansen for de to variable. Der fås, idét at kovariansen er bestemt med
R-funktionen cov, en korrelation på:
−118.395
r=
= −0.769
(21)
103.365 · 1.489
Korrelationen regnet med cor i R giver -0.754. Det giver en forskel på 0.015, altså ikke
en betydelig forskel.
På figur 5 ses et scatterplot over varmeforbruget for hus 1 som funktion af den globale
indstråling med et indtegnet lineært fit. Det kan ses at det lineære fit følger en negativ
tendens hvilket stemmer overens med den negative korrelation. Desuden ses at punkterne
ligger meget spredt omkring linjen hvilket også stemmer overens med den relativt lave
korrelation.
4
3
1
2
Varmeforbrug for hus 1 [kW/d]
5
6
Lineært fit
0
100
200
300
2
Global indstråling [W/m ]
Figur 5: Scatterplot over varmeforbrug som funktion af den globale indstråling over hele
datasættets tidsperiode. Den sorte linje er et lineært fit med korrelationen r
9
Download