Uploaded by piesekbobek

Planowanie i wnioskowanie

advertisement
INSTYTUT HODOWLI I AKLIMATYZACJI RO LIN
PLANOWANIE I WNIOSKOWANIE
STATYSTYCZNE W BADANIACH
ROLNICZYCH
MATERIA Y SZKOLENIOWE
Dr hab. Zbigniew Lauda ski, prof. nadzw.
Katedra Biometrii
Wydzia Rolnictwa i Biologii
SGGW — Warszawa
Mgr in&. Dariusz R. Ma kowski
Pracownia Ekonomiki Nasiennictwa i Hodowli Ro lin
Zak ad Nasiennictwa i Nasionoznawstwa
IHAR — Radzików
IHAR — RADZIKÓW, 2007
2
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
SPIS TRE
CI
Szczegó owy program seminarium...............................................................5
I.
II.
Wprowadzenie do statystyki matematycznej...............................................9
1.
Zdarzenia losowe i prawdopodobie!stwo..................................................... 9
1.1. Klasyczna definicja prawdopodobie!stwa (Laplace’a)..................... 10
1.2. Aksjomatyczna definicja prawdopodobie!stwa (Ko mogorowa) ..... 11
1.3. zasadnicze twierdzenia......................................................................... 11
1.4. Prawdopodobie!stwo ca kowite, wzór Bayesa .................................. 12
2.
Zmienne losowe i ich rozk ady teoretyczne.................................................. 14
2.1. Zmienne losowe typu skokowego ........................................................ 14
2.2. Zmienne losowe typu ci/g ego............................................................. 18
3.
Estymacja punktowa i przedzia owa parametrów populacji
jednowymiarowych, hipotezy statystyczne................................................... 26
3.1. Statystyczna próba losowa................................................................... 26
3.2. Poj3cie estymatora (estymacja punktowa)......................................... 28
3.3. Estymacja przedzia owa ...................................................................... 30
3.4. Hipotezy statystyczne i ich weryfikacja, testy statystyczne .............. 34
3.5. Wi3cej ni5 dwie 6rednie — test analizy wariancji ............................. 46
Analiza statystyczna danych do6wiadczalnych............................................51
1.
Wprowadzenie ................................................................................................ 51
2.
Zasady statystyczne planowania eksperymentów........................................ 52
2.1. Metodyka i technika do6wiadcze! rolniczych.................................... 53
3.
Poj3cie kontrastu ............................................................................................ 68
4.
Transformacje danych empirycznych .......................................................... 71
5.
Analiza wspó zale5no6ci ................................................................................. 73
6.
Funkcja regresji.............................................................................................. 77
6.1. Reresja liniowa dwu zmiennych.......................................................... 77
6.2. Korelacja i regresja wielu zmiennych ................................................ 80
6.3. Modele linearyzowane, regresja krzywoliniowa................................ 82
7.
Regresja w analizie wariancji........................................................................ 84
8.
Analiza kowariancji........................................................................................ 85
9.
Testy 2............................................................................................................. 87
9.1. Testy zgpdmo6ci 2 ............................................................................... 87
9.2. Testy niezale5no6ci 2 ........................................................................... 90
9.3. Zgodno6= rozk adów empirycznych.................................................... 93
Z. Lauda ski, D. R. Ma kowski
3
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
4
10. Klasyfikacja danych statystycznych.................................................................. 95
10.1. Analiza skupie! (Cluster analysis)....................................................... 95
10.2. Miary odleg o6ci (Dissimilarity measure) ............................................ 95
10.3. Miary blisko6ci / podobie!stwa (Similarity measure) ........................ 97
10.4. Analiza skupie! (cd.) ............................................................................ 98
11.
Analiza czynnikowa ........................................................................................ 102
11.1. Rotacje czynników, metoda varimax .................................................. 103
III. Awiczenia pokazowe ...................................................................................... 107
1.
Prawid owe przygotowanie danych do analizy ............................................ 107
2.
Wczytywanie danych do Systemu SAS® ....................................................... 109
2.1. SAS Enterprise Guide® ........................................................................ 109
2.2. Drodowisko programistyczne SAS® .................................................... 111
3.
Podstawowe analizy statystyczne................................................................... 115
3.1. Statystyki opisowe ................................................................................ 115
3.2. Testy t .................................................................................................... 117
3.3. Analiza wariancji.................................................................................. 119
4.
Planowanie eksperymentu ............................................................................. 121
4.1. Drodowisko programistyczne SAS® .................................................... 121
4.2. Drodowisko JMP 6 / 7........................................................................... 123
5.
Statystyczne metody opracowywania wyników ........................................... 126
5.1. Analiza wariancji.................................................................................. 126
5.2. Analiza korelacji i regresji prostych................................................... 132
5.3. Analiza regresji wielokrotnej .............................................................. 134
5.4. Analiza kowariancji.............................................................................. 135
5.5. Tablice kontyngencji i testy chi-kwadrat ........................................... 136
5.6. Analiza skupie!..................................................................................... 137
5.7. Wielowymiarowa analiza czynnikowa................................................ 139
Literatura........................................................................................................141
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
5
SZCZEGÓ OWY PROGRAM SEMINARIUM
„PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH”
(S. Sz. 13/2007)
Kierownik merytoryczny:
Dr hab. Zbigniew Lauda,ski, prof. nadzw.
Katedra Biometrii SGGW Warszawa
Data i miejsce:
20–22 listopad 2007 r.
IHAR Radzików (sala konferencyjna)
Szkolenie skierowane jest w g4ównej mierze do pracowników naukowych Instytutów
Badawczych, Uczelni Wy7szych i Firm Hodowlanych, wykorzystuj9cych w swej pracy metody
i analizy statystyczne. Obejmuje zagadnienia zwi9zane z podstawami statystyki matematycznej,
biostatystyki, do:wiadczalnictwa rolniczego i analizy danych. W trakcie szkolenia
zaprezentowane b;dzie wykorzystanie komputerowego oprogramowania analitycznego (System
SAS®, SAS Institute Inc.) do analizy przyk4adów obrazuj9cych omawiane zagadnienia.
W szczególno:ci szkolenie to kierowane jest do m4odych pracowników nauki, którym
prezentowane zagadnienia z zakresu do:wiadczalnictwa rolniczego i statystyki matematycznej
s9 potrzebne do prowadzenia bada,.
DATA
TEMAT
LICZBA
GODZIN
GODZINY
OD – DO
PROWADZNCY
1
2
3
4
5
20
listopad
2007 r.
(wtorek)
Przyjazd uczestników; pocz;stunek (kawa, herbata, ciastka) godz. 1000–1030
0,3
1030–1045
Kierownik merytoryczny
Kierownik Sekcji
Promocji i Szkole,
1. Prawdopodobie,stwo, zmienne losowe,
rozk4ady zmiennych losowych skokowych
i ci9g4ych, parametry zmiennych losowych.
Poj;cia populacji generalnej i próby
reprezentatywnej – dane statystyczne i ich
pozyskiwanie. Szereg rozdzielczy
i histogram.
1
1045–1130
prof. SGGW
Zbigniew Lauda,ski
2. Estymacja punktowa i przedzia4owa
parametrów populacji jednowymiarowych.
Poj;cie modelu liniowego obserwacji:
yi = m + i . Hipotezy merytoryczne
i statystyczne. B4;dy wnioskowania
statystycznego.
1
1130–1215
prof. SGGW
Zbigniew Lauda,ski
Otwarcie seminarium; przedstawienie celu;
sprawy organizacyjne
BLOK I
Wprowadzenie do statystyki matematycznej
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
6
1
2
3
Praktyczne stosowanie statystycznych testów
istotno:ci: t – Studenta oraz F – Fishera przy
weryfikacji hipotez statystycznych:
H 0 : m = m0 , H 0 : m1 = m2 , H 0 :
2
1
=
4
5
0,5
1215–1235
mgr in7.
Dariusz R. Ma,kowski
IHAR — Radzików
Pracownia Ekonomiki
Nasiennictwa i Hodowli
Ro:lin
1
1235–1320
prof. SGGW
Zbigniew Lauda,ski
2
2.
3. Klasyfikacja danych statystycznych wed4ug
wielu poziomów jednego kryterium (czynnika).
Model liniowy obserwacji: yij = m + i + ij .
Hipoteza zerowa postaci
H 0 : m1 = m2 = = mk , jako rozszerzenie
hipotezy postaci H 0 : m1 = m2 . Metoda analizy
wariancji.
Przerwa obiadowa — godz. 1320–1420
BLOK I (ci2g dalszy)
Porównania wielokrotne, zastosowanie testów:
Tukeya, Duncana, Dunneta. Poj;cie grupy
jednorodnej oraz warto:ci NIR — Najmniejszej
Istotnej Ró7nicy.
4. Fwiczenia pokazowe.
0,5
1420–1445
mgr in7.
Dariusz R. Ma,kowski
1
1445–1530
mgr in7.
Dariusz R. Ma,kowski
Kolacja — godz. 1800
21
listopad
2007 r.
(%roda)
BLOK II
Planowanie eksperymentu
1. Laboratoryjne i polowe do:wiadczenia
porównawcze. Do:wiadczenia w uk4adach:
ca4kowicie losowych i losowanych bloków
(klasyczny, kwadrat 4aci,ski, split-plot, splitblock). Modele liniowe danych z wybranych
do:wiadcze, jedno–, dwu– oraz
trójczynnikowych. Poj;cie wspó4dzia4ania
(interakcji) czynników. Do:wiadczenia
wielokrotne.
1,25
830–930
prof. SGGW
Zbigniew Lauda,ski
2. Do:wiadczenia czynnikowe w uk4adach
kompletnych i niekompletnych,
zrównowa7onych i niezrównowa7onych.
0,75
930–1000
prof. SGGW
Zbigniew Lauda,ski
1
1000–1045
mgr in7.
Dariusz R. Ma,kowski
3. Fwiczenia pokazowe.
Przerwa na kaw; i herbat; — godz. 1045–1115
BLOK III
Statystyczne metody opracowywania wyników
do4wiadcze5 wg modeli analizy wariancji,
kowariancji i regresji.
1. Analiza wariancji danych z wieloczynnikowych
do:wiadcze, porównawczych. Transformacje
danych. Poj;cie kontrastu.
1
1115–1200
prof. SGGW
Zbigniew Lauda,ski
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
1
2
Weryfikacja hipotez ogólnych i szczegó4owych —
porównania wielokrotne :rednich.
3
4
1
1200–1245
7
5
mgr in7.
Dariusz R. Ma,kowski
Przerwa obiadowa — godz. 1245–1345
BLOK III (ci2g dalszy)
2. Populacje dwuwymiarowe i wielowymiarowe.
Analiza korelacja i analiza regresji liniowej
dwóch zmiennych. Korelacja i regresja liniowa
wielu zmiennych.
1,5
1345–1450
prof. SGGW
Zbigniew Lauda,ski
3. Zastosowanie wybranych funkcji jednej
zmiennej niezale7nej w analizach
statystycznych. Regresja w analizie wariancji.
Analiza kowariancji.
1
1450–1535
prof. SGGW
Zbigniew Lauda,ski
Kolacja — godz. 1700
Wyjazd do teatru — godz. 1750
22
listopad
2007 r.
(czwartek)
BLOK III (ci2g dalszy)
Inne metody opracowywania danych
statystycznych.
1. Zastosowania testu 2 Pearsona . Hipotezy
nieparametryczne dotycz9ce zgodno:ci
rozk4adu populacji generalnej z rozk4adem
teoretycznym na podstawie wieloelementowej
próby (szeregi rozdzielcze) oraz zgodno:ci
rozk4adów kilku populacji generalnych.
Badanie niezale7no:ci cech jako:ciowych na
podstawie tablic kontyngencji.
1
830–915
prof. SGGW
Zbigniew Lauda,ski
2. Analiza skupie, w badaniach zró7nicowania
obiektów wielocechowych. Wielowymiarowa
analiza czynnikowa w zastosowaniach do
grupowania zmiennych (cech).
2
915–1045
prof. SGGW
Zbigniew Lauda,ski
Przerwa na kaw; i herbat; — godz. 1045–1115
BLOK III (ci2g dalszy)
3. Fwiczenia pokazowe.
2,5
1115–1315
Podsumowanie seminarium po49czone z dyskusj9
uczestników; rozdanie za:wiadcze,.
0,3
13151335
Obiad — godz. 1335
Odwiezienie autokarem do Warszawy — godz. 1415
Z. Lauda ski, D. R. Ma kowski
mgr in7.
Dariusz R. Ma,kowski
Kierownik merytoryczny
Kierownik Sekcji
Promocji i Szkole,
8
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
9
I. WPROWADZENIE DO STATYSTYKI MATEMATYCZNEJ
1. ZDARZENIE LOSOWE I PRAWDOPODOBIE
STWO
Do%wiadczeniem (eksperymentem) losowym nazywamy takie do:wiadczenie dla którego,
pomimo sprecyzowania warunków jego realizacji, nie jeste:my w stanie przewidzieK jego
wyniku (wynik losowy, przypadkowy).
Rzucaj9c monet9 (do%wiadczenie) nie jeste:my w stanie okre:liK wyniku — mo7emy
przecie7 uzyskaK or*a lub reszk+. Rzucaj9c kostk9 sze:cienn9, w wyniku mo7na uzyskaK jedn9
z sze:ciu mo7liwo:ci. S9 to wszystkie mo7liwe zdarzenia wyst;puj9ce w tym do:wiadczeniu.
W ka7dym do:wiadczeniu losowym mo7na wi;c wyró7niK najprostsze, nierozk4adalne
zdarzenia (wyniki), które nazywamy elementarnymi, o w4asno:ciach:
1) dane zdarzenie mo,e zaj%- lub nie,
2) jedno ze zdarze elementarnych na pewno zajdzie,
3) zaj%cie jednego w tym samym do%wiadczeniu wyklucza zaj%cie innego.
Zbiór wszystkich zdarze, elementarnych zwi9zanych z do:wiadczeniem nazywamy
przestrzeni1 zdarze elementarnych i b;dziemy oznaczaK symbolem E . Natomiast jej
elementy, poszczególne zdarzenia — symbolem ei . Przestrze, zdarze, elementarnych mo7e
zawieraK sko,czon9 liczb; elementów, np. przy rzucie kostk9 — E = {1, 2,3, 4,5, 6} . Mo7e byK
równie7 zbiorem niesko,czonym przeliczalnym, np. rzut monet9 do pierwszego pojawienia si;
or4a — E = {O,RO, RRO, RRRO,…} jak i nieprzeliczalnym — np. trafienie strza4em do tarczy
traktowanej jako powierzchnia o nieprzeliczalnej liczbie punktów.
Ka7dy podzbiór przestrzeni zdarze, elementarnych nazywamy zdarzeniem (losowym). Przy
czym zdarzeniem pewnym nazywamy ca49 przestrze, — E , natomiast zdarzeniem
niemo,liwym — podzbiór pusty
zbioru E , tzn. podzbiór który niezawiera 7adnego
zdarzenia. Na przyk4ad przy rzucie kostk9 oprócz zdarze, E i
, mamy 6 podzbiorów
jednoelementowych, 15 dwuelementowych, 20 trzyelementowych, 15 czteroelementowych
i 6 pi;cioelementowych.
Z matematycznego punktu widzenia zdarzenia s9 zbiorami (podzbiorami), dlatego te7
mo7na wykonywaK wszystkie dzia4ania mnogo:ciowe, które prowadz9 do tworzenia nowych
zdarze,. St9d te7 mamy, dla co najmniej dwu zdarze, A oraz B (np. A = {e2 , e4 , e6 } — parzysta
liczba oczek, B = {e4 , e5 , e6 } — liczba oczek wi;ksza ni7 3), odpowiednie operacje:
1. Suma (alternatyw+) zdarze — A
B = {e2 , e4 , e5 , e6 } ,
2. Iloczyn (koniunkcj+) zdarze — A B = {e4 , e6 } . Je7eli iloczyn jest zbiorem pustym
— , wtedy mówimy o zdarzeniach wykluczaj1cych si+ (wy49czaj9cych si;),
3. Ró8nica zdarze — A B = {e2 } ,
4. Negacja zdarze — A = {e1 , e3 , e5 } oznacza zdarzenie przeciwne do zdarzenia A ,
czyli A = E A .
5. Implikacja zdarze — je7eli jedno zdarzenie poci9ga za sob9 zaj:cie innego
zdarzenia; np. zdarzenie: C = „wypad*a jedynka” poci9ga za sob9 np. zdarzenie:
D = „wypad*a nieparzysta liczba oczek”, czyli C D .
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
10
1.1. Klasyczna definicja prawdopodobie1stwa (Laplace'a)
Je7eli wszystkie zdarzenia elementarne s9 jednakowo mo,liwe, to prawdopodobie,stwo
zaj:cia zdarzenia A jest ilorazem liczby zdarze elementarnych sprzyjaj9cych zaj:ciu A do
k
liczby mo,liwych zdarze , tzn. P ( A ) = .
n
Przyk*ad:
Zdarzenie A = {e3 , e4 , e5 , e6 } w rzucie kostk9, wtedy k = 4, n = 6 , czyli P ( A ) = 2 .
3
Przyk*ad:
Niech zdarzenie A oznacza trafienie „szóstki” w du7ego lotka. Liczba elementów
przestrzeni E jest równa:
Cnk =
n!
49
k
=
=
= 13 983 816 ,
n
k ! ( n k )! 6! ( 49 6 )!
czyli P ( A ) =
1
13983816
0,0000000715 .
Mo7emy wyznaczyK prawdopodobie,stwa wylosowania:
„trójki”:
6
3
= 0,0176504 ,
49
6
6
4
„czwórki”:
„pi1tki”:
43
3
43
2
49
6
6
5
43
1
49
6
= 0,0009686 ,
= 0,00001845 .
Prawdopodobie,stwo jakiejkolwiek wygranej w totolotka jest równe sumie
prawdopodobie,stw poszczególnych wygranych (suma zdarze roz*1cznych), tzn. jest ono
równe: 0, 0186375215 0,019 . Oznacza to, 7e na 1000 zak4adów (gier) mamy szans; wygrania
w 19 zak4adach, natomiast przegrania (zdarzenie przeciwne) w 981 grach.
0,0176504
razy wi;ksz9 ni7 wytypowaK
0,0009686
0,0009686
razy wi;ksze ni7 „pi1tki”.
„czwórk+”, natomiast trafienie „czwórki” jest 52,50 =
0,00001845
Dalej, 7e trafiK „trójk+” mamy szans; 18, 22 =
Jaka bywa praktyka — np. w zak4adach z 27.10.2007 r. mieli:my:
(6)
1, ( 5 )
228, ( 4 )
13662, ( 3)
244684 ,
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
11
244684
razy wi;ksza ni7 wytypowanie
13662
13662
„czwórki”, natomiast trafienie „czwórki” jest 59,92 =
razy wi;ksze ni7 „pi1tki”.
228
Widoczna jest znacz9ca zgodno:K teorii z praktyk9.
Mamy tutaj, 7e szansa trafienia „trójki” jest 17,91 =
1.2. Aksjomatyczna definicja prawdopodobie1stwa (Ko mogorowa)
Prawdopodobie stwo zdarzenia A jest to funkcja okre:lona na zbiorze zdarze
elementarnych E o okre:lonych mo7liwo:ciach tworzenia sum zdarze,, iloczynów, ró7nic,
zdarze, przeciwnych, pewnych i niemo7liwych, spe4niaj9ca uk4ad trzech aksjomatów:
1. Dla ka7dego A mamy P ( A ) 0 ,
2. P ( E ) = 1 ,
3. P ( A1
Ai
A2
Aj =
…) = P ( A1 ) + P ( A2 ) + …
dla i
dla
zdarze,
parami
roz49cznych
—
j.
Z powy7szych aksjomatów wynikaj9 wnioski:
1. Dla ka7dego A prawdziwe jest równo:K
( )
P A = 1 P ( A) ,
2. Prawdopodobie,stwo zdarzenia niemo7liwego jest równe zero, tzn. P (
czyli P ( E ) = 1 ,
3. Dla ka7dego zdarzenia A
)=0,
E prawdziwa jest relacja:
0 P ( A) 1 .
1.3. Zasadnicze twierdzenia
Je7eli zdarzenia A i B s9 zale,ne (losowanie bez zwracania), wtedy mamy
prawdopodobie stwo warunkowe:
P ( A B) =
P( A
B)
P(B)
, je:li P ( B ) > 0 .
Je:li natomiast spe4niona jest równo:K:
P ( A B ) = P ( A ) lub P ( B A ) = P ( B ) ,
to zdarzenia A i B s9 niezale,ne (losowanie ze zwracaniem).
Prawdopodobie stwo iloczynu dwóch zdarze :
P( A
B ) = P ( A ) P ( B A) = P ( B ) P ( A B ) ,
co mo7na uogólniK na dowoln9 liczb; zdarze,, np. dla trzech:
P( A
B
C ) = P ( A) P ( B A) P ( C A
Je7eli zdarzenia A i B s9 niezale,ne, wtedy:
P( A
Z. Lauda ski, D. R. Ma kowski
B ) = P ( A) P ( B ) .
B) .
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
12
Przyk*ad:
W urnie znajduje si; 5 bia4ych, 4 czarne i 3 zielone kule. Losujemy bez zwracania trzy kule.
Jakie jest prawdopodobie,stwo wylosowania kul: A — bia4ej, B — czarnej oraz C — kuli
zielonej?
P( A
B
C ) = P ( A) P ( B A) P ( C A
=
B) =
5 4 3
1
+ + = .
12 11 10 22
Prawdopodobie stwo sumy zdarze :
P( A
B ) = P ( A) + P ( B ) P ( A
B) .
Je7eli dwa zdarzenia A i B s9 roz49czne (wykluczaj1ce si+), wtedy:
P( A
B ) = P ( A) + P ( B ) .
1.4. Prawdopodobie1stwo ca:kowite, wzór Bayesa
Za4ó7my, 7e interesuj9ce nas zdarzenie A mo7e zaj:K, je:li zajdzie jedno z wykluczaj9cych
si; zdarze,: B1 , B2 ,…, Bn , tworz9cych uk4ad zdarze, wy*1czaj1cych si+, a ich suma
prawdopodobie,stw wynosi 1 — czyli jest zdarzeniem pewnym (jakiekolwiek Bi zawsze
zajdzie), wtedy prawdopodobie stwo ca*kowite zaj:cia zdarzenia A :
P ( A) =
n
i =1
P ( Bi ) P ( A Bi ) .
Za4ó7my dalej, 7e przeprowadzono do:wiadczenie, w wyniku którego zasz4o zdarzenie A ,
które mo7e zaj:K tylko wówczas, gdy zajdzie jedno ze zdarze, Bi — dla i = 1, 2,… , n .
Poniewa7 nie wiemy, które z tych zdarze, Bi zajdzie, wi;c zdarzenia te nazywamy hipotezami,
ich prawdopodobie,stwa realizacji P ( Bi ) — prawdopodobie,stwami a’priori, natomiast
P ( Bi A ) — prawdopodobie,stwami hipotezy a’posteriori, które to prawdopodobie,stwa
wyznaczymy korzystaj9c z formu4y Bayesa:
P ( Bi A ) =
P ( Bi ) P ( A Bi )
gdzie oczywi:cie P ( A ) =
P ( A)
n
i =1
,
P ( Bi ) P ( A Bi ) .
Przyk*ad:
Nasiona w sklepie pochodz9 od trzech producentów odpowiednio: 10%, 50% i 40%. Na
podstawie obserwacji stwierdzono, 7e niekie4kuj9ce nasiona od pierwszego stanowi9 2%, od
drugiego — 10%, za: od trzeciego — 4%. Wysiane nasionko nie wykie4kowa4o — od którego
producenta najprawdopodobniej ono pochodzi?
PrzeprowadSmy cykl oblicze, dla uzyskania odpowiedzi.
Prawdopodobie,stwo (ca*kowite) tego, 7e wysiane nasionko nie wykie4kuje jest równe:
P ( A ) = 0,1 0,02 + 0,5 0,1 + 0, 4 0,04 = 0,068 ,
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
13
natomiast szanse realizacji poszczególnych trzech hipotez a’posteriori wynosz9 odpowiednio:
( H1 ) : P ( B1 A) =
( H 2 ) : P ( B2
0,1 0,02
= 0,0294 ,
0,068
A) =
( H 3 ) : P ( B3 A) =
0,5 0,1
= 0,7353 ,
0,068
0, 4 0,04
= 0, 2353 .
0,068
Nietrudno zauwa7yK, 7e szanse te s9 zró7nicowane. Ró7nice te wynikaj9 oczywi:cie ze
zró7nicowania poszczególnych udzia4ów oraz zdolno:ci kie4kowania nasion pochodz9cych od
poszczególnych producentów.
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
14
2. ZMIENNE LOSOWE I ICH ROZK
ADY TEORETYCZNE
Przez zmienn1 losow1 mo7na intuicyjnie rozumieK zmienn9, która w wyniku do%wiadczenia
losowego mo7e przyj9K warto:K z pewnego zbioru liczb rzeczywistych z okre:lonym
prawdopodobie,stwem. Na przyk4ad:
1) liczba przedmiotów wyprodukowanych na danym stanowisku w ci9gu jednej
zmiany,
2) wyniki pomiarów,
3) ilo:K energii zu7ywanej dziennie w mieszkaniu,
4) warto:K cech jednostek statystycznych wylosowanych z populacji generalnej
(próba).
Przestrze, zdarze, elementarnych E mo7e byK zatem zbiorem o ró7nych elementach (np.
orze4 i reszka, :cianki kostki sze:ciennej, plony konkretnej ro:liny uprawnej, itp.) i ka7dy taki
zbór E mo7na odwzorowaK na podzbiór liczb rzeczywistych R – (np. odpowiednio: {0, 1},
{1, 2, 3, 4, 5, 6}, {plony od 0 do 150 dt/ha}).
Przyk*ad:
Rzucamy trzema monetami (orze4 — 1, reszka — 0). Ka7demu zdarzeniu elementarnemu —
{(OOO), (OOR), (ORO), (ROO), (RRO), (ROR), (ORR), (RRR)} przyporz9dkowujemy sum;
liczb, wskazuj9c9 na liczb; wyrzuconych or4ów. Mianowicie odpowiednio: {3, 2, 2, 2, 1, 1, 1, 0}.
W przypadku rzutu kostk9 do gry, mamy zbiorowi sze:ciu :cianek kostki przyporz9dkowany
zbiór warto:ci: {1, 2, 3, 4, 5, 6} — liczba oczek.
Mo7na powiedzieK, 7e zmienn1 losow1 X nazywamy ka7d9 funkcj; mierzaln9 okre:lon9 na
przestrzeni zdarze, elementarnych E i przybieraj9c9 warto:K ze zbioru liczb rzeczywistych
(odwzorowanie X : E R ).
Zmienne losowe oznaczamy zazwyczaj du7ymi literami: X , Y , Z ,… , natomiast warto:ci
przybierane przez te zmienne (tzw. realizacje zmiennych), ma4ymi: x, y , z,… Wzajemne
przyporz9dkowanie warto:ci zmiennych losowych i zdarze, jest jednoznaczne. Oznacza to, 7e
ka7de zdarzenie mo7e byK scharakteryzowane tylko jedn9 z mo7liwych warto:ci zmiennej
losowej. Liczby rzeczywiste x ! R b;d9ce realizacjami zmiennej losowej X , mog9 tworzyK
sko czony lub niesko czony podzbiór zbioru liczb rzeczywistych.
a) Zmienn1 losow1, której zbiór ró7nych warto:ci jest przeliczalny albo sko,czony,
nazywamy zmienn9 losow1 skokow1 lub dyskretn1. Takimi zmiennymi losowymi s9
np. liczba dzieci w rodzinie, liczba nasion w k4osie czy liczba jaj zniesionych przez
kur; w okresie roku.
b) Zmienn1 losow1, której zbiór mo7liwych realizacji jest niesko,czony
i nieprzeliczalny nazywamy zmienna losow1 ci1g*1. Takimi zmiennymi typu
ci9g4ego jest np. wzrost, waga, wiek poszczególnych osób czy plon z hektara
konkretnej odmiany zbo7a.
2.1. Zmienne losowe typu skokowego
Z definicji zmiennej losowej wynika, 7e dowolne zbiory jej warto:ci s9 zdarzeniami
losowymi, którym odpowiadaj9 okre:lone prawdopodobie,stwa. Funkcj; przyporz9dkowuj9c9
realizacjom zmiennej losowej X odpowiadaj9ce im prawdopodobie,stwa nazywamy funkcj1
rozk*adu prawdopodobie stwa tej zmiennej lub krócej: rozk adem prawdopodobie5stwa.
Zapisujemy to nast;puj9co:
P ( x = xi ) = pi , gdzie
n
i =1
pi = 1 oraz pi
0 , i = 1, 2,3,…
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
15
Liczby xi nazywamy punktami skokowymi zmiennej losowej X , a prawdopodobie,stwa
pi — skokami tej zmiennej. Rozk4ad takiej zmiennej mo7na definiowaK za pomoc9 wzoru,
tabeli lub wykresu. Na przyk4ad zmienna losowa oznaczaj9ca liczb; or4ów uzyskanych w trzech
rzutach monet9:
warto:ci ( xi ) zmiennej X
0
1
2
3
prawdopodobie,stwa ( pi )
1
8
3
8
3
8
1
8
Rozk4ad ten mo7na przedstawiK graficznie:
pi
3
8
1
8
0
1
3
2
xi
Rozk4ad prawdopodobie,stwa wyra7ony analitycznie (za pomoc9 wzoru), podaj9cy
prawdopodobie,stwa tego, 7e orze4 pojawi si; po raz pierwszy w k-tym rzucie monet9
( k = 1, 2,… ), tzn. E = {O,RO, RRO, RRRO,…} jest nast;puj9cy:
P( X = k ) =
1
,
2k
1
1
2 = 1 , jako suma wyrazów post;pu
=
k
1
2
1
k =1
2
niesko,czonego o ilorazie równym 1 i pierwszym wyrazie równym 1 .
2
2
gdzie
oczywi:cie
n
geometrycznego
Wa7nym poj;ciem zwi9zanym ze zmienn1 losow1 i jej rozk*adem jest poj;cie funkcji
dystrybuanty. Dystrybuant1 zmiennej losowej X nazywamy funkcj; F ( x ) zmiennej
rzeczywistej x , okre:lon9 wzorem:
F ( x) = P ( X
x ) dla ka7dego x ! R .
Dla zmiennej losowej skokowej — dystrybuanta okre:lona jest wzorem:
F ( x) = P( X
Z. Lauda ski, D. R. Ma kowski
x) =
xi x
pi dla i = 0,1,2,…
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
16
Dystrybuanta zmiennej losowej oznaczaj9cej liczb; or4ów w trzech rzutach monet9 jest
postaci:
F ( x)
1
7
8
4
8
1
8
0
1
3
2
#0
%1
%
%% 84
F (x ) = $
%8
%7
%8
%& 1
d la
x
x < 0
d la 0
x <1
d la 1
x < 2
d la 2
x < 3
d la
4
x
3
Znaj9c rozk4ad, zawsze mo7na znaleSK dystrybuant;, i odwrotnie. Dystrybuanta zmiennej
losowej ma nast;puj9ce w4asno:ci:
1. Jest niemalej9ca, tzn. dla x1 < x2 zawsze F ( x1 ) F ( x2 ) oraz prawostronnie ci9g4a.
2. Jest ograniczona: 0 F ( x ) 1 , przy czym F ( ' ) = 0 i F ( +' ) = 1 .
3. Jest przedzia4ami sta4a oraz mo7e mieK sko,czon9 lub przeliczaln9 liczb; punktów
nieci9g4o:ci (skoków), przy czym mamy: P ( a < X b ) = F ( b ) F ( a ) .
Najwi;ksze praktyczne znaczenie maj9 parametry zmiennej losowej charakteryzuj9ce jej
po4o7enie i rozrzut warto:ci. S9 to odpowiednio: warto%- %rednia (oczekiwana, przeci+tna) oraz
wariancja i odchylenie standardowe.
Warto%ci1 oczekiwan1 zmiennej losowej X typu skokowego nazywamy liczb; okre:lon9
wzorem:
E(X ) =
n
x
i =1 i
pi .
W4asno:ci warto:ci oczekiwanej:
1) warto:K oczekiwana sta4ej jest równa tej sta4ej, tzn.
E (C ) = C ,
2) warto:K
oczekiwana
sumy
zmiennych
losowych
jest
równa:
E ( X + Y ) = E ( X ) + E (Y ) — sumie warto:ci oczekiwanych, co mo7na uogólniK na
wiele zmiennych.
3) warto:K
oczekiwana
iloczynu
dwóch
zmiennych
jest
równa:
E ( X Y ) = E ( X ) E (Y ) — iloczynowi warto:ci oczekiwanych. Oczywi:cie, sta4y
mno7nik mo7na wynosiK przed warto:K :redni9, tzn. E ( C X ) = C E ( X ) .
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
17
Wariancj1 zmiennej losowej X typu skokowego nazywamy liczb;:
D2 ( X ) =
2
E ( X ) +) pi = E *( X
n
(x
i =1 * i
( )
= E X2
E ( X ) +) =
2
(* E ( X ) +) .
2
Wariancja jest wi;c warto%ci1 oczekiwan1 kwadratu odchyle, warto:ci zmiennej od jej
warto:ci oczekiwanej. Ma ona nast;puj9ce w4asno:ci:
1) wariancja sta4ej jest równa zeru, tzn. D 2 ( C ) = 0 ,
2) wariancja iloczynu sta4ej i zmiennej losowej jest równa:
D2 (C X ) = C 2 D2 ( X ) ,
3) wariancja sumy (ró7nicy) dwóch zmiennych niezale7nych jest równa sumie ich
wariancji, tzn.
D 2 ( X ± Y ) = D 2 ( X ) + D 2 (Y ) .
Pierwiastek kwadratowy z wariancji nosi nazw; odchylenia standardowego, czyli:
D ( X ) = D2 ( X ) .
2.1.1. Przyk:adowe rozk:ady zm. losowych typu skokowego
Warto:ciom
zmiennych
losowych
mo7na
na
niesko,czenie
przyporz9dkowywaK prawdopodobie,stwa spe4niaj9ce warunki:
n
i =1
wiele
sposobów
pi = 1 (lub
'
i =1
pi = 1 )
oraz pi 0 . Oznacza to, 7e istnieje wiele rozk4adów zmiennych losowych skokowych,
jednak7e niektóre z nich pojawiaj9 si; cz;sto w praktycznych zastosowaniach. Do nich nale79
rozk4ady:
1. Dwupunktowy — powsta4y w wyniku podzia4u zbioru zdarze, elementarnych na
dwie cz;:ci: zdarzenie A (sukces) i zdarzenie przeciwne A (niepowodzenie),
a nast;pnie przyporz9dkowanie tym zdarzeniom liczb rzeczywistych: A x1 ,
A x2 . Najcz;:ciej rozwa7amy zmienn9 losow9 gdy: x1 = 0 , x2 = 1 (rozk4ad
zerojedynkowy). Przyjmuj9c oznaczenia: p1 = q i p2 = 1 q = p . Zatem funkcja
rozk4adu jest postaci: P ( X = x ) = p x q1
wynosi E ( X ) = p , a wariancja D
2
x
dla x = 0 lub x = 1 i warto:K oczekiwana
( X ) = pq .
2. Dwumianowy (Bernoulliego) — wyra7a liczb; sukcesów w serii n niezale7nych
do:wiadcze,. Jest wi;c w gruncie rzeczy sum9 n niezale7nych zmiennych losowych
zerojedynkowych. Funkcja rozk4adu prawdopodobie,stwa jest tutaj postaci:
n
P ( X = k ; n; p ) =
p k q n k , dla k ! {0,1, 2,…, n} ,
k
czyli: E ( X ) = np , D 2 ( X ) = npq i D ( X ) = npq .
Na przyk4ad wyrzucenie dwu or4ów w rzucie trzema monetami jest równe:
3
P ( X = 2;3;0,5 ) =
0,52 0,53 2 = 3 0,25 0,5 = 0,375 .
2
Parametry rozk4adu zmiennej obrazuj9cej rzut trzema monetami: E ( X ) = 1,5 ;
D 2 ( X ) = 0,75 ; D ( X ) = 0, 75 .
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
18
3. Poissona (rozk*ad rzadkich zdarze ) — jest granicznym rozk4adem niezale7nych
serii do:wiadcze,, w których wraz ze wzrostem n maleje do zera
prawdopodobie,stwo p pojedynczego sukcesu, w ten sposób, 7e np - , gdzie — ustalona liczba dodatnia. Funkcja rozk4adu jest postaci:
P- ( k ) =
-k
-
,
k!
st9d te7 mamy, 7e: E ( X ) = - , D 2 ( X ) = - , D ( X ) = - .
e
Przyk*ad:
W jednej z uczelni wylosowano 90 studentów oraz dokonano rejestracji ich nieobecno:ci na
obowi9zkowych zaj;ciach w wybranym semestrze. Otrzymano wyniki:
liczba dni nieobecno:ci
liczba studentów
0
12
1
20
2
27
3
18
4
7
5
3
6
2
7
1
Zak4adaj9c, 7e rozk4ad liczby nieobecno:ci na zaj;ciach jest rozk4adem Poissona,
wyznaczyK prawdopodobie,stwo, 7e student b;dzie nieobecny mniej ni7 dwa razy oraz
trzykrotnie. Mamy tutaj:
- = E(X ) = 0
12
20
27
+1
+2
+
90
90
90
+7
1
= 2,1 .
90
Mo7na wi;c wyznaczyK poszczególne prawdopodobie,stwa:
P ( X = 3) =
2,13
e
3!
2,1
= 0,189 ,
P ( X < 2 ) = P ( X = 1) + P ( X = 2 ) =
=
2,10
e
0!
2,1
+
2,11
e
1!
2,1
= 0,1225 + 0, 2575 = 0,38.
2.2. Zmienne losowe typu ci@g:ego
Dla zmiennej losowej ci1g*ej niemo7liwe jest przypisanie jej warto:ciom dodatnich
prawdopodobie,stw sumuj9cych si; do jedno:ci. Mo7liwe jest jednak przyporz9dkowanie
takich prawdopodobie,stw przedzia4om, np. P ( x < X < x + .x ) , gdzie .x jest d4ugo:ci9
pewnego krótkiego przedzia4u o pocz9tku w punkcie x. Je7eli przy .x 0 istnieje granica
f ( x ) postaci:
lim
.x
P ( x < X < x + .x )
.x
0
= f ( x) ,
to granic; t; nazywamy funkcj1 g+sto%ci prawdopodobie stwa zmiennej losowej X , lub
krótko: g+sto%ci1 prawdopodobie stwa.
Prawdopodobie,stwo tego, 7e zmienna losowa ci9g4a przyjmuje warto:K z przedzia4u
liczbowego [a, b] jest ca4k9 z funkcji g;sto:ci prawdopodobie,stwa, tzn.
P(a
b
X
b ) = P ( a < X < b ) = / f ( x ) dx ,
a
gdy7 P ( a
X
a ) = P (b
X
b) = 1 .
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
19
Tak wi;c ka7da funkcja spe4niaj9ca warunki na przedziale [ a, b ] :
1. f ( x ) 0 ,
b
2.
/
+'
f ( x ) dx = 1 lub
/ f ( x ) dx = 1 , mo7e byK funkcj1 g+sto%ci prawdopodobie
'
a
Dystrybuanta
F ( x) = P ( X
stwa.
x) =
zmiennej
x
/
'
losowej
ci9g4ej
nazywamy
funkcj;
postaci:
dF ( x )
f ( u ) du , st9d funkcja g;sto:ci jest równa: f ( x ) = F 2 ( x ) =
o ile
dx
X
F ( x ) jest funkcj9 ró7niczkowaln9.
2.2.1. Przyk:adowe rozk:ady zmiennych losowych typu ci@g:ego
1. Rozk*ad równomierny — zmienna losowa X ma rozk*ad równomierny, je:li jej
funkcja g;sto:ci jest dana wzorem:
f ( x)
1
b a
a
a +b
2
b
x
# 1
%
dla x ! [ a, b ] ,
f ( x) = $b a
dla x 3 [ a, b ]
%&0
Powy7szy wykres przedstawia funkcj; rozk4adu równomiernego (prostok9tnego).
PostaK funkcji dystrybuanty powy7szej zmiennej losowej jest nast;puj9ca:
F ( x) =
x
/
'
x
f ( u ) du = /
a
1
b a
x
du =
u )
x a
1
a
x
.
=
=
4
b a +a b a b a
b a
Jest to wi;c funkcja liniowa na przedziale [ a, b ] o równaniu jak wy7ej, natomiast
dla pozosta4ych x jest funkcj9 sta49: dla x < a mamy f ( x ) = 0 , za: dla x b mamy
f ( x) = 1.
Tak wi;c dystrybuanta tej zmiennej losowej jest postaci:
# 0
%x a
%
F ( x) = $
%b a
%& 1
Z. Lauda ski, D. R. Ma kowski
dla x a
dla x ! [ a, b ]
dla x b
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
20
Wykres funkcji dystrybuanty dla a = 1 i b = 4 przedstawia poni7szy rysunek
Zmienna ta przyjmuje wi;c warto:ci z przedzia4u [a, b] z jednakowymi szansami.
Jej parametry s9 równe:
b
x2 )
b2 a 2
a+b
E ( X ) = / x f ( x ) dx = /
dx =
=
,
4 =
2 ( b a ) 4+ a 2 ( b a )
2
a
a
a b
b
b
b
D 2 ( X ) = / (* x E ( X ) )+
2
a
x
b
a +b)
2 4+
(
f ( x ) dx = / 5 x
a*
D ( X ) = D2 ( X ) =
(b
a)
12
2
=
2
1
b a
dx =
(b
a)
2
12
,
b a
.
2 3
2. Rozk*ad normalny (Gaussa–Laplace'a) — jest podstawowym rozk4adem zmiennej
losowej ci9g4ej o funkcji g;sto:ci danej wzorem: f ( x ) =
m = E(X ),
= D( X ) .
Fakt ten najcz;:ciej zapisujemy: X ~ N ( m,
2
).
1
e
26
(x
2
m)
2
2
, gdzie:
Krzywa normalna jest krzyw9
symetryczn9 wzgl;dem prostej x = m , posiada maksimum w punkcie x = m , które
1
jest równe
. Punkt ten jest nie tylko warto:ci9 oczekiwan9, ale tak7e
26
median9 i modaln9 (dominant9) rozk4adu. Krzywa ta ma dwa punkty przegi;cia
oraz x = m + . Dystrybuanta rozk4adu jest okre:lona
w punktach: x = m
wzorem: F ( x ) =
1
26
x
/ exp
'
(t
2
m)
2
2
dt dla x ! R .
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
21
Lewe i prawe rami; krzywej zbli7aj9 si; asymptotycznie do osi odci;tych (x), przy
czym poza przedzia4em „trzysigmowym” rz;dne niewiele ró7ni9 si; od zera. Mamy
odpowiednio:
P(m
X
m+
) = 0,6827 ,
P(m 2
X
m+2
) = 0,9545 ,
P(m 3
X
m+3
) = 0,9973
Ostatnia relacja okre:la tzw. prawo trzech sigm — prawie wszystkie elementy
populacji mieszcz9 si; w przedziale trzysigmowym.
2.2.2. Standaryzacja rozk:adu normalnego
Dla unikni;cia 7mudnych rachunków przy wyliczaniu warto:ci g;sto:ci i dystrybuanty
X m
zmiennej losowej X ~ N ( m, 2 ) stosuje si; przekszta4cenie zwane standaryzacj1: Z =
.
W ten sposób funkcja g;sto:ci rozk4adu normalnego standaryzowanego — Z ~ N ( 0;1) , jest
1
e
postaci: g ( z ) =
26
z2
2
.
Wykres g;sto:ci rozk4adu normalnego standaryzowanego
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
22
Warto:ci funkcji g;sto:ci i dystrybuanty rozk4adu Z ~ N ( 0;1) s9 tablicowane. Natomiast
dla obliczania dowolnego prawdopodobie,stwa mo7na wykorzystywaK równo:K:
P(a
X
b) = P
a m
X
m
b m
=P
a m
Z
b m
.
Przyk*ad:
ObliczyK prawdopodobie stwo, 7e wzrost przypadkowego m;7czyzny b;dzie zawarty
mi;dzy 190 a 200 cm, skoro wiadomo, 7e populacja m;7czyzn ma rozk4ad X ~ N (172;36 ) .
P (190
X
200 ) = P
190 172
6
= P (3 Z
Rozk4ad
X ~ N ( m;
2
),
standaryzowany Z ~ N ( 0;1) ,
f.
g.
4,67 ) = 0,0013
1
e
26
f ( x) =
p.:
200 172
=
6
Z
1
f. g. p.: g ( z ) =
e
26
z2
2
(x
2
m)
2
2
Z=
X
m
rozk*ad
.
Funkcja g sto ci prawdopodobie stwa
y=normal(x;0;1)
0,60
0,45
0,30
0,15
0,00
-3,50
-1,75
0,00
P{ X
Funkcja dystrybuanty — F ( z ) =
1
26
1,75
3,50
1,75} = 0,959941
z
/e
1 2
t
2
dt
'
Dystrybuanta
p=inormal(x;0;1)
1,0
0,8
0,6
0,4
0,2
0,0
-3,50
-1,75
F (1, 75 ) = P ( X
0,00
1,75
3,50
1,75 ) = 0,959941
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
Dystrybuanta rozk4adu N(0; 1) — F ( z ) =
1
26
z
/e
1 2
t
2
23
dt
'
z
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,0
0,50000
0,50399
0,50798
0,51197
0,51595
0,51994
0,52392
0,52790
0,53188
0,53586
0,1
0,53983
0,54380
0,54776
0,55172
0,55567
0,55962
0,56356
0,56749
0,57142
0,57535
0,2
0,57926
0,58317
0,58706
0,59095
0,59483
0,59871
0,60257
0,60642
0,61026
0,61409
0,3
0,61791
0,62172
0,62552
0,62930
0,63307
0,63683
0,64058
0,64431
0,64803
0,65173
0,4
0,65542
0,65910
0,66276
0,66640
0,67003
0,67364
0,67724
0,68082
0,68439
0,68793
0,5
0,69146
0,69497
0,69847
0,70194
0,70540
0,70884
0,71226
0,71566
0,71904
0,72240
0,6
0,72575
0,72907
0,73237
0,73565
0,73891
0,74215
0,74537
0,74857
0,75175
0,75490
0,7
0,75804
0,76115
0,76424
0,76730
0,77035
0,77337
0,77637
0,77935
0,78230
0,78524
0,8
0,78814
0,79103
0,79389
0,79673
0,79955
0,80234
0,80511
0,80785
0,81057
0,81327
0,9
0,81594
0,81859
0,82121
0,82381
0,82639
0,82894
0,83147
0,83398
0,83646
0,83891
1,0
0,84134
0,84375
0,84614
0,84849
0,85083
0,85314
0,85543
0,85769
0,85993
0,86214
1,1
0,86433
0,86650
0,86864
0,87076
0,87286
0,87493
0,87698
0,87900
0,88100
0,88298
…
…
…
…
…
…
…
…
…
…
…
1,9
0,97128
0,97193
0,97257
0,97320
0,97381
0,97441
0,97500
0,97558
0,97615
0,97670
2,0
0,97725
0,97778
0,97831
0,97882
0,97932
0,97982
0,98030
0,98077
0,98124
0,98169
2,1
0,98214
0,98257
0,98300
0,98341
0,98382
0,98422
0,98461
0,98500
0,98537
0,98574
2,2
0,98610
0,98645
0,98679
0,98713
0,98745
0,98778
0,98809
0,98840
0,98870
0,98899
…
…
…
…
…
…
…
…
…
…
…
2,9
0,99813
0,99819
0,99825
0,99831
0,99836
0,99841
0,99846
0,99851
0,99856
0,99861
3,0
0,99865
0,99869
0,99874
0,99878
0,99882
0,99886
0,99889
0,99893
0,99896
0,99900
3,1
0,99903
0,99906
0,99910
0,99913
0,99916
0,99918
0,99921
0,99924
0,99926
0,99929
3,2
0,99931
0,99934
0,99936
0,99938
0,99940
0,99942
0,99944
0,99946
0,99948
0,99950
3,3
0,99952
0,99953
0,99955
0,99957
0,99958
0,99960
0,99961
0,99962
0,99964
0,99965
3,4
0,99966
0,99968
0,99969
0,99970
0,99971
0,99972
0,99973
0,99974
0,99975
0,99976
3,5
0,99977
0,99978
0,99978
0,99979
0,99980
0,99981
0,99981
0,99982
0,99983
0,99983
3,6
0,99984
0,99985
0,99985
0,99986
0,99986
0,99987
0,99987
0,99988
0,99988
0,99989
3,7
0,99989
0,99990
0,99990
0,99990
0,99991
0,99991
0,99992
0,99992
0,99992
0,99992
3,8
0,99993
0,99993
0,99993
0,99994
0,99994
0,99994
0,99994
0,99995
0,99995
0,99995
3,9
0,99995
0,99995
0,99996
0,99996
0,99996
0,99996
0,99996
0,99996
0,99997
0,99997
Je7eli z jest liczb9 ujemn9, to F ( z ) = 1 F ( z )
F ( z) = P(Z
z)
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
24
Dystrybuanta rozk4adu N(0; 1) — 7 ( z ) =
1
26
z
/e
1 2
t
2
dt
z
z
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,1
0,0
0,00798
0,01596
0,02393
0,03191
0,03988
0,04784
0,05581
0,06376
0,07171
0,07966
0,1
0,08759
0,09552
0,10343
0,11134
0,11924
0,12712
0,13499
0,14285
0,15069
0,15852
0,2
0,16633
0,17413
0,18191
0,18967
0,19741
0,20514
0,21284
0,22052
0,22818
0,23582
0,3
0,24344
0,25103
0,25860
0,26614
0,27366
0,28115
0,28862
0,29605
0,30346
0,31084
0,4
0,31819
0,32551
0,33280
0,34006
0,34729
0,35448
0,36164
0,36877
0,37587
0,38292
0,5
0,38995
0,39694
0,40389
0,41080
0,41768
0,42452
0,43132
0,43809
0,44481
0,45149
0,6
0,45814
0,46474
0,47131
0,47783
0,48431
0,49075
0,49714
0,50350
0,50981
0,51607
0,7
0,52230
0,52848
0,53461
0,54070
0,54675
0,55275
0,55870
0,56461
0,57047
0,57629
0,8
0,58206
0,58778
0,59346
0,59909
0,60468
0,61021
0,61570
0,62114
0,62653
0,63188
0,9
0,63718
0,64243
0,64763
0,65278
0,65789
0,66294
0,66795
0,67291
0,67783
0,68269
1,0
0,68750
0,69227
0,69699
0,70166
0,70628
0,71086
0,71538
0,71986
0,72429
0,72867
1,1
0,73300
0,73729
0,74152
0,74571
0,74986
0,75395
0,75800
0,76200
0,76595
0,76986
…
…
…
…
…
…
…
…
…
…
…
1,9
0,94387
0,94514
0,94639
0,94762
0,94882
0,95000
0,95116
0,95230
0,95341
0,95450
2,0
0,95557
0,95662
0,95764
0,95865
0,95964
0,96060
0,96155
0,96247
0,96338
0,96427
2,1
0,96514
0,96599
0,96683
0,96765
0,96844
0,96923
0,96999
0,97074
0,97148
0,97219
2,2
0,97289
0,97358
0,97425
0,97491
0,97555
0,97618
0,97679
0,97739
0,97798
0,97855
…
…
…
…
…
…
…
…
…
…
…
2,9
0,99639
0,99650
0,99661
0,99672
0,99682
0,99692
0,99702
0,99712
0,99721
0,99730
3,0
0,99739
0,99747
0,99755
0,99763
0,99771
0,99779
0,99786
0,99793
0,99800
0,99806
3,1
0,99813
0,99819
0,99825
0,99831
0,99837
0,99842
0,99848
0,99853
0,99858
0,99863
3,2
0,99867
0,99872
0,99876
0,99880
0,99885
0,99889
0,99892
0,99896
0,99900
0,99903
3,3
0,99907
0,99910
0,99913
0,99916
0,99919
0,99922
0,99925
0,99928
0,99930
0,99933
3,4
0,99935
0,99937
0,99940
0,99942
0,99944
0,99946
0,99948
0,99950
0,99952
0,99953
3,5
0,99955
0,99957
0,99958
0,99960
0,99961
0,99963
0,99964
0,99966
0,99967
0,99968
3,6
0,99969
0,99971
0,99972
0,99973
0,99974
0,99975
0,99976
0,99977
0,99978
0,99978
3,7
0,99979
0,99980
0,99981
0,99982
0,99982
0,99983
0,99984
0,99984
0,99985
0,99986
3,8
0,99986
0,99987
0,99987
0,99988
0,99988
0,99989
0,99989
0,99990
0,99990
0,99990
3,9
0,99991
0,99991
0,99992
0,99992
0,99992
0,99993
0,99993
0,99993
0,99993
0,99994
7(z) = F (z)
(1
7(z) = P( z
Z
F ( z )) = 2 F ( z ) 1
z)
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
25
2.2.3. Rozk:ad empiryczny a rozk ad normalny
Wiele zjawisk w naszym otoczeniu zachowuje si; „normalnie”.
Plon pszenicy ozimej
80
60
40
20
Std. Dev = 11,78
Mean = 38,7
N = 574,00
0
7,5
17,5
12,5
27,5
22,5
37,5
32,5
47,5
42,5
57,5
52,5
67,5
62,5
77,5
72,5
87,5
82,5
Plon_z_pola_dt/ha
Rozk7ad empiryczny plonów buraka cukrowego a rozk7ad normalny
30
20
10
Std. Dev = 103,90
Mean = 393,7
N = 191,00
0
125,0
175,0
225,0
275,0
325,0
375,0
425,0
475,0
525,0
575,0
625,0
Plony buraka cukrowego z 1 ha
Wykresy „s4upkowe” (histogram) przedstawiaj9 rozk*ad empiryczny (warto:ci
obserwowane) badanej cechy (plon) na tle rozk4adu teoretycznego ( tutaj — normalnego).
Z. Lauda ski, D. R. Ma kowski
26
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
3. ESTYMACJA PUNKTOWA I PRZEDZIA OWA PARAMETRÓW POPULACJI
JEDNOWYMIAROWYCH, HIPOTEZY STATYSTYCZNE
Statystyka matematyczna zajmuje si; zasadami i metodami uogólniania wyników
otrzymanych z próby losowej na ca49 populacj+ (zbiorowo:K z której zosta4a pobrana). To
post;powanie nosi nazw; wnioskowania statystycznego (indukcyjnego) dla którego wyró7nia si;
dwa dzia4y:
1. estymacj+, czyli szacowanie warto:ci parametrów lub postaci rozk4adu zmiennej
losowej w populacji na podstawie rozk4adu empirycznego dla próby,
2. weryfikacj+ (testowanie) hipotez statystycznych, czyli sprawdzanie okre:lonych
przypuszcze, (za4o7e,) wysuni;tych w stosunku do parametrów lub rozk4adu
populacji generalnej na podstawie próby.
3.1. Statystyczna próba losowa
Wnioskowanie o populacji generalnej jest zasadne, gdy próba jest reprezentatywna, tzn. gdy
jej struktura ze wzgl;du na interesuj9ce nas cechy statystyczne jest zbli7ona do struktury
populacji. A jest reprezentacyjna, gdy:
1. elementy populacji s9 pobierane do próby w sposób losowy,
2. próba jest dostatecznie liczna.
Wyró7niamy ró7ne schematy losowania elementów populacji:
1. losowanie zale,ne (bez zwracania elementów populacji) i niezale,ne (ze
zwracaniem tych7e elementów),
2. losowanie indywidualne (losuje si; pojedyncze elementy) i zespo*owe (losowanie
grupy elementów),
3. losowanie jednostopniowe (losuje si; od razu element populacji) i wielostopniowe
(podzia4 populacji na grupy które dzielimy na podgrupy kolejnego stopnia
i losujemy kolejno grupy i podgrupy, by w ostatniej losowaK pojedyncze elementy),
4. losowanie ograniczone (warstwowe — z cz;:ci populacji) i nieograniczone (z ca4ej
populacji).
Losowanie indywidualne, nieograniczone i niezale,ne nazywamy losowaniem prostym,
a otrzyman9 prób; okre:lamy mianem próby losowej prostej.
We wszystkich dalszych rozwa7aniach u7ywaj9c s4owa: próba lub próba losowa b;dziemy
mieK na my:li prób+ losow1 prost1.
3.1.1. Parametry próby
Prób; n-elementow9 mo7na scharakteryzowaK pewnymi jej parametrami, zwanymi
statystykami. Statystyk1 z próby nazywamy zmienn9 losow9 b;d9c9 funkcj9 obserwowanych
w próbie zmiennych losowych. Je:li oznaczymy statystyk; przez 8, a obserwowane zmienne
losowe przez X 1 , X 2 ,…, X n , to mo7emy zapisaK jako funkcj; postaci: 8 = f ( X 1 , X 2 ,… , X n ) .
Niech x1 , x2 ,… , xn oznacza ci9g pomiarów, to warto%- %redni1 tych pomiarów liczymy
wed4ug wzoru:
x=
1
n
n
x
i =1 i
.
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
27
Zauwa7amy dla tak obliczanych warto:ci x w4asno:K pewnej regularno:ci statystycznej,
tzn. o ile poszczególne pomiary xi mog9 wykazywaK brak jakiejkolwiek regularno:ci
wzgl;dem siebie, to ich warto%ci %rednie dla du7ych n wykazuj9 uderzaj9c9 regularno:K.
Dok4adno:K tej oceny wyra7amy przez odchylenie standardowe, które okre:lane jest jako:
n
i =1
sx =
( xi
x)
2
.
n 1
Dla du7ych n warto:ci sx wykazuj9 regularno:K. Mo7na stwierdziK, 7e gdy liczba
n do:wiadcze, ro:nie, to zarówno warto%- x jak i sx d979 asymptotycznie do sta4ych
wielko:ci, które s9 niezale7ne od n.
(MNK) — Ka7dy pomiar xi , mo7emy zapisaK
xi = m +
i
, dla i=1, 2, …, n,
co mo7na traktowaK jako uk4ad n – równa, z (n+1) niewiadomymi.
Gauss na prze4omie XVIII i XIX wieku zaproponowa4 procedur; estymacji znanej jako
metoda najmniejszych kwadratów (MNK), polegaj9c9 na poszukiwaniu takiego rozwi9zania
niniejszego uk4adu równa, aby suma kwadratów odchyle, i by4a jak najmniejsza.
ZapisaK ten warunek mo7emy nast;puj9co:
n
2
i =1 i
co
oznacza,
n
i =1
( xi
mˆ )i
2
7e
n
i =1
istnieje
( xi
n
=
i =1
( xi
m )i = min! ,
2
warto:K
spe4niaj9ca
m̂
nierówno:K
postaci:
m )i , dla ka7dej innej warto:ci m .
2
Warunek ten praktycznie sprowadza si; do n+1 równania postaci
W ten sposób uzyskujemy rozwi9zania naszego uk4adu równa, xi = m +
mˆ = x =
1
n
n
x
i =1 i
, ˆ = xi
i
2
n
i =1
( xi
m) = 0 .
:
mˆ , dla i=1,...,n,
a :redni b49d pomiarów w próbie:
n
i =1
S x( p ) =
( xi
x)
2
n
.
Tak uzyskiwane ˆi posiadaj9 w4asno:K
n
ˆ
i =1 i
=
n
i =1
( xi
x)=
n
x
i =1 i
n x =0.
Fakt ten mo7na potraktowaK jako „gr+ z przyrod1” o sumie zerowej, tzn. „wygrane”
(np. ˆi > 0 ) i „przegrane” ( ˆi < 0 ) bilansuj9 si;.
Podstawowe statystyki z próby mo7emy wi;c zapisaK:
%rednia:
x=
Z. Lauda ski, D. R. Ma kowski
1
n
n
x ,
i =1 i
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
28
wariancja:
S p2 =
1
n
n
i =1
2
( xi
x) =
var x
, gdzie var x =
n
n
i =1
2
( xi
x) ,
odchylenie standardowe:
1
n
S p = S p2 =
n
i =1
( xi
2
x) ,
oraz wspó*czynnik zmienno%ci:
CV =
Sp
100% .
x
Dla konkretnych prób okre:lone statystyki przyjmuj9 na ogó4 ró7ne warto:ci. Np. z pewnej
35 + 37 + 40 + 38 + 40
= 38 , :rednia na
populacji pobrano prób; (35, 37, 40, 38, 40), wtedy x =
5
podstawie innej próby z tej samej populacji, np. (37, 38, 45, 42, 43), wynosi x = 41 .
Jest to oczywiste, gdy7 ka7da statystyka jako funkcja zmiennych losowych jest zmienn9
losow9, tzn. posiada pewien rozk4ad. W zastosowaniach praktycznych statystyki najcz;:ciej
wykorzystywane s9 rozk4ady %redniej arytmetycznej, wariancji i odchylenia standardowego.
Np. dla cechy X — populacji normalnej o warto:ci :redniej m oraz wariancji 2 —
N ( m; 2 ) , mamy:
1
n
E(X ) = E
D2 ( X ) = D2
1
n
n
i =1
n
Xi =
X =
i =1 i
1
n
1
n2
n
i =1
E ( Xi ) =
1
n m = m,
n
D2 ( X i ) =
i =1
n
1
n
n2
2
=
2
n
,
tym samym mamy, 7e
D( X ) =
2
n
.
3.2. PojAcie estymatora (estymacja punktowa)
Estymator jest to wielko:K wyznaczona na podstawie próby losowej (a wi;c statystyka)
s4u79ca do oceny warto:ci nieznanych parametrów populacji. Nale7y zauwa7yK, 7e nie ka,da
statystyka obliczona z elementów próby mo7e byK estymatorem okre:lonego parametru
populacji. Istniej9 lepsze lub gorsze estymatory z uwagi na pope4nianie b4;du szacowania
parametru populacji. Dlatego w celu uzyskania dobrego szacowania parametrów populacji na
podstawie próby wprowadza si; pewne w4asno:ci jakie musi spe4niaK dobry estymator.
S9 to m.in.: nieobci1,ono%-, zgodno%-, efektywno%- i dostateczno%-.
ˆ
8 — estymator parametru 8 jest estymatorem nieobci1,onym je7eli posiada w4asno:K postaci:
E (8ˆ ) = 8 ,
8ˆ — estymator parametru 8 jest estymatorem zgodnym je7eli posiada w4asno:K postaci: dla
ka7dego, dowolnie ma4ego
{
> 0 , zachodzi lim P 8ˆn 8
n
'
} =1,
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
29
8ˆ — estymator parametru 8 jest estymatorem efektywnym je7eli zdefiniujemy efektywno:K
oceny 8ˆ2 wzgl;dem 8ˆ1 parametru 8 wzorem postaci:
E (8ˆ2 8 )
D 28ˆ
, a dla estymatorów nieobci97onych: ef = 2 2 ,
D 8ˆ1
E (8ˆ1 8 )
to estymator 8ˆ2 jest efektywniejszy od estymatora 8ˆ1 je:li ef < 1 .
W ten sposób estymator o najmniejszej warto:ci ef wzgl;dem pewnego 8 0 , w danej klasie
estymatorów jest najefektywniejszym. Praktycznie jest sens mówiK o estymatorach
najefektywniejszych w klasie estymatorów nieobci97onych. Warto:ci estymatora
najefektywniejszego wykazuj9 si; najmniejszym rozrzutem wokó4 prawdziwej warto:ci
parametru. Zatem ocena parametru 8 , uzyskana za pomoc9 estymatora
najefektywniejszego, ma najmniejszy b49d standardowy (inaczej, jest obarczona
najmniejszym b4;dem).
ˆ
8 — estymator parametru 8 jest estymatorem dostatecznym je7eli zawiera wszystkie
informacje o parametrze 8 istniej9ce w próbie. Na przyk4ad estymator :redniej populacji m
dany wzorem postaci:
1
n 1
x=
x ,
i =1 i
n 1
jest nieobci1,ony i zgodny, ale nie jest dostateczny, jak równie7 jest nieefektywny
ef =
Natomiast %rednia arytmetyczna x =
1
n
n
x spe4nia wszystkie te wymienione warunki,
i =1 i
2
1 n
( xi x ) jest estymatorem obci1,onym prawdziwej wariancji. Estymatorem
i =1
n
nieobci97onym wariancji populacji jest wielko:K:
za: S p2 =
s2 =
n
n 1
S p2 =
1
n
i =1
n 1
( xi
x) =
2
var x
n 1
Do wnioskowania statystycznego w populacjach normalnych cz;sto wykorzystujemy
standaryzacj; zmiennej losowej X postaci:
Z=
X
m
=
X
m
n
n
Je7eli odchylenie standardowe populacji nie jest znane to nie mo7na pos4ugiwaK si;
w przypadku ma4ych prób rozk4adem normalnym. Dokonujemy wtedy przekszta4cenia zwanego
studentyzacj1
t=
X m X m
=
n,
s
s
n
gdzie s = s 2 =
1
n 1
n
i =1
( xi
x) .
2
Statystyka t tak okre:lona jest niezale7na od 2 i ma rozk4ad t Studenta o n–1 stopniach
swobody (liczba mo7liwych zwi9zków z n zmiennymi próby — jeden to zwi9zek :redniej
arytmetycznej). Przy n ' rozk4ad ten jest zbie7ny do rozk4adu normalnego
N ( m = 0; 2 = 1) . Inne rozk4ady warto:ci empirycznych: rozk*ad 2 Pearsona oraz rozk*ad
F Fishera s9 rozk4adami warto:ci z których b;dziemy praktycznie korzystaK. Warto:ci tych
rozk4adów do celów praktycznych s9 dost;pne w postaci odpowiednich tablic.
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
30
Podsumujmy wi;c:
%rednia:
x=
1
n
n
x ,
i =1 i
wariancja:
s2 =
1
n 1
n
i =1
2
( xi
x) =
var x
, gdzie var x =
n 1
n
i =1
( xi
2
x) ,
odchylenie standardowe:
s = s2 =
1
n
n 1
i =1
( xi
2
x) ,
oraz wspó*czynnik zmienno%ci:
CV =
s
100% .
x
3.3. Estymacja przedzia:owa
Estymacja przedzia4owa polega na konstruowaniu przedzia4u liczbowego, który
z okre:lonym z góry (bliskim jedno:ci) prawdopodobie,stwem b;dzie zawiera4 nieznan9
warto:K szacowanego parametru. Przedzia4 ten nosi nazw; przedzia*u ufno%ci, i jest postaci:
P { g1 8
g2} = 1
.
Twórc9 metody estymacji przedzia*owej by4 statystyk polskiego pochodzenia Jerzy Sp*awaNeyman (1894 – 1981). W tym uj;ciu parametr 8 jest wielko:ci9 sta49 (nielosow9), za: ko,ce
przedzia4u: dolna — g1 i górna — g 2 , s9 zmiennymi losowymi zale7nymi od
prawdopodobie,stwa
(1
),
nazywanego poziomem ufno%ci, natomiast
istotno%ci. Poprawnym jest wi;c stwierdzenie, 7e „z prawdopodobie stwem (1
ufno%ci obejmuje szacowany parametr 8 ”.
— poziomem
)
przedzia*
Nale7y pami;taK, 7e to nie szacowany parametr trafia do przedzia*u ufno%ci — gdy7
parametr ten jest wielko:ci9 sta49, wi;c jego warto:K nie mo7e „trafiK” do przedzia4u ufno:ci!
3.3.1. Przedzia: ufnoBci dla wartoBci Bredniej
Przedzia4 ufno:ci dla :redniej populacji m mo7emy napisaK w postaci:
P{ t
gdzie t =
,n 1
t t
,n 1
} =1
,
x m x m
=
n , st9d te7 otrzymujemy, 7e:
s
s
n
#
P $x t
&
gdzie wielko:K sx = s
dla poziomu istotno%ci
s
,n 1
n
m
x +t
,n 1
nazywamy b*+dem %redniej, t
n
oraz liczby swobody równej n–1.
s 9
: =1
n;
,n 1
,
jest warto:ci9 rozk4adu t Studenta
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
31
Przyk*ad:
Czas potrzebny na wykonanie pewnego urz9dzenia ma rozk4ad normalny. W celu
oszacowania :redniego czasu pracy potrzebnego na t; czynno:K, zmierzono czasy wykonania
dla 21 pracowników wylosowanych losowo i otrzymano wyniki w godzinach:
4,00; 3,35; 3,18; 2,89; 3,60; 3,05; 3,71; 3,30; 3,42; 2,96; 3,56;
2,97; 2,78; 2,39; 3,16; 3,04; 2,54; 2,59; 3,62; 3,28; 2,76.
ZbudowaK przedzia4 ufno:ci dla :redniej czasu wykonania, przyjmuj9c poziom ufno:ci
(1
) = 0,95 . (odp. 2,96 m 3,34)
21
21 2
i =1 i
x = 66,15 ,
x = 211,8639 , min = 2,39 , max = 4, 00 , x = 3,15 , M e = 3,16 ,
i =1 i
3, 4914
0, 41782
= 0,17457 , s = 0, 41782 , V =
= 0,1326 = 13, 26% ,
20
3,15
s
0, 41782
sx =
=
= 0,09117 , t = 0,05;20 = 2,086 ,
21 4,58258
( 3,15 2,086 0,09117; 3,15 + 2,086 0,09117 ) = ( 2,96; 3,34 ) .
var x = 3, 4914 , s 2 =
Na poziomie ufno:ci 0,95 mo7emy stwierdziK, 7e :redni czas wykonania tego urz9dzenia
przez wszystkich pracowników jest nie mniejszy ni7 2,96 i nie wi;kszy ni7 3,34 godziny.
3.3.2. Przedzia: ufnoBci dla róCnicy Brednich
P {( x1
x2 ) t
,v
sr
m1 m2
( x1
x2 ) + t
,v
sr } = 1
,
gdzie:
n1, n2 — liczebno:K próby z pierwszej i drugiej populacji,
m1, m2 — warto:ci :rednie populacji o jednakowych wariancjach,
tzn.
2
1
=
se2 =
2
2
, gdzie: sr = se2
1 1
+
n1 n2
— b*1d ró,nicy %rednich, przy czym mamy, 7e:
( n 1) s12 + ( n2 1) s22 — wariancja wspólna,
var x1 + var x2
= 1
n1 + n2 2
( n1 1) + ( n2 1)
(dlatego te7 powinna zachodziK równo:K wariancji w rozpatrywanych populacjach), t
warto:K statystyki t Studenta, za: v = n1 + n2
,v
–
2 — liczba stopni swobody wspólnej wariancji.
Przyk*ad:
Badano próby sera dojrzewaj9cego w pewnej wytwórni latem (populacja A) i zim9
(populacja B). Wytwórnia deklaruje jednakow9 zawarto:K t4uszczu w danym gatunku sera tak
w produkcji w lato jak i w produkcji zim9. Z prób 20 elementowych uzyskano odpowiednio:
xA = 54,26 , s A2 = 23,13 , xB = 56,18 , sB2 = 13, 27 .
(1
Czy deklaracj; producenta mo7na uznaK za zasadn9, przy prawdopodobie,stwie
) = 0,95 ?
se2 =
Z. Lauda ski, D. R. Ma kowski
19 23,13 + 19 13, 27 23,13 + 13, 27
=
= 18, 20 ,
19 + 19
2
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
32
1
1
+
= 18, 2 0,1 = 1,35 ,
20 20
sr = 18, 2
t
( 54, 26
sr = 2,023 1,35 = 2,731 ,
= 0,05;38
56,18 2,73; 54,26 56,18 + 2,73) = ( 4,65; 0,81) .
Ró7nica mi;dzy :rednimi zawarto:ciami t4uszczu latem i zim9 jest nie mniejsza ni7
(– 4,65%) ale nie wi;ksza ni7 0,81%. Dopuszczamy wi;c tak7e mo7liwo:K „zera” dla tej
ró7nicy, st9d te7 dopuszczamy równo:K tych :rednich zawarto:ci t4uszczu
) = 0,95 = 1 0,05 .
z prawdopodobie,stwem ufno:ci (1
Zauwa7my, 7e je7eli zachodzi relacja postaci:
xB > t
xA
;v
sr = NIR (
),
to dopuszczamy zró7nicowanie faktycznych :rednich w populacjach.
3.3.3. Przedzia: ufnoBci dla wariancji
Podobnie mo7na skonstruowaK przedzia4 ufno:ci dla wariancji populacji. Jest on postaci:
#
%
P $ var x
%
&
2
2
2
var x
,n 1
2
1
2
,n
9
%
: =1
1%
;
.
Okre:la on granice losowego przedzia4u obejmuj9cego nieznan9 warto:K wariancji
populacji.
Odpowiednio przedzia4 ufno:ci dla odchylenia standardowego:
#
% var x
P$
%
&
var x
2
2
,n 1
2
1
2
,n
9
%
: =1
1
%
;
.
Dla populacji maj9cej rozk*ad dwupunktowy (zerojedynkowy), tzn. zak4adamy, 7e elementy
populacji podzielone s9 na dwie klasy, przy czym frakcja elementów wyró7nionych wynosi
p i nie jest ma4ym u4amkiem ( p > 0, 05 ). Z populacji wylosowano du79 liczb; elementów próby
( n > 100 ), wtedy przedzia4 ufno:ci dla wskaSnika struktury p populacji generalnej jest
okre:lony przybli7onym wzorem:
#
%
%m
P$
%n
%&
z
m
m
1
n
n
n
p
m
+z
n
m
m 9
1
%
n
n %
: 1
n
%
%;
gdzie m jest elementów wyró7nionych i znalezionych w próbie, z
,
jest warto:ci9 odczytan9
z tablic rozk4adu normalnego N ( 0;1) w taki sposób, by P { z
Z
z
} =1
ustalonego .
Z. Lauda ski, D. R. Ma kowski
dla
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
33
Przyk*ad:
Spo:ród partii 7arówek wyprodukowanych w fabryce wylosowano 100 szt. i sprawdzono
ich jako:K. 16 7arówek okaza4o si; z4ych. Przyjmuj9c poziom ufno:ci 0,99 oszacowaK procent
braków w wyprodukowanej partii 7arówek.
0,16 (1 0,16 )
0,16 2,576
100
0,16 2,576 0,03666
0,16 0,095
0,065
0,16 (1 0,16 )
p 0,16 + 2,576
,
100
p 0,16 + 2,576 0,03666 ,
p 0,16 + 0,095 ,
p 0, 255 .
Tak wi;c poziom z4ych 7arówek w danej partii zawiera si; w przedziale: 6,5% a 25,5%.
ZwróKmy uwag;, 7e gdyby by4o 160 wadliwych 7arówek na 1000 sprawdzanych, wtedy zamiast
0,095 by4oby 0,0299, czyli mieliby:my przedzia4 ufno:ci: 0,13 p 0,19 . Dlaczego?
3.3.4. Przedzia: ufnoBci dla róCnicy dwóch frakcji
Niech badana cecha X w dwóch populacjach A i B ma rozk4ad dwupunktowy
z parametrami p A i pB . W celu oszacowania przedzia4em ufno:ci ró7nicy tych
prawdopodobie,stw, wylosowano dwie próby proste o liczebno:ci n A 100 i nB 100
m
m
jednostek. Niech A
oraz B
oznaczaj9 wskaSniki struktury odpowiednio z pierwszej
nA
nB
m + mB
jest frakcj9 wyró7nionych elementów
i drugiej próby, natomiast p = A
nA + nB
jednocze:nie w obu próbach ( m A i mB — s9 to liczby wyró7nionych elementów spo:ród
n A 100 i nB 100 populacji A oraz B ), za: b49d ró7nicy tych parametrów jest równy:
p (1 p )
SPr =
gdzie n =
1
1
+
=
n A nB
p (1 p )
n
,
n A nB
.
nA + nB
W efekcie wzór na przedzia4 ufno:ci dla ró7nicy frakcji, gdzie z — warto:K zmiennej
normalnej dla poziomu istotno:ci , jest postaci:
#% m
P$ A
&% nA
mB
nB
z
SPr
pA
pB
mA
nA
mB
+z
nB
9%
SPr : 1
;%
.
Przyk*ad:
Spo:ród wylosowanych 500 m;7czyzn i 600 kobiet by4o odpowiednio 200 i 252 osoby
pal9ce. ZbudowaK przedzia4 dla ró7nicy frakcji palaczy papierosów w:ród m;7czyzn i w:ród
kobiet przyjmuj9c poziom ufno:ci = 0,95 ( z0,05 = 1,96 ).
Obliczenia:
mA 200
m
252
=
= 0, 4 ; B =
= 0, 42 ;
nA 500
nB 600
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
34
p=
mA + mB 452
n n
500 600
=
= 0,411 , n = A B =
= 272,73 ;
nA + nB 1100
nA + nB 500 + 600
SPr =
p (1 p )
n
0
=
0, 411 0,589
= 0,0298 , czyli
272,73
7,84%
pA
pB
+3,84%
3.4. Hipotezy statystyczne i ich weryfikacja, testy statystyczne
Drugim obok estymacji (szacowania warto%ci parametrów lub postaci rozk*adu zmiennej
losowej w populacji na podstawie rozk*adu empirycznego dla próby) podstawowym rodzajem
wnioskowania statystycznego (indukcyjnego) jest weryfikacja (testowanie) hipotez
statystycznych, czyli sprawdzanie okre:lonych przypuszcze, (za4o7e,) wysuni;tych w stosunku
do parametrów lub rozk4adu populacji generalnej na podstawie próby.
Hipotezy statystyczne s9 odpowiednio sformu4owanymi przypuszczeniami dotycz9cymi
rozk*adu populacji. Mog9 one mieK ró7n9 postaK w zale7no:ci od hipotez badawczych,
wysuwanych przez specjalistów ró7nych dziedzin, którym statystyka s4u7y swymi metodami.
Hipotezy parametryczne, precyzuj9ce warto:ci parametrów w rozk4adzie populacji, nale79
do najcz;:ciej sprawdzanych hipotez statystycznych.
Weryfikacja hipotezy statystycznej odbywa si; przez zastosowanie specjalnego narz;dzia,
zwanego testem statystycznym. Jest to regu4a post;powania, która ka7dej mo7liwej próbie
losowej przyporz9dkowuje decyzj+ przyj+cia lub odrzucenia sprawdzanej hipotezy.
Istota ka7dego testu polega na tym, aby uchroniK si; przed pope4nieniem b*+du pierwszego
rodzaju ( ) – polegaj9cym na odrzuceniu hipotezy prawdziwej, jak i przed pope4nieniem b*+du
drugiego rodzaju (<), polegaj9cym na przyj;ciu hipotezy fa*szywej.
Hipoteza H0
prawdziwa
fa szywa
odrzucona
przyj;ta
1–
1–<
<
W teorii weryfikacji hipotez statystycznych wi;ksze znaczenie przypisywane jest b*+dowi
I-go rodzaju. Z tego powodu od testu statystycznego wymaga si; by szansa
(prawdopodobie stwo) pope4nienia tego b4;du by4a ma4a, a prawdopodobie stwo ( ) jego
pope4nienia nazywamy poziomem istotno%ci.
Wybór poziomu istotno%ci — jest spraw9 arbitraln9. Okre:la on stopie, naszej pewno:ci
co do odrzucenia hipotezy H0, tzn. je7eli test odrzuci* weryfikowan1 hipotez+, to im na
mniejszym poziomie to zrobi4, tym bardziej mo7emy byK „pewniejsi”, 7e rzeczywi:cie nasza
hipoteza jest nieprawdziwa.
Przyj;cie lub odrzucenie hipotezy przy pomocy testu nie jest równoznaczne z logicznym
udowodnieniem jej prawdziwo:ci lub fa4szywo:ci. Nale7y bowiem pami;taK, 7e w te:cie
statystycznym sprawdzaj9cym dan9 hipotez; na podstawie danych z próby, mamy szans+ co
najwy7ej (poziom istotno%ci) na prawdziwo:K tej hipotezy, i dlatego j9 odrzucamy.
Testy statystyczne, które na podstawie wyników próby losowej pozwalaj9 podejmowaK
jedynie decyzj; odrzucenia hipotezy lub stwierdzenia braku podstaw do jej odrzucenia,
nazywamy testami istotno%ci. S9 one w wi;kszo:ci przypadków zupe4nie wystarczaj9ce dla
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
35
potrzeb praktyki. Jest tak dlatego, 7e najcz;:ciej hipotez+ badawcz1 (merytoryczn1) któr9
chcemy sprawdziK, daje si; zamieniK na hipotez+ statystyczn1, jak gdyby „odwrotn9” do
badawczej. W konsekwencji zale7y wi;c nam na odrzuceniu hipotezy statystycznej a nie na jej
przyj+ciu, gdy7 odrzucenie hipotezy statystycznej praktycznie prowadzi do przyj+cia naszej
hipotezy badawczej, jako odwrotnej do statystycznej.
Zilustrujmy to przyk*adem. Przypu:Kmy, 7e hodowca wykreowa4 now9 odmian; (A)
o prawdopodobnie wy7szym plonowaniu ni7 dotychczas uprawiane. Przeprowadzono
eksperyment z now9 odmian9 — A oraz z najlepsz9 z dotychczas uprawianych (B), by na
podstawie wyników liczbowych (uzyskanych plonów) wykazaK przeci;tne wy7sze plonowanie
odmiany A od odmiany B. Do udowodnienia tej hipotezy badawczej wystarczy zastosowaK test
istotno%ci dla hipotezy statystycznej sformu4owanej nast;puj9co: %rednie plonowanie odmiany A
i B jest takie same. Formalne zapisujemy to w postaci hipotezy zerowej H 0 : m A = mB , wobec
hipotezy alternatywnej H1 : m A > mB , gdzie mA i mB oznaczaj9 :rednie plony odpowiednio
odmiany A i B.
Je7eli zastosowany test istotno:ci dla hipotezy H0 doprowadzi do jej odrzucenia, to
wy7szo:K nowej odmiany zosta4a udowodniona (a o to chodzi*o) z odpowiednio ma4ym
ryzykiem b4;du (poziomem istotno%ci). Je7eli natomiast zastosowany test istotno%ci da
odpowiedS, 7e nie ma podstaw do odrzucenia hipotezy H0, to oznacza to, 7e wyniki
eksperymentu maj9ce :wiadczyK o wy7szo:ci nowej odmiany, s9 zbyt s4abym argumentem i nie
udowadniaj9 tej wy7szo:ci. Taka odpowiedS przysparza hodowcy w wystarczaj9cym stopniu
zmartwie,, by zale7a4o mu na przyj;ciu hipotezy H0, bo to oznacza4oby, 7e marnowa4 czas na
tworzeniem odmiany o nie wy7szym pod wzgl;dem przeci;tnego plonowania od
dotychczasowych odmian.
Przyk*ad ten %wiadczy o wystarczalno%ci dla praktycznego wykorzystywania testów
istotno%ci, które polegaj1 na konstruowaniu pewnej statystyki S z wyników próby i wyznaczaniu
jej rozk*adu przy za*o,eniu s*uszno%ci hipotezy zerowej H0.
W rozk4adzie tym wybiera si; taki obszar Q statystki S, by spe4niona by4a równo:K:
P {S Q} = , gdzie
jest arbitralnie ustalonym dowolnie ma4ym prawdopodobie,stwem.
Obszar Q nazywa si; obszarem krytycznym testu, gdy7 ilekroK warto:K statystyki S z próby
znajdzie si; w nim, to podejmuje si; decyzj; odrzucenia hipotezy H0 na korzy:K hipotezy
alternatywnej H1. Natomiast, gdy otrzymana statystyka S nie nale7y do obszaru krytycznego Q,
to nie ma podstaw do odrzucenia H0 i nie jest to równoznaczne z jej przyj+ciem.
Obszar krytyczny Q zostaje tak wyznaczony, 7e przy prawdziwo:ci hipotezy H0
prawdopodobie,stwo otrzymania z próby warto:ci statystyki S jest znane i bardzo ma4e. Takie
zdarzenie losowe nie powinno si; zrealizowaK w jednym do:wiadczeniu. Je7eli jednak
naprawd; zrealizowa4o si;, to musia4o mieK wi;ksze prawdopodobie,stwo ni7 to wynika
z za4o7enia prawdziwo:ci hipotezy H0, wi;c jeste:my sk4onni uznaK t; hipotez; za fa4szyw9
i odrzucamy j9. Mo7emy pomyliK si; i odrzuciK hipotez; w gruncie rzeczy prawdziw1 (b*1d
I-szego rodzaju), jednak7e prawdopodobie,stwo takiej pomy4ki jest bardzo ma4e, równe obranej
dowolnie liczbie (poziom istotno%ci).
Je7eli natomiast warto:K statystyki S z próby znalaz4a si; poza obszarem krytycznym, tzn.
(gdy7 P {S Q} = ), czyli prawdopodobie,stwo tego7
mo7na zapisaK, 7e P {S = Q} = 1
zdarzenia jest bliskie 1. Zasz4o zatem zdarzenie, które powinno przy prawdziwo:ci hipotezy H0
zaj:K, bo mia4o du7e prawdopodobie,stwo zaj:cia, wi;c nie ma podstaw do odrzucenia hipotezy
H0.
Jako poziom istotno%ci wybiera si+ najcz+%ciej liczby: 0,10; 0,05; 0,01; 0,001, co nie
oznacza, ,e nie mo,na przyj1- np. 0,02 lub 0,07.
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
36
3.4.1. Hipoteza porównania wartoBci Bredniej z norm@
Hipoteza o redniej populacji — H 0 : m = m0
Zak4adamy, 7e populacja generalna ma rozk*ad normalny N ( m; 2 ) , przy czym m oraz 2
populacji nie s9 znane. W oparciu o wyniki n-elementowej próby losowej nale7y zweryfikowaK
hipotez; zerow9:
H 0 : m = m0 > H 0 : m m0 = 0 ,
wobec hipotezy alternatywnej
H1 : m
m0 > H1 : m m0
0.
Dla weryfikacji tej hipotezy zerowej wyliczmy warto:K statystyki t-Studenta wed4ug wzoru:
x m0
,
temp =
sx
1
n
arytmetycznej.
gdzie:
x=
n
s = s2 =
x ,
i =1 i
1
n 1
n
i =1
( xi
x ) , za:
2
s
n
sx =
— b*1d %redniej
Statystyka ta ma przy za4o7eniu s4uszno:ci hipotezy H0 rozk4ad Studenta o (n–1) stopniach
swobody. Z tablic tego rozk4adu, dla ustalonego poziomu istotno:ci
i dla (n–1) stopni
swobody, odczytuje si; tak9 warto:K t , 7e P { t t } = . Nierówno:K t t okre:la obszar
krytyczny (dwustronny) w tym te:cie. Wystarczy wi;c porównaK warto:K temp z warto:ci9
krytyczn9 t . Je7eli zajdzie nierówno:K temp
t , to hipotez; H 0 nale7y odrzuciK na korzy:K
hipotezy H1 . Natomiast gdy zajdzie nierówno:K przeciwna, tzn. temp < t , to nie ma podstaw do
odrzucenia hipotezy H 0 .
v liczba stopni swobody
P( t
t
,v
) =1
v
v2
t
,v
t
,v
Przyk*ad:
Badano próby sera dojrzewaj9cego w pewnej wytwórni latem (populacja A) i zim9
(populacja B). Wytwórnia deklaruje 55% zawarto:ci t4uszczu w danym gatunku sera. Z prób
20 elementowej uzyskano odpowiednio:
xA = 54,26 , s A2 = 23,13 , xB = 56,18 , sB2 = 13, 27 .
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
37
Tutaj mo7emy zweryfikowaK dwie hipotezy: 1-sza — czy deklarowana zawarto:K t4uszczu
w serze produkowanym w okresie letnim jest zgodna z faktyczn9, tzn. H 0 A : mA = 55% , 2-ga —
to samo, ale w stosunku do okresu zimowego, tzn. H 0 B : mB = 55% .
H 0 A : mA = 55% , sx =
temp =
23,13
= 1,1565 = 1, 07541 ,
20
54,26 55,00
= 0,688 < 2, 093 = t0,05;19 ;
1, 07541
13, 27
= 0,6636 = 0,81456 ,
20
H 0 B : mB = 55% , sx =
temp =
56,18 55,00
= 1, 449 < 2,093 = t0,05;19 ,
0,81456
W obu przypadkach hipoteza zerowa nie zosta4a odrzucona na poziomie istotno:ci 0,05.
Oznacza to, 7e deklaracja wytwórni ma pokrycie w faktach.
Cecha X populacji ma rozk4ad N ( m;
Hipoteza
alternatywna
H1 : m > m0
) , postaK hipotezy zerowej: H 0 : m = m0
Warto:K
funkcji testowej
x m0
temp =
sx
H1 : m < m0
temp =
H1 : m
temp =
m0
2
x
Obszar krytyczny Q
(*t2
m0
(
sx
x
m0
sx
(
'; t
,n 1
; +' )
temp > t2
)+
temp < t2
'; t2
,n 1
)+
H 0 odrzucamy,
je7eli:
,n 1
(*t
,n 1
; +' )
temp > t
,n 1
,n 1
,n 1
3.4.2. Hipoteza porównania frakcji z norm@
Hipoteza zerowa dla frakcji — H 0 : p = p0
Dla populacji maj9cej rozk*ad dwupunktowy, tzn. zak4adamy, 7e elementy populacji
podzielone s9 na dwie klasy, przy czym frakcja elementów wyró7nionych wynosi p i nie jest
ma4ym u4amkiem ( p > 0,05 ). Z populacji wylosowano du79 liczb; elementów próby ( n > 100 ),
m
p
ma rozk*ad asymptotycznie normalny
wtedy zmienna losowa: Z = n
p (1 p )
n
N p;
p (1 p )
n
, gdzie m jest liczb9 elementów wyró7nionych i znalezionych w próbie
n – elementowej, natomiast p jest parametrem rozk*adu zero-jedynkowego.
Naszym zadaniem jest weryfikacja hipotezy, 7e warto:K tego parametru p w populacji jest
równa p0 ( H 0 : p = p0 ). Je:li prawdziwa jest hipoteza zerowa, to wskaSnik struktury z próby
ma asymptotyczny rozk4ad
N p0 ;
Z. Lauda ski, D. R. Ma kowski
p0 (1 p0 )
n
,
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
38
a statystyka Z =
m
n
p0 (1 p0 )
, rozk4ad asymptotycznie normalny N ( 0;1) .
n
p0
Przyk*ad:
Spo:ród partii 7arówek, wylosowano 100 sztuk i sprawdzono ich jako:K. 15 okaza4o si;
z4ych. Przyjmuj9c poziom istotno:ci = 0,05 , zweryfikowaK hipotez; o brakach na poziomie
20% ( H 0 : p = 0, 2 ).
zemp =
0,15 0, 20
0, 2 (1 0, 2 )
100
=
0,05
= 1, 25 < 1,96 = z0,05 .
0,04
Z powy7szej relacji wynika 7e naszej hipotezy zerowej postaci H 0 : p = 0, 2 nie mo7emy
odrzuciK (zachodzi brak podstaw do jej odrzucenia) przy poziomie istotno:ci
= 0,05 ,
= 0, 23 jako, 7e
natomiast mogliby:my t; hipotez; odrzuciK przy poziomie istotno:ci
z0,23 1, 2 . Tak du7y poziom ryzyka odrzucenia prawdy jest nie do przyj;cia. Dlatego te7 t;
hipotez; by:my przyj;li.
ZwróKmy uwag;, 7e gdyby w próbie 1000 elementowej, 150 7arówek okaza4o si;
wadliwych, wtedy nasz9 hipotez; H 0 : p = 0, 2 z racji uzyskanej warto:ci odpowiedniej
statystyki:
zemp =
0,15 0, 20
0, 2 (1 0, 2 )
1000
=
0,05
= 3,953 < 1,96 = z0,05 ,
0,01265
nale7a4oby odrzuciK, i to nie tylko na poziomie istotno:ci
= 0,001 jako, 7e:
= 0,05 , ale tak7e na poziomie
z0,001 = 3, 291 < 3,953 = zemp .
Cecha X populacji ma rozk4ad zero-jedynkowy, tzn. P ( X = 1) = p , P ( X = 0 ) = 1 p ,
hipoteza zerowa jest tutaj postaci: H 0 : p = p0 .
Hipoteza (H1) alternatywna mo7e tutaj przyjmowaK jedn9 z trzech postaci:
H1 alternatywna
H1 : p > p0
H1 : p < p0
H1 : p
p0
zemp – warto:K
f. testowej
m
p0
n
p0 (1 p0 )
n
m
p0
n
p0 (1 p0 )
n
m
p0
n
p0 (1 p0 )
n
Obszar krytyczny
Q
[ z2 ; +' ) ,
gdzie F ( z2 ) = 1
(
gdzie
2
],
F ( z2 ) =
= 1 F ( z2 )
zemp > z2
'; z2
] [ z ; +' ) ,
gdzie 7 ( z ) = 1
(
H 0 odrzucamy, je7eli:
'; z
zemp < z2
zemp > z
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
39
Wielko:K z jest warto:ci9 odczytan9 z tablic rozk4adu normalnego N ( 0;1) w taki sposób,
by dla ustalonego zachodzi4a równo:K:
P{ z
Z
z
} =1
.
3.4.3. Hipoteza porównania dwóch wariancji
Hipoteza zerowa o równo:ci wariancji dwóch populacji ma postaK H 0 :
H1 :
2
1
>
2
1
=
2
2
, za:
2
2
Gdy badanie statystyczne ze wzgl;du na pewn9 cech; mierzaln9 prowadzimy w dwóch
populacjach, mo7e zaj:K potrzeba sprawdzenia hipotezy o równo:ci wariancji badanej cechy
w obu populacjach.
Rozk4adem, którym b;dziemy si; pos4ugiwaK w omawianym te:cie, jest rozk*ad F-Fishera.
Dost;pne tablice warto:ci tego rozk4adu s9 sporz9dzone tak, i7 podaj9 tak9 warto:K F dla
której zachodzi P {F F } = , tzn. dla niniejszego testu obszar krytyczny jest prawostronny.
Przy stosowaniu tego testu nale7y oznaczenia populacji numerami 1 i 2 przyj9K tak, by
w ilorazie dwu wariancji wyznaczonych na podstawie prób licznik by4 zawsze wi;kszy od
mianownika. Warto:K statystyki testowej wyznaczamy wed4ug wzoru:
Femp =
s12
,
s22
która przy za4o7eniu prawdziwo:ci hipotezy H 0 ma rozk4ad F-Fishera z ( n1 1) stopniami
swobody licznika i ( n2 1) stopniami swobody mianownika (gdzie: n1 , n2 — liczebno:K prób
losowych).
Przyk*ad:
Badano próby sera dojrzewaj9cego w pewnej wytwórni latem (populacja A) i zim9
(populacja B). Wytwórnia deklaruje 55% zawarto:ci t4uszczu w danym gatunku sera. Z prób 20
elementowych uzyskano odpowiednio:
x A = 54,26 , s A2 = 23,13 , xB = 56,18 , sB2 = 13, 27 .
Dla tego przyk4adu liczbowego mamy:
Femp =
23,13
= 1,743 < 2,17 = F0,05;19;19
13, 27
zatem hipotez; o równo:ci wariancji zawarto:ci t4uszczu w produkcji zimowej i letniej, tzn.
H0 :
2
1 =
2
2
– przyjmujemy na poziomie istotno:ci
Z. Lauda ski, D. R. Ma kowski
= 0,05.
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
40
3.4.4. Hipoteza porównania dwóch wartoBci Brednich
H 0 — o warto ci oczekiwanych dwóch populacji
W praktycznych zastosowaniach statystyki matematycznej niejednokrotnie zachodzi
potrzeba porównania :rednich m A i mB dwóch populacji. Weryfikuj; si; wówczas hipotez;
zerow9 postaci:
H 0 : m A = mB
wobec odpowiedniej hipotezy alternatywnej:
H1 : m A
mB , H1 : m A > mB lub H1 : m A < mB .
(
Niech analizowane populacje generalne maj9 rozk4ady normalne N m A ;
2
A
) i N (m ; ) ,
B
2
B
przy czym parametry tych populacji s9 nieznane, ale wariancje s9 jednakowe, tzn. A2 = B2
(mo7na sprawdziK s4uszno:K takiego za4o7enia dla konkretnej sytuacji, wykorzystuj9c test
Fishera weryfikuj9cy hipotez; H 0 : A2 = B2 ).
W celu weryfikacji tej hipotezy zerowej ( H 0 : m A = mB ) wykorzystujemy test postaci:
t=
xA
xB
sr
,
gdzie:
sr = se2
1
1
+
n A nB
— b*1d ró,nicy %rednich,
nA 1) s A2 + ( nB 1) sB2
(
var x A + var xB
— wariancja wspólna (wynika z za4o7enia
=
=
n A + nB 2
( nA 1) + ( nB 1)
równo:ci wariancji w populacjach).
se2
Przy czym zak4adamy, wylosowanie dwóch prób z rozpatrywanych populacji o liczebno:ci
odpowiednio: n A i nB , :rednich: x A i xB oraz wariancjach s 2A i sB2 .
Otó7 tak okre:lona statystyka t = ( x A
xB ) sr , przy za4o7eniu s4uszno:ci hipotezy zerowej
H 0 : m A = mB , ma rozk4ad Studenta o n A + nB 2 stopniach swobody. Dlatego te7 warto:K
x xB
— wyznaczona na podstawie prób z dwóch populacji jest porównywana
temp = A
sr
z warto:ci9 krytyczn9 t ,v z tablic rozk4adu Studenta. Je:li mi;dzy tymi wielko:ciami uzyskamy
relacj; temp > t
;v
( v = n A + nB
alternatywnej postaci: H1 : m A
2 ) , wtedy hipotez+ zerow1 odrzucamy na rzecz hipotezy
mB (tzw. test obustronny).
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
41
v liczba stopni swobody
P( t
t
,v
) =1
v
v2
t
t
,v
Natomiast relacja przeciwna, tzn. temp
t
;v
,v
nie daje nam podstaw do odrzucenia hipotezy
zerowej, a wi;c w tej sytuacji przyjmujemy j9. Zauwa7my przy tym, 7e H0 odrzucamy, gdy
x
xB
temp = A
> t ,v , czyli je:li zachodzi nierówno:K postaci: x A xB > t ,v sr = NIR .
sr
Wielko:K t
,v
sr = NIR nazywamy Najmniejsz9 Istotn9 Ró7nic9
Przyk*ad:
Badano próby sera dojrzewaj9cego w pewnej wytwórni latem (populacja A) i zim9
(populacja B). Wytwórnia deklaruje jednakow9 zawarto:K t4uszczu w danym gatunku sera w
produkcji latem i zim9, tzn. H 0 : m A = mB . Z dwóch prób 20 elementowych uzyskano
odpowiednio:
x A = 54,26 , s A2 = 23,13 , xB = 56,18 , sB2 = 13, 27 .
St9d:
se2 =
czyli sr = 18, 2
19 23,13 + 19 13, 27 23,13 + 13,27
=
= 18, 20 ,
19 + 19
2
1
1
+
= 18, 2 0,1 = 1,35 , a wi;c w tej sytuacji, z racji i7 warto:K:
20 20
temp =
54, 26 56,18
1,35
=
1,92
= 1, 422 < 2,023 = t0,05;38
1,35
naszej hipotezy H 0 : mA = mB nie mo7emy odrzuciK, czyli nasz9 hipotez; zerow9 (o braku
ró7nic mi;dzy :redni9 zawarto:ci9 t4uszczu w serach produkowanych latem i zim9).
Zauwa7my, 7e Najmniejsza Istotna Ró7nica jest tutaj równa:
NIR (
)=t
= 0,05;38
sr = 2,023 1,35 = 2,731 .
Ró7nica mi;dzy dwiema naszymi :rednimi z prób jest równa 1,422 nie przewy7sza
wielko:ci NIR, a wi;c wniosek, 7e :rednie tych populacji nie ró7ni9 si; mi;dzy sob9 w stopniu
istotnym.
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
42
Zauwa7my tak7e, 7e podobny wniosek uzyskali:my po analizie tych7e danych wg
przedzia4u ufno:ci dla ró7nicy :rednich – w uzyskanym przedziale zawiera si; warto:K zerowa,
tzn. dopuszczamy ró7nic; zerow9 mi;dzy porównywanymi :rednimi.
4,65 m A
mB
0,81
0
(
Populacji A ma rozk4ad N m A ,
2
) , za: populacji B — N ( m
B,
2
).
Hipoteza zerowa: H 0 : m A = mB
Hipoteza
alternatywna
Funkcja testowa
H 1 : m A > mB
temp =
H1 : m A < mB
temp =
H1 : m A
temp =
sr = se2
se2 =
( nA
mB
1
1
+
n A nB
xB
(t 2
*
sr
xA
xB
sr
xA
(
'; t2
(
'; t
xB
sr
, nA + nB 2 ; +'
lub (*t
)
temp > t2
)
temp < t2
, n A + nB 2 +
)
, n A + nB 2 +
, n A + nB
H 0 odrzucamy,
je7eli:
2 ; +'
)
temp > t
, n A + nB 2
, n A + nB 2
, n A + nB 2
— b*1d ró,nicy %rednich,
1) s A2 + ( nB 1) sB2
n A + nB
xA
Obszar krytyczny Q
2
— wariancja wspólna.
(
W przypadku gdy analizowane populacje generalne maj9 rozk4ady normalne N mA ;
(
i N mB ;
tzn.
2
A
2
B
2
A
)
) , przy czym parametry tych populacji s9 nieznane, a wariancje nie s9 jednakowe,
2
B
(mo7na sprawdziK s4uszno:K takiego za4o7enia dla konkretnej sytuacji,
wykorzystuj9c test Fishera weryfikuj9cy hipotez; H 0 :
2
A
=
2
B
).
W celu weryfikacji tej hipotezy zerowej ( H 0 : mA = mB ) wykorzystujemy tak zwany test
Behrensa-Fishera w postaci:
t'=
xA
s 2A
nA
xB
+
sB2
nB
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
43
Otó7 tak okre:lona statystyka t ' , przy za4o7eniu s4uszno:ci hipotezy zerowej H 0 : m A = mB ,
ma rozk4ad Studenta o
v
s A2 sB2
+
n A nB
2
2
2
s A2
sB2
nA
n
+ B
n A 1 nB 1
stopniach swobody (tzw. metoda Satterthwaite’a). Dlatego te7 warto:K t 'emp — wyznaczona na
podstawie prób z dwóch populacji jest porównywana z warto:ci9 krytyczn9 t
z tablic
,v
rozk4adu Studenta. Je:li mi;dzy tymi wielko:ciami uzyskamy relacj; temp > t
;v
, wtedy
hipotez+ zerow1 odrzucamy na rzecz hipotezy alternatywnej.
H 0 — o warto ci oczekiwanych dwóch populacji zale<nych
Niekiedy zachodzi potrzeba porównania :redniego poziomu pewnej cechy przed i po
pewnym dodatkowym dzia4aniu na elementach tej samej populacji. Z populacji tej pobieramy
losowo n elementow9 prób; i dla ka7dego elementu dysponujemy par9 wyników:
xi , yi ( i = 1, 2,… , n ) . Takich par wyników nie nale7y traktowaK jako dwu ró7nych prób prostych,
gdy7 mog9 one byK ze sob9 skorelowane (powi9zane). Przyk4adem mo7e byK badanie wagi cia4a
przed kuracj9 odchudzaj9ca i po zako,czeniu takiej kuracji. Mamy tutaj do czynienia z sytuacj9,
gdy :rednie s9 zale7ne (poszczególne pary s9 zale7ne). Sprawdzan9 hipotez9 jest tutaj hipoteza
zerowa postaci H 0 : mz = 0 i jej równowa7na postaK: H 0 : mx m y = 0 , wobec hipotezy
alternatywnej H1 : mz
0 , H1 : mz < 0 lub H1 : mz > 0 .
Warto:K mz jest :rednia warto:ci9 obliczon9 z przyrostów par wyników: zi = xi yi .
Hipotez9 zerow9 mo7na zweryfikowaK testem Studenta, zast;puj9c tam statystyki
odpowiednimi warto:ciami wyliczonymi z przyrostów zi , tzn.:
temp =
z
sz
,
gdzie:
sz =
sz
— b*1d %redniej,
n
za: z =
1
n
n
z
i =1 i
=
1
n
n
i =1
( xi
yi ) , sz = sz2 =
1
n 1
n
i =1
( zi
z) .
2
Warto:K temp wyznaczona z konkretnej próby, jest warto:ci9 zmiennej losowej t =
przy za4o7eniu prawdziwo:ci H 0 , ma rozk4ad Studenta z (n–1) st. swobody.
Z. Lauda ski, D. R. Ma kowski
z
sz
, która
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
44
3.4.4. Hipoteza porównania dwóch frakcji
Niech badana cecha X w dwóch populacjach A i B ma rozk4ad dwupunktowy z parametrami
p A i pB . Wysuwamy hipotez;, 7e oba te parametry s9 identyczne. Hipotez1 zerow1 jest wi;c
tutaj H 0 : p A = pB , a hipotezami alternatywnymi mog9 byK hipotezy: H1 : p A pB ,
H1 : p A > pB lub H1 : p A < pB .
W celu weryfikacji tej hipotezy zerowej wylosowano dwie próby proste o liczebno:ci nA
mA
mB
i nB
100 jednostek. Niech
oraz
oznaczaj9 wskaSniki struktury odpowiednio
nA
nB
m + mB
z pierwszej i drugiej próby, natomiast p = A
jest frakcj9 wyró7nionych elementów
n A + nB
jednocze:nie w obu próbach (mA i mB — s9 to liczby wyró7nionych elementów spo:ród
odpowiednio nA i nB z populacji A oraz B).
H 0 : p A = pB ,
to
statystyka:
jest
hipoteza
zerowa
mA mB
n
nB
= A
ma rozk4ad asymptotycznie normalny N ( 0;1) , gdzie
p (1 p ) p (1 p )
p (1 p )
+
nA
nB
n
Je:li
Z=
p=
prawdziwa
m A mB
n A nB
mA + mB
,
n A + nB
n=
n A nB
,
n A + nB
jest
równy:
Wielko:ci te wyst;puj9 w przedziale ufno:ci dla ró7nicy frakcji, gdzie z
zmiennej normalnej dla prawdopodobie,stwa :
— warto:K
p (1 p )
1
1
+
=
n A nB
%# m
P$ A
&% n A
mB
nB
natomiast
p (1 p )
n
z
SPr
mianownik
= SPr .
pA
pB
mA
nA
mB
+z
nB
%9
SPr : 1
;%
.
W praktyce oznacza to, 7e je7eli warto:K zmiennej Z wyznaczona na podstawie wyników
m A mB
z prób losowych, tzn. zemp = nA nB
jest wi;ksza od warto:ci krytycznej zmiennej
p (1 p )
n
( zemp > z ), wtedy hipotez; zerow9
normalnej — z , dla ustalonego poziomu istotno:ci
postaci: H 0 : p A = pB — odrzucamy na rzecz hipotezy alternatywnej. Je:li uzyskamy relacj;
zemp z — wtedy mówimy o braku podstaw do odrzucenia hipotezy zerowej, a wi;c hipotez;
zerow9 przyjmujemy.
Przyk*ad:
Na poziomie istotno:ci = 0,05 zweryfikowaK przypuszczenie, 7e palacze papierosów
stanowi9 jednakowy odsetek w:ród m;7czyzn i w:ród kobiet na podstawie wyników: spo:ród
wylosowanych 500 m;7czyzn by4o 200 palaczy, a spo:ród wylosowanych 600 kobiet by4o
252 pal9cych. Z uwagi na to, 7e brak jest sugestii która p4eK ma wi;kszy (lub mniejszy) odsetek
palaczy, przyjmujemy obustronny obszar krytyczny.
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
45
Stawiamy wi;c hipotez; zerow9 postaci: H 0 : p A = pB (jednakowe odsetki palaczy) wobec
hipotezy alternatywnej: H1 : p A pB .
Wykonujemy odpowiednie obliczenia wg poznanych wzorów:
mA 200
m
m + mB 452
252
=
= 0, 4 ; B =
= 0, 42 ; p = A
=
= 0, 411 ,
nA + nB 1100
nA 500
nB 600
n=
n A nB
500 600
=
= 272,73 ;
n A + nB 500 + 600
p (1 p )
SPr =
n
czyli zemp =
0, 411 0,589
= 0,0298 ,
272,73
=
0,4 0, 42
= 0,671 .
0,0298
Mamy wi;c relacj; z0,05 = 1,96 > 0,671 = zemp , z której wnioskujemy o braku mo7liwo:ci
odrzucenia hipotezy zerowej, a wi;c nasz9 hipotez; o jednakowym wyst;powaniu palaczy
papierosów w:ród m;7czyzn i kobiet przyjmujemy.
Przypomnijmy nasz przedzia4 ufno:ci dla ró7nicy prawdopodobie,stw i wynikaj9cy z niego
wniosek:
0
pA
7,84%
pB
+3,84%
Cecha X populacji A i B ma rozk4ad zerojedynkowy, tzn.
P ( X = 1) = p , P ( X = 0 ) = 1 p .
Hipoteza zerowa: H 0 : p A = pB , gdzie p =
H1 alternatywna
H1 : p A > p B
H1 : p A < p B
H1 : p A
pB
Warto:K funkcji
testowej
m A mB
n
nB
zemp = A
p (1 p )
n
m A mB
n
nB
zemp = A
p (1 p )
n
zemp =
Z. Lauda ski, D. R. Ma kowski
mA
nA
mB
nB
p (1 p )
n
mA + mB
n n
, n= A B .
n A + nB
n A + nB
Obszar krytyczny
[ z2
(
(
'; z
; +' )
zemp > z2
]
zemp < z2
lub [ z ; +' )
zemp > z
'; z2
]
H 0 odrzucamy je7eli
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
46
3.5. WiAcej niC dwie Brednie — test analizy wariancji
Analiza wariancji dla klasyfikacji pojedynczej
Testy analizy wariancji s9 podstawowym narz;dziem statystyki eksperymentalnej, tj.
szeroko rozbudowanej statystycznej metody planowania i oceny wyników eksperymentów
naukowych dla potrzeb do:wiadczalnictwa rolniczego, medycznego, itp. Testy te pozwalaj9 na
sprawdzenie, czy pewne czynniki, które mo7na dowolnie regulowaK w toku do:wiadczenia,
wywieraj9 wp4yw. Je:li tak, to w jakim stopniu oddzia4ywaj9 na kszta4towanie si; :rednich
warto:ci cech mierzalnych. Istot9 metody analizy wariancji jest rozbicie na addytywne
sk4adniki sumy kwadratów wariancji ca4ego zbioru wyników, i których liczba wynika z potrzeb
eksperymentu. Test analizy wariancji zwykle przeprowadza si; wed4ug ustalonego schematu,
uj;tego w postaci tzw. tabeli analizy wariancji. Nale7y tutaj zauwa7yK, 7e testy analizy
wariancji maj9 bardzo liczne zastosowania mi;dzy innymi w analizie regresji.
dród4o
zmienno:ci
Stopnie swobody Suma kwadratów
eredni kwadrat
Test F
Najprostszym przypadkiem jest analiza wariancji tzw. jednokierunkowego uk4adu danych
do:wiadczalnych, cz;sto okre:lany jako jednoczynnikowy uk*ad ca*kowicie losowy.
(
Danych jest k populacji, ka7da o rozk4adzie normalnym N mi ;
2
i
)
( i = 1, 2,… , k ) lub
o rozk4adzie zbli7onym do normalnego. Zak4ada si; przy tym, 7e wariancje tych k populacji s9
jednakowe (metoda jest nie jest odporna na nierówne wariancje — mo7na sprawdziK to
za4o7enie np. przy pomocy testu Bartletta).
Z ka7dej z tych k populacji wylosowano niezale7nie próby o ni elementach. Oznaczaj9c
wyniki prób przez xij mo7emy napisaK model obserwacji dla i = 1, 2,… , k oraz j = 1, 2,…, ni ,
k
n
i =1 i
za:
=n:
xij = mi + eij = m + ai + eij ,
gdzie:
mi — jest nieznan9 :redni9 w i-tej populacji,
eij — jest warto:ci9 zmiennej losowej (sk*adnikiem losowym) o rozk4adzie normalnym
(
N 0;
2
),
m — jest tutaj nieznan9 :redni9 wszystkich populacji,
ai = mi
m — jest efektem i-tej populacji.
Na podstawie wyników xij nale7y zweryfikowaK hipotez;
H 0 : m1 = m2 =
= mk > H 0 :
k
a2
i =1 i
=0
wobec hipotezy alternatywnej H1 — nie wszystkie %rednie badanych populacji s1 równe
(przynajmniej dwie s9 ró7ne).
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
dród4o
zmienno:ci
Stopnie swobody Suma kwadratów
Populacje
Wewn9trz
populacji
Ca4kowita
47
eredni kwadrat
k 1
var A
s 2A =
var A
k 1
n k
var E
se2 =
var E
n k
n 1
var x
Test F
Femp =
s A2
se2
gdzie:
k
n
i =1 i
var A =
( xi.
var x =
za: xi. =
x ) , var E =
2
k
ni
i =1
j =1
1
ni
ni
( xij
x
j =1 ij
x
)
, x=
2
k
ni
i =1
j =1
( xij
xi.
)
2
,
= var A + var E ,
1
n
k
ni
x
j =1 ij
i =1
.
Obliczon9 w tablicy warto:K Femp porównujemy z warto:ci9 krytyczn9 F
odczytan9
i dla odpowiedniej liczby
z tablic rozk4adu Fishera dla ustalonego z góry poziomu istotno:ci
k 1 oraz n k stopni swobody. Je7eli zachodzi Femp F ;k 1;n k , to hipotez+ H 0 odrzucamy,
natomiast gdy Femp < F
;k 1; n k
, wtedy mówimy o braku podstaw do odrzucenia hipotezy H 0 .
Przyk*ad:
Do:wiadczenie wazonowe. Cecha badana — masa korzeni selera. Czynnik — pocz9tkowa
liczba nicieni w ziemi. Liczba obiektów k = 7 , liczba powtórze, dla poszczególnych obiektów
ni = r = 4 , czyli ogólna liczba obserwacji n = 7 4 = 28 .
0
Nr
powt.
1
2
3
4
50
Masa
korz.
6,8
8,2
6,9
7,0
Nr
powt.
1
2
3
4
100
Masa
korz.
6,4
6,3
6,3
5,6
Nr
powt.
1
2
3
4
dród4o
Zmienno:ci
Obiekty
B49d
Ca4k.
Masa
korz.
6,0
6,1
6,2
6,3
St. sw.
6
21
27
Liczba nicieni
200
Nr
Masa
powt.
korz.
1
5,8
2
4,8
3
6,0
4
5,4
Suma
Kwd.
20,9071
4,8825
25,7896
400
Nr
powt.
1
2
3
4
er.
Kwd.
3,4846
0,2325
L_nicieni erednia Grupa
0
7,225 a
50
6,150 ab
100
6,150 ab
200
5,500 bc
400
5,075 bc
800
5,075 bc
1600
4,400
c
1,109
Nir0,05
Z. Lauda ski, D. R. Ma kowski
800
Masa
korz.
5,5
4,9
4,7
5,2
Nr
powt.
1
2
3
4
Masa
korz.
5,8
4,8
4,6
5,1
Femp
14,99
1600
Nr
Masa
powt.
korz.
1
4,7
2
5,1
3
3,8
4
4,0
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
48
Dla naszej analizy:
F0,05;6;21 = 2,573 ,
F0,01;6;21 = 3,812 ,
F0,001;6;21 = 5,881 ,
Tak wi;c nasz9 hipotez; zerow9 o braku wp4ywu pocz9tkowej liczby nicieni na mas;
korzeni selera odrzucamy na poziomie istotno:ci = 0,001 .
Wyznaczona warto:K Pvalue = 0,0000013 okre:la nam poziom istotno:ci przy którym nasza
hipoteza mo7e byK odrzucona.
Test Bartletta równo:ci wariancji w populacjach:
2
emp
= 6,34
Pvalue = 0,386 .
3.5.1. Procedury porówna1 wielokrotnych
W przypadku odrzucenia hipotezy zerowej H 0 : m1 = m2 = = mk w te:cie analizy
wariancji, stwierdza si;, i7 nie wszystkie %rednie badanych populacji s1 równe, czyli, 7e co
najmniej jedna :rednia obiektowa ró7ni si; od pozosta4ych w sposób istotny. Analiza wariancji
nie daje jednak odpowiedzi, które :rednie obiektowe ró7ni9 si; od pozosta4ych, nie mówi
równie7 o charakterze tych ró7nic.
W celu zbadania ró7nic pomi;dzy :rednimi obiektowymi wykorzystuje si; tak zwane
procedury porówna, wielokrotnych. Procedury te pozwalaj9 na wyodr;bnienie grup
jednorodnych.
Grupa jednorodna obiektów, w ramach zbioru :rednich obiektowych, stanowi roz49czny
z innymi grupami jednorodnymi podzbiór obiektów, które nie ró7ni9 si; mi;dzy sob9 ze
wzgl;du na warto:ci :rednie.
Cz;:K procedur porówna, wielokrotnych opiera si; na warto:ci zwanej NIR, czyli na
Najmniejszej Istotnej Ró7nicy. Je7eli ró7nica pomi;dzy dwoma :rednimi obiektowymi jest
mniejsza od NIR, to uznaje si;, 7e :rednie te nie ró7ni9 si; mi;dzy sob9 w sposób istotny.
Opracowano szereg procedur porówna, wielokrotnych i innych metod wyznaczania grup
jednorodnych. Poni7ej przedstawiono wyniki analizy wariancji do:wiadczenia
jednoczynnikowego porównuj9cego plonowanie 20 odmian kapusty oraz podzia4 na grupy
jednorodne ró7nymi metodami.
dród4o
zmienno:ci
Odmiana
B49d
Ca4kowita
Stopnie
swobody
19
60
79
Suma
kwadratów
odchyle,
48579,1375
61314,2500
109893,3875
eredni
kwadrat
odchyle,
2556,7967
1021,9042
Femp
2,50
p-value
0,0037
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
49
Procedura
Duncana
Procedura
StudentaNewmanaKeulsa
Procedura
Gabriela
Procedura
Sidaka
Procedura
Bonfferoniego
Procedura
Sheffego
Metoda
kontrastów
193,75
176,25
173,75
173,75
170,00
162,50
158,75
156,75
153,75
151,25
151,25
150,00
141,25
140,00
135,00
122,50
122,50
115,00
107,50
96,25
Procedura
Tukeya
erednia
Agora
Atena
Edyta
Ovation
Rigoletto
Alka
Ambra
Marius
Bona
Juventa
Sunny
Michalinka
Sonata
Marioliers
Ewelina
Sande
Charlena
Fulmara
Charan
Malika
NIR
Liczba grup
Procedura
Studenta
Odmiana
Wyznaczone grupy jednorodne
45,215
6
83,774
2
—
5
—
2
87,019
2
87,504
2
87,680
2
130,81
1
—
2
W praktycznym do:wiadczalnictwie rolniczym najprzydatniejszymi metodami wyznaczani
grup jednorodnych s9 procedury porówna, wielokrotnych Duncana, Tukeya (Tukeya-Kramera),
test Dunneta porównania z wzorcem oraz metod; opart9 na kontrastach.
Procedura porówna wielokrotnych Duncana
Procedura Duncana ma zastosowanie tylko w przypadku gdy w ramach wszystkich
poziomów badanego czynnika liczba obserwacji jest jednakowa ( n1 = n2 = … = nk = n ). Po
uporz9dkowaniu :rednich obiektowych w kolejno:ci rosn9cej, porównuje si; ró7nic; pomi;dzy
:redni9 obiektow9 na pozycji k i :redni9 obiektow9 na pozycji k 1 z warto:ci9 NIR, wraz
z kolejnymi krokami do porówna, bierze si; kolejne :rednie obiektowe. NIR Duncana ma
postaK:
NIRD = t D ( , k ', v )
2
Se 2
n
gdzie:
n — liczba obserwacji w ramach jednego poziomu czynnika,
v — liczba stopni swobody dla b4;du losowego (z analizy wariancji),
k ' — liczba aktualnie porównywanych poziomów czynnika,
Se2 — :redni kwadrat odchyle, (wariancja) dla b4;du losowego (z analizy wariancji),
tD ( , k ', v ) — warto:K krytyczna wielokrotnego testu Duncana.
Z. Lauda ski, D. R. Ma kowski
50
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
Procedura porówna wielokrotnych Tukeya
Przypadku uk4adu gdy w ramach wszystkich poziomów badanego czynnika liczba
obserwacji jest jednakowa ( n1 = n2 = … = nk = n ) warto:K NIR Tukeya ma postaK:
NIRT = q ( ; k 1, v )
Se 2
n
gdzie:
n — liczba obserwacji w ramach jednego poziomu czynnika,
k — liczba poziomów czynnika,
v — liczba stopni swobody dla b4;du losowego (z analizy wariancji),
Se2 — :redni kwadrat odchyle, (wariancja) dla b4;du losowego (z analizy wariancji),
q ( ; k 1, v ) — warto:K krytyczna studentyzowanego rozst;pu.
Gdy liczba obserwacji w ramach poziomów badanego czynnika nie jest jednakowa
( n1 n2 … nk ) warto:K NIR Tukeya wyznacza si; oddzielnie dla ka7dej porównywanej pary
:rednich :rodowiskowych wg wzoru (tzw. procedura Tukeya-Kramera):
NIRT ( µ1
µ2 )
= q ( , k 1, v )
Se2
1
2
1 1
+
n1 n2
gdzie:
n1 , n2 — liczba obserwacji w ramach porównywanych poziomów czynnika,
k — liczba poziomów czynnika,
v — liczba stopni swobody dla b4;du losowego (z analizy wariancji),
Se2 — :redni kwadrat odchyle, (wariancja) dla b4;du losowego (z analizy wariancji),
q ( ; k 1, v ) — warto:K krytyczna studentyzowanego rozst;pu.
Test Dunneta porównania rednich obiektowych z wzorcem
Test Dunneta ma zastosowanie, gdy w ramach poziomów badanego czynnika wyst;puje
jeden poziom, który mo7na okre:liK jako wzorzec. Wówczas mo7na sprawdziK, za pomoc9 tego
testu, które :rednie obiektowe ró7ni9 si; istotnie od :redniej dla wzorca. Test Dunneta ma
postaK:
td =
xi
xC
2 Se2
nh
gdzie:
xi — i-ta :rednia obiektowa,
xC — warto:K :rednia dla wzorca,
Se2 — :redni kwadrat odchyle, (wariancja) dla b4;du losowego (z analizy wariancji),
nh — :rednia harmoniczna liczby obserwacji dla danego poziomu czynnika i dla wzorca.
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
II. ANALIZA STATYSTYCZNA DANYCH DO
51
WIADCZALNYCH
1. WPROWADZENIE
Dane empiryczne, b;d9ce przedmiotem bada, statystycznych powstaj9 zazwyczaj w wyniku
pomiaru okre:lonych cech mierzalnych pewnych populacji zwierz9t, ro:lin, próbek gleby,
produktów przemys4u, itp. Cechy te podlegaj9 naturalnej zmienno:ci, któr9 bez trudu mo7emy
zaobserwowaK chocia7by na populacji ludzkiej, a która wyst;puje w ka7dej zbiorowo:ci
przyrodniczej, oboj;tnie, czy wytworzonej przez cz4owieka czy te7 naturalnie istniej9cej.
Zmienno:K ta w populacjach 7ywych spowodowana jest zarówno przyczynami genetycznymi
jak i p4ywami zmiennych warunków :rodowiska w procesie wzrostu i dojrzewania organizmów.
W populacjach sztucznych, wytworzonych przez cz4owieka, wyst;puje zmienno:K
spowodowana niedok4adno:ci9 przyrz9dów, maszyn czy niejednorodno:ci surowca, z którego
wykonujemy elementy badanej zbiorowo:ci. Dokonuj9c odpowiednio dok4adnych pomiarów,
mo7emy wykryK nawet drobne ró7nice istniej9ce mi;dzy badanymi przedmiotami. Oprócz
wymienionych Sróde4 zmienno:ci danych empirycznych wyst;puje jeszcze czysto techniczne
Sród4o, zwi9zane z dokonywaniem pomiaru.
Celem bada, (analiz) statystycznych jest uchwycenie prawid4owo:ci wyst;puj9cych
w zmiennym materiale liczbowym oraz wyodr;bnienie ró7nic istotnych w:ród losowych,
przypadkowych, wyst;puj9cych w zbiorowo:ci, która a priori uznajemy za jednorodn9. Cel ten
osi9ga si; w trzech etapach statystycznego opracowania danych empirycznych: opis, analiza
i wnioskowanie.
Do%wiadczalnictwo jest aktywnym zbieraniem danych statystycznych, polegaj9cym na
zastosowaniu do materia4u eksperymentalnego okre:lonych zabiegów i obserwacji ich efektów.
Podstawowym postulatem wymaganym od schematu gromadzenia danych empirycznych jest
mo7liwo:K sensownej ich interpretacji. Dla uzyskania niniejszego celu potrzebne jest w4a:ciwe
planowanie do:wiadczenia i zastosowanie w4a:ciwych metod analizy statystycznej.
Planuj1c jakiekolwiek do:wiadczenie, chcemy uzyskaK dane niezb;dne do charakterystyki
i opisu nowego zjawiska, b9dS te7 rozstrzygni;cia pewnych nowych hipotez, albo potwierdzenia
hipotez stawianych przez innych badaczy, w odmiennych, specyficznych warunkach. Na
przyk4ad w do:wiadczeniach odmianowych z ro:linami uprawianymi w Polsce, prowadzonych
permanentnie przez wyspecjalizowane stacje do:wiadczalne oceny odmian, zbiera si; dane
eksperymentalne dotycz9ce zarówno najwa7niejszych cech u7ytkowych ro:lin, takich jak
wysoko:K plonu nasion, korzenia czy bulw, oraz okre:laj9cych warto:K technologiczn9 b9dS
konsumpcyjn9 plonów, jak równie7 cech pobocznych charakteryzuj9cych ro:liny, ich odporno:K
na choroby. Dane te pozwalaj9 na rozpoznanie kszta4towania si; cech nowych odmian
w ró7nych rejonach kraju, s4u79 rejonizacji nowych odmian oraz kontroli nad wyradzaniem si;
odmian b;d9cych w uprawie od wielu lat.
Dokonuj9c opisu danych empirycznych, który w gruncie rzeczy jest ich redukcj9 od
pewnych wskaSników (parametrów), musimy u:wiadomiK sobie — czego ten opis dotyczy,
a w4a:ciwie — co b;dzie podmiotem wniosków formu4owanych w oparciu o ten opis.
Na przyk4ad, dokonujemy obserwacji dynamiki przyrostów masy oraz powierzchni
poszczególnych elementów ro:lin zbo7owych w do:wiadczeniu wazonowym. Uzyskane
pomiary s9 reprezentacj9 populacji tych wielko:ci u ro:lin zbo7a danego gatunku i danej
odmiany oraz przy ustalonych warunkach glebowych, poziomu nawo7enia, itp. Mamy wi;c
tutaj zbiorowo:K danych uzyskanych bezpo:rednio z pomiarów oraz zbiorowo:K drug9, któr9 te
dane reprezentuj9. Pierwsza z nich nazywamy prób1, natomiast drug9 — populacj1 generaln1.
Tak wi;c pod okre:leniem: populacja – rozumiemy zbiorowo:K wszystkich mo7liwych warto:ci
rozpatrywanej cechy pewnej populacji przedmiotowej ro:lin uprawnych, drzew, zwierz9t czy
ludzi, oraz próba – jako reprezentacja populacji generalnej.
Z. Lauda ski, D. R. Ma kowski
52
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
Ka7de do%wiadczenie jest ci9giem ustalonych wcze:niej czynno:ci prowadz9cych do
uzyskania mo7liwie najbardziej wiarygodnych informacji o interesuj9cym nas zjawisku.
W :cis4ych do:wiadczeniach naukowych zwykle bada si; wp4yw konkretnych czynników
kontrolowanych na wyst;powanie lub nat;7enie zjawisk b;d9cych przedmiotem bada,,
z mo7liwym wy49czeniem innych, nieinteresuj9cych czynników, mog9cych zak4óciK zbierane
informacje. W do%wiadczeniu jednoczynnikowym, najprostszym mo7liwym typem
eksperymentu naukowego porównawczego, tylko jeden czynnik podlega zmianom zgodnie
z intencjami eksperymentatora, inne za: s9 utrzymywane na sta4ym poziomie lub s9 nieobecne.
W zagadnieniach biologicznych na ogó4 wyst;puj9 jednak nie daj9ce si; kontrolowaK wp4ywy
zró7nicowanego materia4u do:wiadczalnego, zewn;trznych warunków przyrodniczych (klimat,
:rodowisko), czy nawet samej techniki obserwacji. Wszystkie te dodatkowe elementy s9
przyczyna tego, 7e wyniki dwóch eksperymentów identycznie zaplanowanych i
przeprowadzonych ró7ni9 si; mi;dzy sob9. To niekontrolowane zró7nicowanie towarzysz9ce
w4a:ciwemu do:wiadczeniu musi byK akceptowane przez eksperymentatora jako b*1d
do%wiadczenia. Wynika st9d wniosek, 7e aby do:wiadczenie pozwala4o na ocen; interesuj9cego
nas zjawiska, konieczne jest rozdzielenie zmienno:ci spowodowanej wp4ywem badanego
czynnika i zmienno:ci losowej. Rozdzia4 tych dwu ró7nych zmienno:ci w do:wiadczeniu jest
wykonalny, je7eli badania b;d9 powtarzane w niezmienionych warunkach, przy ustalonych
poziomach kontrolowanych czynników. Uk4ad do:wiadczenia musi zatem spe4niaK pewne
warunki formalne, aby mo7na by4o korzystaK z metod analizy statystycznej danych
empirycznych.
Celem ka7dego do:wiadczenia jest potwierdzenie lub zaprzeczenie pewnej hipotezie
odno:nie badanego zjawiska. Hipotez; te nazywamy hipotez1 merytoryczn1. Formu4uje si; ja
przyst;puj9c do bada,, w momencie planowania do:wiadczenia. Mo7e to byK np. hipoteza, 7e
nowa odmiana (lub odmiany) pod wzgl;dem pewnych cech przewy7szaj9 dotychczas
uprawiane, 7e jaki: zabieg na przedmiocie eksperymentu przyniesie nowe efekty mierzalne lub
jako:ciowe, 7e wyniki osi9gane w innym miejscu lub czasie potwierdz9 si; w zmienionych
warunkach. Jest zrozumia4e, 7e sformu4owanie hipotezy merytorycznej powinno nast9piK po
zapoznaniu si; z aktualnym stanem wiedzy w danej dziedzinie. Jasne i konkretne
sformu4owanie hipotezy merytorycznej u4atwia zaplanowanie do:wiadczenia i w4a:ciwy wybór
modelu w póSniejszym opracowaniu jego wyników. Powinno si; unikaK dla formu4owania dla
jednego do:wiadczenia zbyt z4o7onych hipotez dla uzyskiwania jednoznaczno:ci wyniku jej
weryfikacji oraz z faktu, 7e hipoteza statystyczna musi byK jednoznacznym odwzorowaniem
hipotezy merytorycznej – by wnioski statystyczne mog4y byK bez zastrze7e, i w9tpliwo:ci
transponowane na wnioski merytoryczne. Czasami, ze wzgl;du na wymóg testowania hipotez
prostych, hipoteza statystyczna jest zaprzeczeniem hipotezy merytorycznej. Na przyk4ad dla
wykazania wy7szego plonowania nowej odmiany od wybranej odmiany starej, sprawdzamy
hipotez+ zerow1, 7e :rednie z populacji generalnej obu odmian s9 jednakowe. Odrzucenie lub
przyj;cie hipotezy zerowej prowadzi do jednoznacznych wniosków o relacji mi;dzy
plonowaniem porównywanych odmian.
Du7e znaczenie w do:wiadczalnictwie odgrywaj9 modele liniowe, prowadz9ce do analizy
wariancji lub analizy regresji wyników eksperymentu. Mo7na stwierdziK, 7e matematyczne
modele liniowe, zwane tak7e hipotezami liniowymi, s9 adekwatnymi modelami wielkiej klasy
hipotez merytorycznych, sprawdzanych do:wiadczalnie. Zachodzi to w tych eksperymentach,
w których badamy wp4yw czynnika lub czynników kontrolowanych na cechy mierzalne
jednostek do:wiadczalnych, przy czym ka7dy z tych czynników wyst;puje co najmniej
w dwóch poziomach. Czynniki mog9 byK jako%ciowe, jak np. odmiany ro:lin, rasy zwierz9t,
itp., b9dS ilo%ciowe, jak temperatura, terminy siewu lub zbioru, dawki nawozu, itd. Hipoteza
merytoryczna w do:wiadczeniach czynnikowych dotyczy zró7nicowanego oddzia4ywania ich
poziomów na okre:lone cechy jednostek zbiorowo:ci b;d9cej przedmiotem bada,. Znajduje ona
odzwierciedlenie w hipotezie liniowej w postaci sk4adników warto:ci oczekiwanej ka7dej
obserwacji.
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
53
2. ZASADY STATYSTYCZNE PLANOWANIA EKSPERYMENTÓW
Okre:lenie jednostki do%wiadczalnej jako elementarnego Sród4a obserwacji sk4adaj9cych si;
na dane empiryczne z regu4y nie budzi w9tpliwo:ci w badaniach prowadzonych na populacjach
biologicznych z4o7onych z osobników. W do:wiadczeniach rolniczych z regu4y jednostkami
do:wiadczalnymi nie s9 poszczególne ro:liny, ale ich gromady rosn9ce na poletkach
do:wiadczalnych czy wazonach. Przyj;cie poletka do:wiadczalnego jako podstawowej
jednostki sprawia k4opoty z okre:leniem jej wielko:ci i kszta4tu, a tak7e inne w9tpliwo:ci
wynikaj9ce z wyst;puj9cej tu pewnej dowolno:ci. Tych w9tpliwo:ci nie b;dzie, je7eli wyraSnie
okre:limy, b9dS u:wiadomimy sobie, co stanowi populacj+ generaln1, dla której s9
formu4owane wnioski z danych empirycznych, a w4a:ciwie – czego dotyczy hipoteza
merytoryczna. Natomiast obserwacje ilo:ciowe uzyskiwane z jednostki do:wiadczalnej mo7emy
zapisaK w postaci ogólnego modelu liniowego o addytywnych sk4adnikach:
yi = m + a + ei
gdzie i jest numerem jednostki do:wiadczalnej, m — jest :redni9 ogóln9 w populacji,
poziomem odniesienia badanej wielko:ci. Sk4adnik a reprezentuje w tym modelu efekty
spowodowane zmiennymi czynnikami kontrolowanymi w eksperymencie (odmiany, zabiegi,
itp.), za: ei jest specyficznym efektem przyczyn losowych, nie poddaj9cych si; kontroli
eksperymentatora, nazywanym b*+dem losowym. Sk4adnik a mo7e byK rozdzielony na cz;:ci,
gdy w do:wiadczeniu bada si; równocze:nie zmiany kilku czynników, tzn. kontrolowanych
Sróde4 zmienno:ci obserwacji. Równie7 sk4adnik ei mo7e ulec dekompozycji na losowe
wprawdzie, ale daj9ce si; wyodr;bniK Sród4a zmienno:ci. Warto:K oczekiwana obserwacji yi
jest równa m + a , za: wariancja obserwacji jest równa wariancji b4;du losowego, tzn.
D 2 ( yi ) = D 2 ( ei ) = e2 .
Eksperymenty porównawcze stosowano cz;sto w ró7nych dziedzinach nauki ju7 od XIX
wieku. Takie badania s9 obci97one b4;dami, je7eli poszczególne grupy jednostek
do:wiadczalnych nie b;d9 równowa7ne na pocz9tku do:wiadczenia. R. A. Fisher zauwa7y4, 7e
je%li jednostki do%wiadczalne (poletka) b+d1 przyporz1dkowane do grup losowo, to
równowa,no%- grup b+dzie zapewniona przynajmniej co do %redniej. Jego schematy
do:wiadcze, przewiduj9 wi;c zarówno porównania jak i randomizacj;. Randomizacja
oczywi:cie eliminuje nieu:wiadomion9 stronniczo:K eksperymentatora. Losowy dobór
gwarantuje bezstronno:K wobec ka7dego czynnika, nawet takiego, którego znaczenie nie jest
znane eksperymentatorowi.
Randomizacja ma tak7e inn9 zalet;, mo7na nawet powiedzieK, 7e jeszcze wa7niejsz9 od
eliminacji obci97e,. Dzi;ki niej wyniki do:wiadcze, s9 bezpo:rednio dost;pne dla
matematycznych rozwa7a,. Losowe przyporz9dkowanie obiektów do:wiadczalnych prowadzi
do zjawisk podobnych do tych, jakie wyst;puj9 w grach losowych: chocia, nie mo,na
przewidzie- pojedynczego wyniku, to w wielu przypadkach wyst+puje charakterystyczna
stabilno%- uk*adów wyników. Istnienie probabilistycznego opisu procesu zbierania danych
poprzez do:wiadczenie jest podstaw9 wnioskowania statystycznego. Fisher nie zapocz9tkowa4
zastosowa, prawdopodobie,stwa do wnioskowania statystycznego, lecz tylko zastosowania te
rozwin94, a postulowana przez niego randomizacja dostarcza danych, do których teoria
prawdopodobie,stwa mo7e byK poprawnie stosowana.
Podej%cie Fishera do wnioskowania statystycznego przez prawdopodobie stwo polega na
ocenie istotno%ci zaobserwowanej zmienno%ci obiektowej przez porównanie jej ze zmienno%ci1
spowodowan1 niekontrolowanymi czynnikami.
Przypu:Kmy wi;c, 7e ka7da z dwu odmian 7yta A i B zosta4a wysiana na pewnej,
jednakowej liczbie poletek przyporz9dkowanych losowo. Plony na ró7nych poletkach s9 ró7ne,
ale przyjmijmy, 7e :redni plon odmiany A przewy7sza :redni plon odmiany B. Zró7nicowanie
plonów na poletkach obsianych t9 sam9 odmian9 pozwala oszacowaK nieuniknion9 zmienno:K
spowodowan9 wszystkimi innymi czynnikami maj9cymi wp4yw na plon ro:lin. Tak wi;c
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
54
ró7nic; o jak9 :rednio odmiana A przewy7sza odmian; B (zmienno%- odmian) porównuj; si;
z ró7nicami wewn9trz odmian (zmienno%ci1 wewn+trzn1). Poniewa7 poletka pod zasiew odmian
przydzielano losowo, teoria prawdopodobie,stwa pozwala obliczyK jaka jest szansa powstania
zaobserwowanej wy7szo:ci odmiany A jedynie w wyniku przyporz9dkowania losowego ró7nym
poletkom.
Je7eli wi;c :redni plon odmiany A przewy7sza :redni plon odmiany B o wielko:K tak du79
(w porównaniu ze zmienno:ci9 wewn9trz odmian), 7e w wyniku przypadku mog4oby to si;
zdarzyK, powiedzmy tylko raz na 100 do:wiadcze, (przy wielokrotnym powtarzaniu
eksperymentu), to jest to silny argument za tym, 7e co: wi;cej ni7 przypadek faworyzuje
odmian; A. To „co% wi+cej”, je:li do:wiadczenie zosta4o starannie przeprowadzone, musi byK
w4a:nie wynikiem wy7szej plenno:ci odmiany A. Technika takiego porównania tych dwóch
zmienno:ci zaproponowana przez Fishera znana jest pod nazw9 analizy wariancji. Stosunek
wariancji uczestnicz9cych w takim porównaniu zosta4 póSniej nazwany statystyk1 F dla
uczczenia zas4ug R. A. Fishera.
Dost;pno:K formalnej dyskusji matematycznej wniosków z do:wiadczenia
przeprowadzonego wed4ug schematu Fishera umo7liwia badanie sytuacji zbyt
skomplikowanych dla niewspomaganej intuicji eksperymentatora. Dobrze dobrany model
matematyczny obserwacji do:wiadczalnych pozwala eksperymentatorowi badaK jednocze:nie
wp4yw wielu czynników i interakcji mi;dzy nimi. Pozwala tak,e wybra- schematy
do%wiadczalne (opisywane modelami matematycznymi) zapewniaj1ce efektywne wykorzystanie
informacji o dzia*aniu badanych czynników.
W my:l koncepcji Fishera rozwa7my najprostsze do:wiadczenie jakim jest do:wiadczenie
jednoczynnikowe wed4ug uk4adu ca4kowicie losowego, tzn. ka7da obserwacja z takiego
do:wiadczenia opisywana jest modelem postaci (zob. rozdzia4 analiza wariancji dla klasyfikacji
pojedynczej):
yij = m + ai + eij
dla i = 1, 2,… , k ;
eij
(
N 0;
2
e
).
j = 1, 2,…, ni ; n =
k
i =1
ni , zak4adamy przy tym, 7e yij
(
N m + ai ;
2
e
),
2.1. Metodyka i technika doBwiadcze1 rolniczych
Do%wiadczenie (eksperyment) jest to metoda dzia4a, na obiektach materialnych,
pozwalaj9ca obserwowaK okre:lone reakcje i zjawiska w warunkach kontrolowanych.
Eksperymenty wykonuje si; w celu potwierdzenia lub negacji okre%lonej teorii, która z jednej
strony okre:la :ci:le warunki eksperymentu, za: z drugiej nadaje sens uzyskanej w wyniku
eksperymentu obserwacji. W4a:nie weryfikowana przez do:wiadczenie teoria decyduje, co
w danym eksperymencie jest w4a:ciw9 obserwacj9, a co tylko nieistotnym jego zak4óceniem.
Nauki przyrodnicze, które nale79 do obszaru naszych zainteresowa,, rozwijaj9 si; g4ównie
poprzez :wiadome eksperymenty realizowane w znanych i kontrolowanych warunkach. Je7eli
za kryterium podzia4u do:wiadcze, przyjmiemy warunki ich zak4adania i prowadzenia, to
mo7na je podzieliK na eksperymenty w warunkach sztucznych (laboratoryjnych) oraz
eksperymenty w naturalnych warunkach polowych. Spora cz;:K wiedzy wszelkich nauk
pochodzi te7 z bezpo:rednich obserwacji zjawisk zachodz9cych w otaczaj9cym nas :wiecie.
Eksperyment bowiem, jest swojego rodzaju pytaniem jakie teoria zadaje naturze. Tak wi;c np.
ankietyzacja w ograniczeniu do pewnego obszaru bada, te7 jest eksperymentem.
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
55
Do%wiadczenia wazonowe, zak4adane i prowadzone przede wszystkim w hali wegetacyjnej,
jak równie7 w szklarniach, fitotronach i komorach klimatyzacyjnych, stanowi9 wst;pny etap
bada, rolniczych np. w zakresie nawo7enia czy ochrony ro:lin. Mog9 cz;sto stanowiK
uzupe4nienie do:wiadcze, polowych, w których trudno ujednoliciK czy kontrolowaK warunki
zewn;trzne.
Do%wiadczenia szklarniowe, mog9 byK prowadzone w warunkach ca4kowicie
kontrolowanych lub cz;:ciowo zbli7onych do naturalnych. W nowoczesnych szklarniach
temperatura, wilgotno:K i temperatura powietrza s9 pod :cis49 kontrol9 przez ca4y rok. A wi;c
s9 tam warunki dla prowadzenia ró7nego typu do:wiadcze, o charakterze poznawczym
i aplikacyjnym przez ca4y rok. Zak4adamy je najcz;:ciej w wazonach, specjalnych skrzyniach
lub wr;cz na naturalnym, odpowiednio przygotowanym pod4o7u glebowym.
Do%wiadczenia w namiotach foliowych, najcz;:ciej s9 to do:wiadczenia z wczesn9 upraw9
ro:lin o wi;kszych wymaganiach cieplnych i nawozowych. Gleba pod namiotem mo7e stanowiK
w4a:ciwe pod4o7e lub te7 byK ca4kowicie wymieniona do okre:lonej g4;boko:ci lub tylko na
powierzchni, na której s9 rozstawione wazony czy specjalne skrzynie, podobnie jak w szklarni.
W do:wiadczeniach hodowlanych i fizjologicznych namioty s9 cz;sto stosowane, gdy7
umo7liwiaj9 na izolacj; ro:lin czy stworzenie warunków prowokacyjnych (np. suszy)
w okre:lonych fazach wzrostu i rozwoju ro:lin.
Do%wiadczenia polowe, maj9 na celu porównawcze badanie ilo:ci i jako:ci plonu ro:lin
uprawnych. Stanowi9 podstawow9 metod; prowadzenia bada, naukowych w zakresie uprawy,
nawo,enia, hodowli i ochrony ro%lin. Stanow9 jedn9 z metod upowszechniania i wdra7ania
osi9gni;K naukowych do praktyki rolniczej. Aby do:wiadczenia te mog4y spe4niaK te zadania,
musz9 byK zak4adane i prowadzone wg w4a:ciwej metodyki i techniki.
Podstawow9 jednostk1 w tych do:wiadczeniach jest poletko z którego obserwujemy
interesuj9cy nas wynik (najcz;:ciej liczbowy). Kolejnym elementem do:wiadczenia jest czynnik
do%wiadczalny. Jeden czynnik w do:wiadczeniu prostym (np. odmiany, nawo7enie, terminy,
itp.) lub dwa, trzy, itd. czynniki w do%wiadczeniu wieloczynnikowym. W obr;bie badanego
czynnika porównywane s9 obiekty czynnika (poziomy, warianty, kombinacje) w liczbie co
najmniej dwóch. Natomiast na ogó4 w praktyce nie stosuje wi;kszej liczby czynników ni7 trzy
(za wyj9tkiem bardzo specyficznych, np. do:wiadczenia o wielu czynnikach i ka7dy
rozpatrywany tylko na dwóch poziomach). W celu zapewnienia odpowiedniej wiarygodno:ci
i dok4adno:ci wyników oraz w4a:ciwej oceny b*+du do%wiadczalnego (miernika wp4ywu
czynników niekontrolowanych na zró7nicowanie wyników obiektowych), ka7dy z obiektów
nale7y powtórzyK kilkakrotnie (na ogó4 co najmniej trzykrotnie). Analizowane obiekty
w do:wiadczeniu s9 rozmieszczane na poletkach wg okre:lonej metody, zwanej uk*adem
do%wiadczalnym.
W do%wiadczeniach polowych du7e znaczenie ma zjawisko nierównomierno:ci glebowej,
która mo7e wyst;powaK na polu i która jest przyczyn9 nierównomierno:ci w plonowaniu ro:lin.
Taka zmienno:K glebowa wynika z przyczyn naturalnych i sztucznych. Mo7e ona wyst;powaK
losowo jak i systematycznie. Zmienno:K losowa (fluktuacyjna), wyst;puj9ca na polu losowo, na
ogó4 tylko nieznacznie wp4ywa na wypaczenie wyników do:wiadczenia. Przed t9 zmienno:ci9
zabezpieczamy si; losowym przydzia*em obiektów do poletek.
Natomiast wyst;powanie zmienno:ci systematycznej jest bardziej niebezpieczne dla
do:wiadczenia. Ten rodzaj zmienno:ci wyra7a si; systematyczn9 zmian9 (wzrost lub spadek)
urodzajno:ci gleby w jednym kierunku pola. Dlatego te7 stosuje si; blokowanie poletek, tzn.
fragmenty pola rozlokowane wzd4u7 kierunku zmienno:ci systematycznej, zawieraj9ce poletka
charakteryzuj9ce si; tylko zmienno:ci9 losow9. Ogólnie mo7na stwierdziK, 7e podzia4
do:wiadczenia na bloki ma na celu wyodr;bnienie Sróde4 niejednorodno:ci w eksperymencie.
Z. Lauda ski, D. R. Ma kowski
56
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
2.1.1. DoBwiadczenie jednoczynnikowe — uk:ad ca:kowicie losowy
Model liniowy: yij = m + a j + eij
Poziomy Czynnika A w czterech powtórzeniach np. wazony
Plan do:wiadczenia
(nr obiektu, nr powtórzenia)
4,1
1,1
5,1
4,2
3,1
2,2
2,4
5,3
1,2
4,3
1,4
3,3
2,3
5,2
5,4
1,3
3,4
3,2
4,4
2,1
Tabela z danymi
Czynnik A – liczba nicieni w 100 ml ziemi
Cecha y – masa korzeni selera (gramy z wazonu)
1
0
6,8
8,2
6,9
7,0
2
50
6,4
6,3
6,3
5,6
Czynnik_A
3
100
6,0
6,1
6,2
6,3
4
200
5,8
4,8
6,0
5,4
5
400
5,5
4,9
4,7
5,2
Tabela danych do oblicze, komputerowych
Obiekt Czynnik_A y – cecha
1
0
6,8
1
0
8,2
1
0
6,9
1
0
7,0
2
50
6,4
2
50
6,3
2
50
6,3
2
50
5,6
3
100
6,0
3
100
6,1
3
100
6,2
3
100
6,3
4
200
5,8
4
200
4,8
4
200
6,0
4
200
5,4
5
400
5,5
5
400
4,9
5
400
4,7
5
400
5,2
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
2.1.2. DoBwiadczenie jednoczynnikowe w losowanych blokach
Model liniowy: yij = m + g j + ai + eij
Plan do:wiadczenia
dla 5 odmian cykorii
Bloki
1
2
~~~~
3
~~~~
4
4
1
~~
5
~~
4
3
2
~~
2
~~
5
Czynnik_A
1
4
~~
1
~~
3
2
5
~~
3
~~
1
5
3
~~
4
~~
2
Tabela z danymi
Odmiany cykorii jako poziomy czynnika A
Bloki
1
2
3
4
1
96,2
91,4
97,3
92,3
2
86,1
78,0
89,3
79,6
Czynnik A
3
4
97,3
82,1
99,9
81,0
91,7
84,4
90,3
78,7
5
90,9
86,3
84,0
88,9
Tabela danych do oblicze, komputerowych
Bloki Czynnik_A y – cecha
1
1
96,2
1
2
86,1
1
3
97,3
1
4
82,1
1
5
90,9
2
1
91,4
2
2
78,0
2
3
99,9
2
4
81,0
2
5
86,3
3
1
97,3
3
2
89,3
3
3
91,7
3
4
84,4
3
5
84,0
4
1
92,3
4
2
79,6
4
3
90,3
4
4
78,7
4
5
88,9
Z. Lauda ski, D. R. Ma kowski
57
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
58
2.1.3. Dwuczynnikowe doBwiadczenie w uk:adzie niezaleCnym
Model liniowy: yijk = m + rk + ai + b j + abij + eijk
Bloki _R
1
2
3
4
(3,1)
(2,4)
(3,4)
(1,5)
(2,2)
(1,3)
(3,2)
(1,3)
(1,4)
(1,4)
(2,3)
(3,5)
(i,j) Kombinacje czynników A&B
(3,3)
(2,2)
(1,5)
(3,2)
(1,3)
(2,1)
(1,1)
(2,5)
(1,2)
(1,2)
(2,1)
(2,3)
(2,4)
(1,1)
(3,3)
(1,4)
(3,5)
(3,1)
(2,1)
(1,5)
(3,4)
(1,2)
(2,4)
(3,5)
(1,1)
(2,5)
(2,2)
(1,3)
(1,2)
(2,1)
(3,4)
(3,1)
(2,2)
(3,3)
(3,2)
(2,4)
(1,4)
(3,5)
(2,3)
(3,4)
(2,5)
(3,2)
(2,3)
(3,1)
(3,3)
(2,5)
(1,5)
(1,1)
Wyszczególniamy bloki (tutaj 4), niekoniecznie obok siebie, które nast;pnie dzielimy na
poletka w liczbie kombinacji ka7dego z ka7dym (tzw. uk*ad krzy,owy) poziomów (3×5=15) dla
rozlosowania kombinacji czynników A i B.
yijk — obserwacja cechy z poletka,
m — efekt g4ówny do:wiadczenia,
rk — efekt k – tego bloku,
ai — efekt i – tego poziomu czynnika A,
b j — efekt j – tego poziomu czynnika B,
abij — efekt wspó4dzia4ania poziomu i – tego z j – tym,
eijk — efekt b4;du losowego.
2.1.4. Dwuczynnikowe doBwiadczenie w uk:adzie „split-plot”
(2)
Model liniowy: yijk = m + rk + ai + eik(1) + b j + abij + eijk
Bloki _R
1
2
3
4
Czynnik_A
3
2
1
1
3
2
3
2
1
2
1
3
1
4
4
5
2
3
2
3
4
4
3
5
3
2
1
2
4
4
1
2
1
3
4
3
Czynnik_B
2
3
5
1
1
5
5
4
5
2
1
2
5
1
2
3
3
1
4
5
2
1
2
4
4
5
3
4
5
2
3
1
3
5
5
1
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
59
Wyszczególniamy bloki (4), które dzielimy na podbloki dla rozlosowania poziomów
czynnika A (3), a nast;pnie dzielimy je na poletka (5) dla rozlosowania poziomów czynnika B.
yijk – obserwacja cechy z poletka,
m – efekt g4ówny do:wiadczenia,
rk – efekt k – tego bloku,
ai – efekt i – tego poziomu czynnika A,
eik(1) – efekt b4;du pierwszego,
b j – efekt j – tego poziomu czynnika B,
abij – efekt wspó4dzia4ania poziomu i – tego z j – tym,
(2)
eijk
– efekt b4;du drugiego.
2.1.5. Dwuczynnikowe doBwiadczenie w uk:adzie „split-blocks”
(3)
Model liniowy: yijk = m + rk + ai + eik(1) + b j + e(2)
jk + abij + eijk
Blok 1
Czynnik A
1
4
3
5
2
Blok 2
Czynnik A
4
1
3
2
5
Blok 3
Czynnik A
5
3
1
4
2
Czynnik B
2
1
1
3
4
3
4
3
2
4
1
2
Czynnik B
Czynnik B
Ka7dy zdefiniowany blok (tutaj 3) jest dzielony na pasy w kierunku poziomym np. dla
rozlosowania obiektów czynnika A (tutaj 5), oraz w kierunku pionowym np. dla rozlosowania
poziomów czynnika B (tutaj 4). Na przeci;ciu pasów otrzymujemy poletko dla kombinacji
odpowiednich poziomów badanych czynników Ai B j .
W literaturze przedmiotu uk4ad ten cz;sto nazywany jest uk*adem pasów prostok1tnych lub
uk*adem rozszczepionych bloków.
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
60
2.1.6. Kwadrat aci1ski
m
m
Model liniowy: yij( ) = wi + k j + am + eij( )
wiersz
1
2
3
4
1
1 (a)
2 (b)
4 (d)
3 (c)
kolumna
2
3
4 (d) 2 (b)
3 (c) 4 (d)
1 (a) 3 (c)
2 (b) 1 (a)
4
3 (c)
1 (a)
2 (b)
4 (d)
Wiersz Kolumna Czynnik_A y – cecha
1
1
a
82
1
2
d
88
1
3
b
138
1
4
c
74
2
1
b
106
2
2
c
118
2
3
d
65
2
4
a
86
3
1
d
74
3
2
a
91
3
3
c
92
3
4
b
107
4
1
c
115
4
2
b
107
4
3
a
86
4
4
d
105
Badana cecha (y) – plon w dkg/poletko (3,6 m2) 4 biotypów 4ubinu.
2.1.7. DoBwiadczenie dwuczynnikowe — wspó:dzia:anie czynników
Przyk*ad:
Badano plon handlowy w zale7no:ci od pi;ciu preparatów chwastobójczych i dwóch
terminów ich stosowania.
Tak wi;c mamy: czynnik A — preparaty chwastobójcze o 5 poziomach (obiektach), czyli
badano p = 5 ró7nych preparatów; czynnik B — terminy o q = 2 poziomach (obiektach),
odpowiednio (1) — po posadzeniu czosnku, (2) — po ukorzenieniu si; ro:lin. Do:wiadczenie
przeprowadzono w polu w sze:ciu powtórzeniach (blokach). Wielko:K poletka wynosi4a 7,2 m2.
Wyniki do:wiadczenia zestawione s9 w poni7szej tabeli:
Czynniki
A
B
1
1
1
2
2
1
2
2
3
1
3
2
4
1
4
2
5
1
5
2
1
2,67
2,92
2,10
2,75
2,48
3,36
2,45
2,26
2,12
1,37
2
2,86
2,10
2,36
2,25
2,62
2,00
2,47
1,68
1,92
1,90
Powtórzenia — Bloki
3
4
2,34
2,47
2,17
2,08
2,29
2,15
2,01
2,26
2,20
2,28
2,82
2,26
1,34
2,05
3,25
2,77
3,25
2,30
2,83
1,82
5
2,52
1,81
1,68
1,71
1,68
1,93
1,65
1,74
1,77
1,27
6
2,18
1,74
1,63
2,34
1,70
2,54
1,19
2,06
1,40
1,35
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
61
Jest to do:wiadczenie dwuczynnikowe za4o7one w uk4adzie niezale7nym, tzn. kombinacje
poziomów czynników s9 przyporz9dkowywane do poszczególnych poletek (jednostki
do:wiadczalne) w bloku równorz;dnie i niezale7nie w ka7dym z bloków, tzn. wtedy m.in.
istniej9 techniczne mo7liwo:ci wykonania wszelkich zabiegów niezale7nie na poszczególnych
poletkach. Dla przeanalizowania przedstawionych danych do:wiadczalnych zastosowaK metod;
analizy wariancji.
Model liniowy obserwacji z tego do:wiadczenia jest postaci:
yijk = m + rk + ai + b j + abij + eijk .
Na podstawie wyników yijk mamy do zweryfikowania trzy hipotezy:
H0 A :
5
a2
i =1 i
=0,
H0B :
2
= 0,
H 0 AB :
b2
j =1 j
5
2
i =1
j =1
abij2 = 0 .
Hipotezy te mówi9 o braku addytywnego dzia4ania i wspó4dzia4ania na wynik
do:wiadczenia czynników poddanych badaniu (wszystkie efekty s9 zerami), wobec hipotez
alternatywnych H1 A ; H1B ; H1 AB — nie wszystkie efekty s1 równe zeru.
Analiza wariancji
dród4o zmienno:ci
Bloki
Preparaty
Terminy
Wspó4dzia4anie
B49d
Ca4kowita
Stopnie
swobody
5
4
1
4
45
59
Suma
eredni kwadrat
kwadratów
4,43697
0,887394
1,29132
0,322831
0,0260417
0,0260417
1,77522
0,443804
7,16315
0,159181
14,6927
×
Test F
5,57
2,03
0,16
2,79
×
×
P_value
0,0004
0,1065
0,6878
0,0375
×
×
Z powy7szej tabeli wynika, 7e istotny wp4yw na ko,cowe wyniki eksperymentalne ma tylko
wspó4dzia4anie — wspólne oddzia4ywanie badanych czynników ( = 0,05 > 0,0375 ), natomiast
ich samodzielnego oddzia4ywania nie stwierdzamy (dla preparatów mamy relacj;:
= 0,05 < 0,1065 , podobnie dla terminów:
= 0,05 < 0, 6878 ). Istotno:K dla bloków
potwierdza nam, 7e w4a:ciwym wyborem by4 uk4ad losowanych bloków.
Mo7emy tutaj zaniechaK szczegó4owego analizowania :rednich dla poszczególnych
poziomów badanych czynników, a zaj9K si; tylko :rednimi interakcji czynników.
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
62
Interpretacji wspó7dzia7ania (interakcji)
Porównania rednich
(B) Terminy
1
2
erednie
1
2,507
2,137
2,322
2
2,035
2,220
2,128
(A) Preparaty
3
2,160
2,485
2,323
4
1,858
2,293
2,076
erednie
5
2,127
1,760
1,943
2,137
2,179
2,158
NIRT (0,05)(Terminy) = 0,2075 (liczba terminów q = 2 );
NIRT (0,05)(Preparaty) = 0,4628 (liczba preparatów p = 5 );
NIRT (0,05)(Terminy/Preparaty) = NIRT (0,05)(T) ×
p = 0,464;
NIRT (0,05)(Preparaty/Terminy) = NIRT (0,05)(P) ×
q = 0,655.
WprowadSmy poj;cie precyzji do:wiadczenia, której ocena jest równa se y
naszego do:wiadczenia mamy:
1
100% . Dla
se
0,159181
100% =
100% 18,5% ,
y
2,15817
co oznacza niew4a:ciw9 precyzj; (>15%). Prawdopodobnie niezbyt starannie do:wiadczenie
zosta4o wykonane.
Mo7na oczywi:cie graficznie inaczej przedstawiK nasze :rednie interakcji. Na poni7szym
rysunku bardziej widoczna jest ró7na reakcja :rednich plonów na zmiany poziomów badanych
czynników. Widoczna jest podobna reakcja preparatów nr 1 i 5, oba powoduj9 gorsze plony
przy stosowaniu w drugim terminie. Natomiast pozosta4e preparaty dzia4aj9 inaczej. Stosowanie
ich w drugim terminie powoduje zwy7k; plonów wzgl;dem pierwszego terminu, chocia7 ka7dy
z preparatów w ró7nym stopniu.
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
63
Przyk*ad analizy innego do:wiadczenia dwuczynnikowego
Dane pochodz9 z do:wiadczenia z kukurydz9, w którym jednym czynnikiem by4y odmiany
(8 odmian), drugim za: sposób ich traktowania, tzn. wyst;powa4a ochrona fungicydami przed
Kabatiell1 — zgorzel podstawy 4odygi oraz brak tej ochrony — czyli naturalna infekcja.
dr. zmienno:ci
Bloki
Odmiany (A)
Traktowanie (B)
Wspó4. A*B
B49d
St. sw.
2
7
1
7
30
Sum. kwd.
40,786
3121,358
1522,127
933,022
1040,461
er. kwd.
20,393
445,908
1522,127
133,289
34,682
Femp
P-stwo
0,588
12,857
43,888
3,843
<0,000005
<0,000005
0,00426
2.1.8. Uk:ady bloków niekompletnych zrównowaConych
W do:wiadczeniach przeprowadzanych w uk4adzie losowanych bloków z ró7nych przyczyn
mo7e wynikaK brak kompletu obiektów w bloku. Braki te mog9 byK niezamierzone przez
eksperymentatora, ale tak7e i celowo przez niego planowane. Planowanie do:wiadcze,
w uk4adzie losowanych bloków niekompletnych wynika z potrzeby przebadania wi;kszej liczby
obiektów, a zastosowanie uk4adu losowanych bloków kompletnych jest z ró7nych wzgl;dów
niewskazane lub niemo7liwe do wykonania. Czym charakteryzuje si; taki uk4ad zrównowa7ony
o niekompletnych blokach?
Otó7, je7eli ka7dy blok zawiera t; sam9 liczb; badanych obiektów i s9 one ustawione w ten
sposób, 7e ka7da para obiektów wyst;puje razem w jednakowej liczbie bloków, to uk4ad taki
nazywamy zrównowa,onym. Wychodz9c z powy7szej charakterystyki i oznaczaj9c przez
p — ogóln9 liczb; obiektów, q — liczb; bloków, k — liczb; obiektów w bloku (k < p),
r — liczb; powtórze, (replikacji) ka7dego obiektu, a przez - — liczb; bloków w których
wyst;puje jednocze:nie ka7da para obiektów, to mamy dwie równo:ci:
p r = q k = n, -
(p
1) = r ( k 1) ,
przy czym pierwsza okre:la ogóln9 liczb; obserwacji, druga — ogóln9 liczb; spotka,
ka7dego obiektu z pozosta4ymi obiektami. Liczby — ( p, q, r , k , - ) oraz przedstawione powy7ej
relacje mi;dzy nimi, charakteryzuj9 uk*ad zrównowa,ony o blokach niekompletnych.
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
64
Jednym ze sposobów takiego grupowania jest 7mudne, bezpo:rednie przyporz9dkowanie
obiektów do poszczególnych bloków. S9 oczywi:cie 4atwiejsze sposoby, np. taki uk4ad mo7na
otrzymaK przez wybór okre:lonej liczby wierszy lub kolumn kwadratu *aci skiego (tzw. uk*ad
Youdena).
Uk*ad Youdena: p = q = 7, r = k = 4, - = 2
bl. 1 bl. 2 bl. 3 bl. 4 bl. 5 bl. 6 bl. 7
1
2
3
1
2
1
1
2
3
4
4
5
3
2
3
4
5
5
6
6
4
5
6
7
6
7
7
7
Jeszcze innym sposobem zapewnienia zrównowa7enia uk4adu bloków niekompletnych dla
testowania p = k 2 obiektów mo7e byK uk4ad powsta4y z k + 1 krat kwadratowych. Na przyk4ad
dla liczby obiektów p = k 2 = 32 = 9 przyk4adowe ich rozmieszczenie przy zastosowaniu uk4adu
kratowego typu k 2 jest postaci:
bl.1
1
2
3
I krata
bl.2
4
5
6
bl.3
7
8
9
bl.4
1
4
7
II krata
bl.5
2
5
8
bl.6
3
6
9
bl.7
1
5
9
III krata
bl.8
bl.9
2
3
6
4
7
8
bl.10
1
6
8
IV krata
bl.11 bl.12
2
3
4
5
9
7
W ten sposób otrzymali:my uk4ad q = k ( k + 1) bloków o k — obiektach w ka7dym
z bloków. Liczba powtórze, ka7dego obiektu wynosi r = k + 1 i jest równa liczbie krat, a liczba
spotka, pary obiektów jest równa jedno:ci ( p = 9, q = 12, r = 4, k = 3, - = 1, n = 36 ) . Zauwa7my,
7e je7eli potraktujemy kraty jako bloki, wtedy mamy uk4ad czterech bloków kompletnych.
Przyk*ad:
Badano wp4yw 9 kombinacji nawo7enia mineralnego na wielko:K plonu bulw pewnej
odmiany ziemniaka. Wyniki z do:wiadczenia, jak w poni7szej tabeli:
ob.1
ob.2
ob.3
ob.4
ob.5
ob.6
ob.7
ob.8
ob.9
bl.1
269
278
320
—
—
—
—
—
—
bl.2
—
—
—
248
332
353
—
—
—
bl.3
—
—
—
—
—
—
367
379
352
bl.4
249
—
—
256
—
—
311
—
—
bl.5
—
244
—
—
359
—
—
342
—
bl.6
—
—
339
—
—
330
—
—
342
bl.7
281
—
—
—
316
—
—
—
372
bl.8
—
290
—
—
—
332
353
—
—
bl.9 bl.10 bl.11 bl.12
—
251
—
—
—
—
267
—
329
—
—
304
272
—
276
—
—
—
—
350
—
301
—
—
—
—
—
339
362 351
—
—
—
—
360
—
Powy7sze dane mo7na analizowaK jako dane w uk4adzie kompletnym (bloki = kraty) lub w
uk4adzie 12-stu bloków niekompletnych. Jak lepiej dla konkretnego przypadku?
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
65
Efektywno:K w ocenie ró7nic mi;dzy :rednimi obiektowymi uk4adu niekompletnego
wzgl;dem kompletnego wynosi:
p se2( kompl )
k ( k + 1) se2( niekompl )
100% .
Dla naszego przyk4adu mamy odpowiadaj9c9 warto:K:
9 287,313
100% = 70% ,
12 307,833
która wskazuje na ma49 skuteczno:K zastosowania uk4adu bloków niekompletnych. Wynika to
zapewne z faktu ma4ej zmienno:ci glebowej (dla: krat P value = 0,171 , bloków
P value = 0, 456 ), natomiast stracili:my do:K du7o stopni swobody dla b4;du (24 do 16).
Nale7y s9dziK, 7e przy wi;kszej zmienno:ci glebowej uk4ad bloków niekompletnych by4by
skuteczniejszy w zastosowaniach. WeSmy przyk*adowe wyniki innego do:wiadczenia polowego
z ziemniakiem, zrealizowanego w identycznym uk4adzie kratowym bloków niekompletnych
o analizowanej cesze reprezentowanej tak7e przez plon bulw:
ob.1
ob.2
ob.3
ob.4
ob.5
ob.6
ob.7
ob.8
ob.9
bl.1 bl.2 bl.3 bl.4 bl.5 bl.6 bl.7 bl.8 bl.9 bl.10 bl.11 bl.12
43
—
—
48
—
—
50
—
—
45
—
—
44
—
—
— 52
—
—
46
—
—
50
—
42
—
—
— —
49
—
—
46
—
—
48
—
46
—
40
—
—
—
—
44
—
46
—
—
45
—
— 49
—
41
—
—
—
—
47
—
52
—
— —
53
—
42
—
42
—
—
—
—
57
55
—
—
—
50
—
—
—
61
—
—
56
— 57
—
—
—
55
47
—
—
—
—
56
— —
63
56
—
—
—
59
—
WskaSnik efektywno:ci bloków niekompletnych wzgl;dem kompletnych wynosi tutaj:
9 14,5972
100% = 824,3% .
12 2,36111
Zró7nicowanie bloków okaza4o si; tutaj wysoce istotne — dla krat Pvalue = 0,188 , natomiast
dla bloków Pvalue < 0,00005 .
Wybór uk4adu niekompletnego tutaj okaza4 si; w4a:ciwy.
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
66
2.1.9. Uk:ady bloków niekompletnych czABciowo zrównowaConych
Uk4ad kratowy zrównowa7ony, realizowany tylko w pewnym fragmencie staje si; uk4adem
cz;:ciowo zrównowa7onym. To znaczy takim uk4adem, w którym cz;:K obiektów badanych
spotyka si; jednocze:nie w tym samym bloku niekompletnym, ale b;d9 takie, które nie
spotykaj9 si; ani razu w którymkolwiek bloku. Na przyk4ad uk4ad opisany schematem:
bl.1
1
2
3
4
I krata
bl.2
bl.3
5
9
6
10
7
11
8
12
bl.4
13
14
15
16
II krata
bl.6
bl.7
2
3
6
7
10
11
14
15
bl.5
1
5
9
13
bl.8
4
8
12
16
III krata
bl.10 bl.11
2
3
5
8
12
9
15
14
bl.9
1
6
11
16
bl.12
4
7
10
13
Uk4ad ten stanowi9 trzy wybrane kraty z 5 krat uk4adu zrównowa7onego, przy pomocy
którego mo7na przeprowadziK eksperyment porównawczy z 16 obiektami. Efektywno:K tego
uk4adu niekompletnego w ocenie ró7nic mi;dzy :rednimi obiektowymi wzgl;dem uk4adu
kompletnego dla obiektów spotykaj1cych si; ze sob9 (ten wi;kszy, lepszy) wyra7a si; wzorem:
p ( k 1) se2( kompl )
k
(p
1) se2( niekompl )
100% .
Kolejnym przyk4adem uk4adów niekompletnych cz;:ciowo zrównowa7onych s9 tzw. kraty
prostok1tne. Liczba porównywanych obiektów jest iloczynem dwóch kolejnych liczb
ca4kowitych, tzn. jest okre:lona wzorem:
p = k ( k + 1) ,
gdzie pierwszy czynnik ( k ) okre:la liczb; obiektów w bloku, drugi za: ( k + 1 ) — liczb;
bloków w powtórzeniu.
W kratach prostok9tnych nie mo7na uzyskaK pe4nego zbalansowania (zrównowa7enia)
obiektów. Mo7liwe s9 tylko cz;:ciowo zrównowa7one, pojedyncze lub wielokrotne kraty
prostok9tne.
Przyk*ad kraty prostok9tnej czterokrotnie powtórzonej z 12 obiektami:
Krata
1
2
3
4
Blok
1
2
5
6
9
10
13
14
1
2
1
2
1
2
1
2
Obiekty
5
6
6
5
7
8
8
7
9
10
11
12
12
11
10
9
Blok
3
4
7
8
11
12
15
16
3
4
3
4
3
4
3
4
Obiekty
7
8
8
7
5
6
6
5
11
12
9
10
10
9
12
11
Nietrudno zauwa7yK, 7e w ka7dym bloku niekompletnym mamy po trzy obiekty a ka7da
krata (powtórzenie) zawiera cztery bloki. m9cznie wi;c mamy tutaj 16 bloków, a ka7dy obiekt
jest powtórzony 4 razy.
Przyk*ad analizy do:wiadczenia z zastosowaniem kraty prostok9tnej.
W do:wiadczeniu z 7ytem badano 17 rodów na tle 3 odmian. Do:wiadczenie wykonano w
uk4adzie 20 bloków niekompletnych (krata prostok1tna czterokrotnie powtórzona, tzn. cztery
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
67
obiekty w bloku, pi+- bloków w kracie — 49cznie p = k ( k + 1) = 4 5 = 20 obiektów w czterech
powtórzeniach, 80 wyników obserwacji). Badan9 cech9 jest plon z poletka (10m2).
dród4o zmienno:ci
Bloki
Obiekty
Reszta
St. sw.
19
19
41
Suma kwd.
11,6468
17,5452
28,4613
er. kwd.
0,6130
0,9234
0,6942
Femp
P-stwo
0,8830
1,3303
0,2175
Analiza wariancji nie wykazuje ró7nic mi;dzy warto:ciami :rednich plonów z poletka
badanych obiektów ( = 0, 2175 ). Precyzja (b49d) do:wiadczenia w ocenie ró7niK mi;dzy
warto:ciami :rednimi analizowanych obiektów zawiera4a si; w przedziale <8,26% – 9,48%>,
tzn. :rednia precyzja wynosi4a 8,92%. Warto:ci te wskazuj9, 7e do:wiadczenie by4o
przeprowadzone prawid4owo. Najprawdopodobniej te obiekty ze wzgl;du na warto:ci :rednie
jednak nie by4y zró7nicowane.
2.1.10. DoBwiadczenia wielokrotne
Terminem do%wiadczenia wielokrotne okre:lamy do:wiadczenia powtarzane w pe4nym
uk4adzie w ró7nych warunkach przyrodniczych. W przypadku do:wiadcze, rolniczych s9 to
przewa7nie do:wiadczenia z ró7nymi odmianami ro:lin uprawnych, tzw. odmianowe,
powtarzane w miejscowo:ciach i latach. Zmienne warunki przyrodnicze, reprezentowane przez
miejscowo:ci czy laboratoria, czy te7 zespól warunków klimatycznych, okre:lanych umownie
lata, stanowi9 kierunki klasyfikacji o charakterze losowym danych empirycznych
uzyskiwanych z do:wiadcze, wielokrotnych. Dlatego modele matematyczne stosowane w ich
opracowaniach b;d9 z regu4y modelami mieszanymi. Nie mniej jednak cz;sto czynnik lat lub
miejscowo%ci przyjmuje si; jako maj9ce charakter sta4y (ustalone lata, ustalone miejscowo:ci).
Obliczenia prowadz9ce do analizy wariancji wyników do:wiadczenia wielokrotnego poka7emy
na przyk4adzie eksperymentu w losowanych blokach z pi;cioma odmianami truskawek,
przeprowadzonego w dwóch kolejnych latach i potraktowanego jako uk4ad split-plot.
dród4o zmienno:ci
Bloki
Lata (A)
B49d I
Odmiany(B)
Interakcja: A×B
B49d II
St. sw.
3
1
3
4
4
24
Suma kwd.
27747,6
6029,48
1855,84
1196,36
1683,75
3355,59
er. kwd.
9249,21
6029,48
618,615
299,089
420,938
139,816
Femp
14,95
9,75
P-stwo
0,0261
0,0524
2,14
3,01
0,1070
0,0381
Na podstawie powy7szej analizy stwierdzamy istotnie ró7n9 reakcj; odmian truskawki na
warunki klimatyczne uwzgl;dnionych lat. Dobrze jest tutaj zauwa7yK, 7e wzi;ta tutaj do analiza
liczba lat jest stanowczo za ma4a. Na ogó4 minimalna liczba analizowanych lat powinna
wynosiK trzy. Oczywi:cie, analiza jednorocznego czy dwuletniego do:wiadczenia mo7e byK
zawsze traktowana jako analiza do:wiadczenia pilota7owego. Tak traktuj9c nasz9 analiz;
mo7emy zauwa7yK, 7e zachodz9 du7e szanse na to, by badane odmiany podejrzewaK
o wzajemne zró7nicowanie w :rednich plonach.
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
68
3. POJLCIE KONTRASTU
W analizie wariancji danych podlegaj9cych klasyfikacji weryfikuje si; tzw. globalne
hipotezy zerowe o braku wp4ywu danego kryterium klasyfikacji na analizowan9 cech;.
Odrzucenie takiej hipotezy globalnej nie oznacza wyst;powania ró7nic mi;dzy wszystkimi
:rednimi podklas wynikaj9cych z przyj;tej klasyfikacji. Przeciwnie, cz;sto pewne podgrupy
:rednich (czy efektów) nie s9 istotnie zró7nicowane, zw4aszcza gdy liczba podklas jest liczna.
Badacza za: cz;sto interesuj9 konkretne szczegó*owe porównania par :rednich lub wybranych
podgrup. Temu celowi s4u79 testy porówna, wielokrotnych oparte na najmniejszych istotnych
ró,nicach (NIR) mi;dzy :rednimi lub testy istotno:ci tzw. kontrastów. Testy te znajduj9
zastosowanie zarówno w klasyfikacji pojedynczej jak i wielokrotnej.
Poj;cie kontrastu zdefiniujemy na przyk4adzie klasyfikacji pojedynczej. Niech yi = y + aˆi
( i = 1,2,… , p ) b;dzie zbiorem porównywanych :rednich. Kontrastem nazywamy liniowa
funkcj; tych :rednich:
L=
p
i =1
tak9, 7e
p
c
i =1 i
ci yi =
p
ci
i =1
( y + aˆi ) =
p
i =1
ci aˆi ,
= 0 . Jest to porównanie cz;:ci :rednich opatrzonych wspó4czynnikami
dodatnimi z inn9 cz;:ci9 ze wspó4czynnikami ujemnymi. Widzimy te7, 7e kontrast mi;dzy
:rednimi jest równowa7ny kontrastowi mi;dzy ocenami efektów klasyfikacji.
Szczegó4owym przypadkiem kontrastu jest porównanie wybranej pary :rednich. Wtedy
jeden ze wspó4czynników ci jest (przy jednej :redniej) jest równy 1, a inny (przy drugiej
:redniej) jest równy –1, pozosta4e s9 zerami. Ocena b4;du dla takiego kontrastu jest równa:
sL =
gdzie
p
c2
i =1 i
se2
r
,
jest liczb9 sk4adników z których oblicza si; :redni9 yi .
St9d funkcj9 testow9 dla hipotezy, 7e ustalony kontrast L ma warto:K oczekiwan9 równ9
zero, tzn. hipotezy H 0 : E ( L ) = 0 , jest statystyka
p
temp
L
=
=
sL
i =1
p
ci yi
sL
=
i =1
ci aˆi
,
sL
o rozk4adzie t Studenta. Porównuj9c jej warto:K z warto:ci9 krytyczn9 t
;v ,
weryfikujemy nasz9
hipotez; zerow9 H 0 : E ( L ) = 0 .
Test t Studenta mo7e tu byK zast9piony testem F, bo statystyka
2
temp
= Femp =
r L2
se2
p
c2
i =1 i
,
ma rozk4ad F z 1 i v stopniami swobody.
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
69
Test ten mo7emy stosowaK do sprawdzenia serii niezale7nych kontrastów. Taki uk4ad
niezale7nych kontrastów stanowi9 kontrasty wzajemnie ortogonalne, tzn. L1 i L2 s9
ortogonalne, gdy
p
c
i =1 1i
c2i = 0 . Je:li porównujemy p :rednich, to istnieje p 1 kontrastów
ortogonalnych, przy czym
p 1
r L2j
j =1
p
c2
i =1 ji
=r
p
i =1
( yi
y ) = var A .
2
WróKmy do wyników do:wiadczenia z liczb9 nicieni. erednie yi dla poszczególnych
poziomów przedstawia poni7sza tabela:
L_nicieni
0
50
100
200
400
800 1600
yi
7,225 6,150 6,150 5,500 5,075 5,075 4,400
Jeste:my zainteresowani kontrastem przypadków o liczbie nicieni do 100 oraz powy7ej tej
liczby. Wektor naszych wspó4czynników ci spe4niaj9cy warunek
p
c
i =1 i
= 0 mo7e byK postaci
4 4 4
, , , 1, 1, 1, 1 .
3 3 3
St9d wyliczona warto:K L =
17,95
wynika z poni7szych oblicze,:
3
4
( 7, 225 + 6,15 + 6,15) 1 ( 5,5 + 5,075 + 5,075 + 4, 4 )
3
natomiast b49d kontrastu:
sL =
p
c2
i =1 i
se2
r
=
0,2325 28
= 0,5458 = 0,73655 ,
4 3
wobec tego odpowiednia statystyka jest równa:
temp =
17,95
= 8,124 ,
3 0,73655
która to wielko:K porównujemy ze statystyk9 t
;v = 21 ,
a to oznacza wysoce ( Pvalue < 0,00005 )
istotne zró7nicowanie :redniej trzech pierwszych poziomów wzgl;dem :redniej pozosta4ych
czterech poziomów badanego czynnika.
Istnieje wiele ró7nych testów dla porówna, wielokrotnych opartych o najmniejsz9 istotn9
ró7nic; mi;dzy :rednimi (NIR). We wszystkich przypadkach warto:K NIR obliczana jest
wed4ug tej samej zasady: jest ona iloczynem oceny b*+du ró,nicy %rednich sr przez
wspó*czynnik T ; p;v zapewniaj9cy okre:lony poziom istotno:ci
w porównaniach
— prawdopodobie,stwo udowodnienia we wszystkich porównaniach
wielokrotnych (
chocia7 raz ró7nicy, której nie ma). Wspó4czynnik ten zale7y nie tylko od , v — stopni
swobody dla b4;du, ale i od liczby p porównywanych :rednich. Jest zatem:
NIR = T
; p ;v
sr .
W zale7no:ci od sposobu dokonywanych porówna, wybieramy T
; p ;v
wersje NIR. Gdy p = 2 , test NIR pokrywa si; ze zwyk4ym testem t Studenta.
Z. Lauda ski, D. R. Ma kowski
otrzymuj9c ró7ne
70
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
Wyró7niamy m.in. NIR wed4ug Tukey’a, Newmana-Keulsa — oparte na stosowaniu
studentyzowanego rozst+pu, Duncana — oparte na stosowaniu rozk4adu zaproponowanego
przez autora, Dunnetta — do porówna, :rednich z których jedna jest traktowana jako kontrola,
itd.
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
71
4. TRANSFORMACJE DANYCH EMPIRYCZNYCH
Test F stosowany w analizie wariancji do sprawdzania hipotez zerowych wymaga za4o7e,
o sk4adnikach losowych modelu liniowego, które formu4ujemy jako:
— normalno:K rozk4adu sk4adników losowych,
— niezale7no:K b4;dów losowych od efektów klasyfikacji — stabilno:K b4;dów.
Poza tym w modelach z jedn9 obserwacj9 w podklasach, gdy interakcja najwy7szego rz;du
jest uwik4ana (nierozdzielna) ze sk4adnikiem losowym, zak4ada si; brak tej interakcji, czyli
addytywno:K pozosta4ych efektów (np. model do:wiadczenia jednoczynnikowego w uk4adzie
losowanych bloków). Ocenami tych sk4adników losowych s9 ró7nice mi;dzy danymi
empirycznymi a ocenami parametrów wyliczanych z tych danych. Na przyk4ad dla klasyfikacji
pojedynczej s9 one równe:
eˆij = yij
mˆ aˆi = yij
yi .
Modele liniowe (np. dla klasyfikacji pojedynczej:
yij = m + ai + eij ) s9 wygodnym
narz;dziem modelowania matematycznego prowadz9cego do analizy statystycznej danych
empirycznych. Jednak7e w wypadkach wielu cech analiza wariancji wed4ug modelu
wynikaj9cego z uk4adu do:wiadczalnego nie mo7e byK stosowana ze wzgl;du na niespe4nienie
za4o7e,. Trudno:K t; mo7na rozwi9zaK stosuj9c odpowiednio dobrane transformacje danych,
przybli7aj9ce rozk4ad zmiennych transformowanych do normalnego, a przynajmniej
stabilizuj9ce ich wariancj;. Nale7y pami;taK, 7e je7eli stosujemy transformacj; danych, wtedy
wszelkie wnioskowanie ogólne i szczegó4owe dotyczy danych transformowanych. Wszelkie
oceny :rednich wed4ug danych pocz9tkowych (przed transformacj9) mo7e mieK tylko sens
opisowy dla analizowanego zjawiska.
Zamiana procentów na stopnie k1towe (transformacja Blissa) jest wykonywania zgodnie ze
wzorem:
z = arcsin y ,
gdzie y procent osobników maj9cych (lub nie) badan9 cech;.
Je7eli dane empiryczne dotycz9 takich procentów jak np. wilgotno:K gleby, procent cukru
czy bia4ka, wtedy transformacja jest zb;dna. Natomiast je7eli w procentach wyrazimy nie
pewn9 cech; ilo:ciowa, lecz liczb; osobników, które maj9 dan9 cech; (lub nie), np. owoc jest
zdrowy lub pora7ony, nasiona uszkodzone lub nieuszkodzone, to mamy do czynienia
z rozk4adem dwumianowym, a zatem nale7y zastosowaK to przekszta4cenie przed wykonaniem
analizy wariancji. Je7eli liczb; osobników maj9cych (lub nie) badan9 cech; obliczono na
podstawie du7ej liczby przypadków (powy7ej 100) a warto:ci empiryczne mieszcz9 si; mi;dzy
20 a 80%, to mo7na stosowaK analiz; wariancji bez transformacji danych. Dla warto:ci
procentowych mniejszych ni7 20 oraz wi;kszych ni7 80 nale7y zawsze stosowaK transformacj;
Blissa.
Przekszta*cenia pierwiastkowe
Je7eli dane empiryczne chcemy opracowaK metod9 analizy wariancji, maj9 rozk4ad
Poissona, to przekszta4camy je wed4ug wzoru:
z=
y lub z =
y + 0,5 .
Zmienne y oznaczaK mo7e np. liczb; bakterii w polu widzenia, liczb; rozga4;zie, na
krzewie ró7y, itp. Przekszta4canie danych wed4ug wzoru z = y + 0,5 stosujemy dla ma4ych
warto:ci y < 10 , natomiast z = y dla warto:ci 10 y 50 . Dla
przeprowadzaK obliczenia analizy wariancji bez przekszta4ce,.
Z. Lauda ski, D. R. Ma kowski
y > 50
mo7na
72
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
Przekszta*cenia logarytmiczne
Zamian; danych empirycznych przeprowadzamy wed4ug wzoru:
z = log y lub z = log ( y + 1) – gdy wyst;puj9 warto:ci zerowe.
Stosujemy to przekszta4cenie najcz;:ciej w do:wiadczeniach z ochrony ro:lin, np. gdy
liczba szkodników wykazuje znaczne wahania mi;dzy poletkami, lub gdy wyst;puj9 dane
o szerokim rozrzucie, tzn. jedno-, dwu- lub trzycyfrowe. Nie jest zatem spe4nione za4o7enie
o jednakowych wariancjach porównywanych obiektów. Ponadto, je7eli stosunek odchylenia
standardowego do :redniej (czyli wspó4czynnik zmienno:ci) jest sta4y u porównywanych
obiektów, to równie7 nale7y stosowaK przekszta4cenia logarytmiczne.
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
5. ANALIZA WSPÓ
73
ZALENNO CI
Dotychczas rozpatrywane by4y zbiorowo%ci statystyczne (populacje) ze wzgl;du na jedn1
cech+. W rzeczywisto:ci zjawiska nie s9 izolowane wzajemnie, lecz zachodz9 mi;dzy nimi
mniej lub bardziej :cis4e zale7no:ci. Celem *1cznego badania zjawisk jest, czy mi+dzy nimi
zachodz1 jakie% zale,no%ci, jaka jest ich si*a, kszta*t i kierunek. Zjawiska opisywane s9
w praktyce przez warto:ci pewnych zmiennych. Wspó4zale7no:K mi;dzy tymi zmiennymi mo7e
byK dwojakiego rodzaju: funkcyjna i stochastyczna (probabilistyczna).
Zale7no:ci funkcyjna: y = f ( x ) , np. warto:K utargu u = z p , gdzie z — liczba sprzedanych
wyrobów po cenie p; pole kwadratu S = a 2 , gdzie mamy bezpo:redni9 zale7no:K pola od
wielko:ci boku kwadratu.
Zajmiemy si; szczególnym przypadkiem zale7no:ci stochastycznej, mianowicie zale,no%ci1
korelacyjn1. W najprostszym przypadku — populacji dwucechowej ( x, y ) mamy, 7e konkretnej
warto:ci jednej zmiennej odpowiada pewna przeci+tna (:rednia) warto:K drugiej zmiennej.
Wykrycie zwi1zku korelacyjnego i okre:lenie si4y tego zwi9zku przy pomocy wspó*czynnika
korelacji — rxy , pozwala na g4;bsz9 analiz; przyczynow1-skutkow1 procesów gospodarczych
czy zjawisk biologicznych. Tylko takie zjawiska mi;dzy którymi istnieje wi;S przyczynowoskutkowa jest sens rozpatrywaK. Zwi9zki takie mog9 byK jednostronne (np. nawo7enie a plon,
czyli jednostronne oddzia4ywanie przyczyny na skutek) lub dwustronne — przyczyna i skutek
mog9 zamieniaK si; miejscami, np. produkcja w sztukach (x) a cena jednostki (y) — poni7sza
tabela, ale tak7e zwi9zki o korelacji pozornej, np. liczba zarejestrowanych odbiorników
telewizyjnych — a liczba chorych umys4owo, liczba gniazd bocianich – a liczba urodzin.
i
x
y
Bxx
Byy
Bxy
1
800
18,2
640000
331,24
1450
2
950
16,8
902500
282,24
15960
3
4
5
6
7
8
1110
1200
1285
1525
1600
1850
16,5
15,5
13,8
12,7
12,0
10,8
1232100 1440000 1651225 2325625 2560000 3422500
272,25
240,25
190,44
161,29
144,00
116,64
18315
18600
17733
19367,5
19200
19980
Suma
10320
116,3
14173950
1738,35
143715,5
Zale,no%- korelacyjna polega na tym, 7e okre:lonym warto:ciom jednej zmiennej
odpowiadaj9 :ci:le okre:lone %rednie warto%ci drugiej zmiennej. Mo7emy zatem ustaliK, jak
zmieni si; warto%- %redniej zmiennej Y w zale7no:ci od zmiany warto:ci zmiennej niezale7nej
X. W praktyce — np. sformu4owanie: zwi+kszone nawo,enie powoduje wy,sze plony — oznacza
to, 7e zwi;kszaj9c nawo7enie w uprawie pewnej ro:liny nie zawsze uzyskamy zwi;kszone
plony. B;d9 przypadki zwi;kszonego, takiego samego i ni7szego plonu, ale uzyskiwane %rednie
plony przy wy,szym nawo,eniu b+d1 wy,sze od %rednich plonów uzyskiwanych przy ni,szym
nawo,eniu.
Nale7y stwierdziK, ,e je%li mi+dzy badanymi zmiennymi nie ma zwi1zku stochastycznego, to
nie ma równie, mi+dzy nimi zwi1zku korelacyjnego. Natomiast stwierdzenie odwrotne nie jest
prawdziwe. Wynika to z faktu, 7e okre:lonej liczbie identycznych wariantów zmiennej
odpowiada zawsze ta sama %rednia, ale dan9 %redni1 mo7na uzyskaK z ró7nej kombinacji
wariantów zmiennej. Np. wariantom (warto:ciom) cechy „plon” 62 i 68 odpowiada %rednia 65,
ale %redni1 65 mo7na uzyskaK tak7e z wariantów, jak 60 i 70, 10 i 120, itd.
W praktyce wi;c, badanie zwi9zków korelacyjnych ma sens jedynie wtedy, gdy mi;dzy
zmiennymi istnieje wi+V przyczynowo-skutkowa, daj9ca si; logicznie wyt4umaczyK. Badania
zale7no:ci typu korelacji pozornej (nawet istotnej statystycznie), raczej s9 pozbawione sensu.
Analiza zwi9zków mi;dzy zjawiskami powinna wi;c byK jako%ciowa i ilo%ciowa. Najpierw na
podstawie analizy merytorycznej nale7y uzasadniK logiczne wyst;powanie zwi9zku, a dopiero
potem mo7na przyst9piK do okre:lania stopnia (si4y) kierunku zale7no:ci.
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
74
W zwi9zkach przyczynowo-skutkowych mo7na wyró7niK zwi9zki dwustronne (wzajemne
oddzia4ywanie — przyczyny i skutki mo7na zamieniaK miejscami) i jednostronne (proste) —
w których mamy wyraSnie okre:lon9 przyczyn+ oraz skutek, a badanie zwi1zku korelacyjnego
jest mo7liwe tylko wtedy, gdy przynajmniej jedna cecha jest mierzalna. W celu okre:lenia
stopnia zale7no:ci mi;dzy zmiennymi mo7na pos4u7yK si; wspó*czynnikiem korelacji
Wspó*czynnik korelacji liniowej (Pearsona) mi;dzy cechami mierzalnymi – jednostkowym
przyrostom jednej zmiennej (przyczyny) towarzyszy, :rednio bior9c, sta4y przyrost wielko:ci
drugiej zmiennej (skutku).
Wspó4czynnik korelacji:
cov ( x, y )
rxy =
var x var y
,
gdzie:
n
cov xy =
i =1
( xi
n
xy
i =1 i i
=
var x = cov xx =
n
i =1
( xi
x )( yi
y) =
1
n
n
x
i =1 i
x) =
n
y,
i =1 i
n
x2
i =1 i
2
n
x
i =1 i
x
,
var y = cov yy i mamy, 7e
1 rxy
+1 .
Dla warto:ci powtarzaj9cych si; mamy:
cov xy =
=
gdzie: N =
k
n
i =1 i
k
n
i =1 i
( xi
k
nxy
i =1 i i i
x )( yi
1
N
y) =
k
nx
i =1 i i
n
ny
i =1 i i
,
, za: var x = cov xx , var y = cov yy .
W powy7szym przyk4adzie, mamy:
cov xy = 143715,5
(10320
116,3) / 8 =
= 143715,5 150027 = 6311,5
var x = 14173950
(10320
10320 ) / 8 = 861150 , var y = 1738,35
rxy =
=
(116,3 116,3) / 8 = 47,63875
6311,5
6311,5
=
=
861150 47,63875
41024109,56
6311,5
= 0,9854;
6405,0066
D = 97,1%
Mo7emy mówiK o korelacji liniowej ujemnej mi;dzy cechami — jedna cecha (zmienna)
o warto:ciach rosn9cych (np. produkcja), druga natomiast o warto:ciach malej9cych (np. ceny).
Wyrazem ujemnej zale,no%ci jest ujemna warto%- wspó*czynnika korelacji. Z korelacj9 liniow9
dodatni1 mamy do czynienia gdy zmianom rosn9cym jednej zmiennej towarzysz9 rosn9ce
zmiany drugiej (jak w poni7szym przyk4adzie — dane z urz;du stanu cywilnego).
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
i
y – Ona
x – On
Bxx
Byy
Bxy
1
18
19
324
361
342
2
19
21
361
441
399
var y = 5665
3
20
23
400
529
460
( 235
4
21
21
441
441
441
5
23
20
529
400
460
7
26
26
676
676
676
235 ) / 10 = 142,5 ; var x = 5834
( 235
cov xy = 5727
rxy =
6
24
23
576
529
552
8
27
25
729
625
675
( 238
75
9
27
26
729
676
702
10
30
34
900
1156
1020
Suma
235
238
5665
5834
5727
238 ) / 10 = 169,6 ;
238 ) / 10 = 134,0 ;
134,0
134
134
=
=
= 0,862 .
142,5 169,6
24168 155, 4606
Mamy tutaj wysoki wspó4czynnik korelacji liniowej.
Stopnie zale,no%ci korelacyjnej:
— rxy = 0,0 — brak (nie wyst;puje),
— 0,0 < rxy < 0,3 — s4aby stopie,,
— 0,3
rxy < 0,5 — :redni stopie,,
— 0,5
rxy < 0,7 — znaczny stopie,,
— 0,7
rxy < 0,9 — wysoki stopie,,
— 0,9
rxy < 1,0 — bardzo wysoki stopie,,
— rxy = 1,0 — zale7no:K funkcyjna.
Wspó4czynnik korelacji z próby w przypadku hipotezy o braku korelacji mi;dzy cechami
(tzn. wspó4czynnik korelacji w populacji jest równy zero — H 0 : C = 0 ) mo7e byK
wykorzystany do konstrukcji testu istotno:ci, tzn. dla H 0 : C = 0 , gdy7 zmienna postaci
temp =
remp
2
1 remp
n 2,
ma rozk4ad t Studenta o liczbie stopni swobody n 2 .
Je7eli temp
t
;n 2 ,
gdzie t
;n 2
jest warto:ci9 krytyczn9 testu t, to H 0 odrzucamy.
Z postaci zmiennej temp mo7na okre:liK warto:K krytyczn9 wspó4czynnika korelacji, której
przekroczenie przez warto:K remp :wiadczy o istotno:ci korelacji. Warto:K krytyczn9 r
;n 2
znajdujemy ze zwi9zku (st9d odpowiednie tablice)
r
;n 2
=
t
;n 2
n 2+t
.
;n 2
Kwadrat wspó4czynnika korelacji, wyra7ony w procentach, nosi nazw; wspó*czynnika
determinacji. Np. determinacja 50% odpowiada korelacji r = 0,707 , gdy7 r 2 = 0,5 .
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
76
Wspó*czynnik determinacji z ostatniego przyk4adu wynosi
D = rxy2 × 100% = 74,3% ,
tzn. w 74,3% zmiany jednej cechy (y — wiek 7on) s9 uwarunkowane zmianami cechy drugiej
(x — wiek m;7ów).
Wspó*czynnik korelacji kolejno%ciowej (rang, rz+du wielko%ci) Spearmana tak,e mo,e s*u,ydo opisu si*y korelacji dwóch cech, zw4aszcza wtedy, gdy maj9 charakter jako:ciowy i mo7na
obserwacje uporz9dkowaK, czyli nadaK odpowiednie rangi, jak na przyk4ad:
y – Ona
x – On
( y ) – rangi
q
q
( x)
18
19
1
19
21
2
20
23
3
21
21
4
23
20
5
24
23
6
26
26
7
27
25
8,5
27
26
8,5
30
34
10
235
238
55
– rangi
1
3,5
5,5
3,5
2
5,5
8,5
7
8,5
10
55
di
0
0
1,5
2,25
2,5
6,25
–0,5
0,25
–3
9
–0,5
0,25
1,5
2,25
–1,5
2,25
0
0
0
0
0
22,5
di2
x
gdzie d i = qi( )
y
qi( ) , za: wspó4czynnik korelacji Spearmana wyra7a si; wzorem:
rS = 1
6
(
n n
n
d2
i =1 i
2
)
1
=1
6 22,5
= 0,863636 .
10 99
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
77
6. FUNKCJA REGRESJI
Narz;dziem badania mechanizmu powi9za, mi;dzy zmiennymi (cechami) jest funkcja
regresji. Jest to analityczna metoda przyporz9dkowania :rednich warto:ci zmiennej obja%nianej
(zale7nej) konkretnym warto:ciom zmiennych obja%niaj1cych (niezale7nych). W najprostszym
przypadku (dwie zmienne), funkcj1 regresji I-go rodzaju zmiennej losowej Y wzgl;dem
zmiennej losowej X nazywamy:
E (Y | X = xi ) = m1 ( xi ) dla i = 1, 2,… , n.
Analogicznie mamy dla odwrotnej sytuacji
E ( X | Y = yi ) = m2 ( yi ) dla i = 1,2,…, n.
Analityczne postacie funkcji m1(xi) oraz m2(yi) s9 zwykle nieznane. Mo7na natomiast
wyznaczyK empiryczn9 lini; regresji na podstawie danych, 49cz9c punkty o wspó4rz;dnych
( x , y ) . Taki wykres pozwala na postawienie hipotezy na temat typu funkcji matematycznej
i
xi
(liniowa, wyk4adnicza, itp.) opisuj9cej mechanizm powi9za, mi;dzy badanymi cechami.
Mówimy wtedy o funkcji regresji II-go rodzaju. Tak, wi;c jest ona aproksymant9
(przybli7eniem) funkcji regresji I-go rodzaju, opisuj9cej zale7no:K korelacyjn9 zmiennych na
podstawie losowej próby.
Wybór analitycznej postaci funkcji regresji II-go rodzaju nie jest spraw9 4atw9. Decyzj; o
klasie funkcji nale7y podejmowaK nie tylko na podstawie wst;pnej analizy materia4u
statystycznego, ale równie7 na podstawie Sróde4 pozastatystycznych.
6.1. Regresja liniowa dwu zmiennych
Dane n par obserwacji (xi, yi) cech X i Y (zmienne losowe).
Regresja I-go rodzaju opisuj9ca zale7no:K liniow9 zmiennej losowej Y od zmiennej X jest
postaci
E(Y|X = xi) = m(xi) = bxi + a.
Model regresji II-go rodzaju (równanie) opisuj9ce powi9zanie (tutaj liniowe) mi;dzy
parami obserwacji (xi, yi)
yi = m(xi) + ei = bxi + a + ei, i = 1, 2, …, n,
gdzie m(xi) s9 warto:ciami :rednimi cechy Y dla warto:ci „xi” cechy X, za: „ei = yi – bxi – a” s9
odchyleniami (losowymi, czyli statystycznie nieistotnymi). Szukamy takiej prostej by suma
kwadratów warto:ci „ei” by4a jak najmniejsza (metoda najmniejszych kwadratów).
yi
ei
bxi + a
y = bx + a
xi
Z. Lauda ski, D. R. Ma kowski
78
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
Zapiszmy, 7e S = S ( a,b ) =
n
i =1
( yi
bxi
a ) (xi oraz yi s9 dane, a wi;c sta4e). S jest funkcj9
2
dwóch zmiennych a i b. Znalezienie minimum tej funkcji sprowadza si; do policzenia
pochodnych cz9stkowych:
n
DS
= 2 ( yi
Da
i =1
bxi
a) ,
n
DS
= 2 xi ( yi
Db
i =1
a) ,
bxi
i przyrównuj9c je do zera, znajdujemy ich jedyne miejsce zerowe – rozwi9zania ze wzgl;du na
a i b, równe:
cov ( x, y )
bˆ =
— wspó*czynnik, â = y bx — sta*a regresji,
varx
gdzie b̂ okre:la oczekiwany przyrost warto:ci :redniej cechy Y, gdy cecha X wzro:nie
o jednostk;.
Gdyby:my w podobny sposób znaleSli równanie zale7no:ci cechy X wzgl;dem Y (np.
x = cˆ + dˆ y ), wtedy okaza4oby si;, 7e wspó4czynnik korelacji mi;dzy tymi cechami jest równy
ˆˆ .
%redniej geometrycznej wspó4czynników regresji, tzn. rxy = bd
6.1.1. Badanie dok:adnoBci oszacowanej funkcji regresji
Zauwa7amy w ten sposób, 7e wspó*czynnik korelacji jest „miernikiem” znalezionego
zwi1zku regresyjnego, tzn. je7eli stwierdzamy istnienie korelacji, to tym samym stwierdzamy
tak7e zale,no%- regresyjn1.
Zauwa7my dalej, 7e wg naszego modelu danych
yi = m(xi) + ei = bxi + a + ei,
zmienno:K obserwacji yi jest sum9 zmienno:ci wynikaj9cej z warto:ci „bxi + a” oraz „ei”, tzn.
dla wektora próby y mamy, 7e:
ˆ + aˆ ) + var ê = var R + var E,
var y = var ( bx
czyli jest sum9 zmienno%ci wyja%nionej przez równanie regresji oraz zmienno%ci resztowej (nie
wyja%nionej przy pomocy regresji).
Mo7na wykazaK, 7e var R = b̂ cov ( x, y ) , tym samym
var E = var y – var R,
co pozwala zastosowaK iloraz
Femp =
varR varE ( n 2 ) varR sR2
:
= 2 ,
=
1
n 2
varE
s y.x
jako funkcj; testow9 dla hipotezy H 0 : b = 0 jako, 7e ma ona rozk4ad F z 1 – st. swobody
licznika i (n–2) st. swobody mianownika. Hipotez; zerow9 odrzucamy gdy wyliczona warto:K
Femp przekracza odpowiedni9 warto:K krytyczn9 F ,1,n-2. Odrzucenie hipotezy zerowej oznacza
istotno%- regresji cechy Y wzgl;dem cechy X.
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
79
Funkcj9 testow9 dla hipotezy H 0 : b = 0 mo7e byK zmienna postaci:
ˆ
temp = b
sbˆ
,
gdzie sb̂ — b*1d wspó*czynnika regresji z próby jest dany wzorem
2
s y.x
varE
.
sbˆ =
=
( n 2 ) varx varx
Gdy zachodzi relacja |temp| > t
,n-2,
wtedy H0 — odrzucamy.
6.1.2. Krzywe (przedzia:y) ufnoBci
W przypadku stwierdzenia istotno:ci regresji, mo7emy pos4ugiwaK si; znalezionym
równaniem w celu prognozowania warto:ci Y na podstawie pojawiaj9cych si; pomiarów
zmiennej X. B49d takiej prognozy, b;d9cy b4;dem warto:ci regresyjnej, jest równy
smˆ ( x ) = s
2
y.x
1 (x x)
+
n
varx
2
.
Podstawiaj9c do powy7szego wzoru x = 0, otrzymujemy b49d sta4ej regresji. W ten sposób
znajomo:K b4;dów estymatorów pozwala konstruowaK przedzia4y ufno:ci.
Dla sta4ej regresji: aˆ t
,n 2
dla wspó4czynnika regresji: bˆ t
,n 2
dla warto:ci regresyjnej: mˆ ( x ) t
gdzie t
,n 2
a aˆ + t
saˆ
,n 2
sbˆ
,n 2
b bˆ + t
smˆ ( x )
saˆ ,
,n 2
sbˆ ,
m ( x ) mˆ ( x ) + t
,n 2
smˆ ( x ) ,
jest warto:ci9 krytyczn9 rozk4adu t Studenta przy stopniach swobody (n–2)
i poziomie istotno:ci .
Prosta regresji z przedzia4ami ufno:ci i predykcji
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
80
6.2. Korelacja i regresja wielu zmiennych
Dotychczasowe rozwa7ania dotycz9ce wspó4zale7no:ci zjawisk masowych dotyczy4y
badania zwi9zku mi;dzy dwiema cechami. Bardzo cz;sto jeste:my jednak zainteresowani
wspó4zale7no:ci9 wielu zmiennych: Y — zm. zale7na i X1, X2, X3,…, Xk — zm. niezale7ne.
Problem korelacji i regresji mo7na badaK:
— wielorako — je:li uwzgl;dniamy oddzia4ywanie na zm. zale7n9 Y wszystkich zm.
niezale7nych X1, X2,…, Xk. Tutaj oblicza si; wspó4czynnik korelacji wielorakiej
i szacuje si; model regresji wielorakiej.
— cz9stkowo — je:li badamy wspó4zale7no:ci tylko niektórych zmiennych,
eliminuj9c wp4yw pozosta4ych. Tutaj oblicza si; wspó4czynniki korelacji
cz9stkowej i wspó4czynniki regresji cz9stkowej.
6.2.1. Korelacja i regresja wieloraka (wielu zmiennych)
Funkcj9 regresji I-go rodzaju zmiennej losowej Y (zmienna obja:niana, endogeniczna)
wzgl;dem zmiennych niezale7nych typu X (zmienne obja:niaj9ce, egzogeniczne) nazywamy:
E(Y|X1=x1i, X2=x2i,…, Xk=xki,) = m(x1i, x2i,…, xki,).
Model regresji II-go rodzaju (równanie) opisuj9ce powi9zanie (tutaj liniowe) mi;dzy
obserwacji (x1i, x2i,…, xki, yi)
yi = m ( xi ) = m ( x1i ,x2i ,xki ) + ei = b0 +
k
j =1
b j x ji + ei ,
dla i =1, 2,…, n, gdzie m(x1i, x2i,…, xki,) s9 warto:ciami :rednimi cechy Y dla warto:ci „x1i,
x2i,…, xki” cech typu X, za: „ei” s9 odchyleniami (losowymi, czyli statystycznie nieistotnymi).
Szukamy takich b0, b1, b2,…, bk by suma kwadratów warto:ci „ei” (
n
i =1
ei2 = min! ) by4a jak
najmniejsza (MNK).
Sformu4owanie problemu estymacji wspó4czynników regresji wielokrotnej jest podobne jak
dla przypadku dwóch zmiennych, ale z racji wi;kszej liczby zmiennych, zagadnieniem jest
bardziej z4o7onym numerycznie jak i w interpretacji wyników.
Z MNK uzyskujemy uk4ad równa, normalnych:
V bˆ = c , b0 = y bˆT x ,
gdzie x jest wektorem :rednich zmiennych obja:niaj9cych. V jest macierz9 sum kwadratów
i iloczynów odchyle, zmiennych obja:niaj9cych [ cov ( x p , xq ) ], c — wektor kolumnowy sum
iloczynów odchyle, zmiennych obja:niaj9cych i zmiennej obja:nianej [ cov ( x p , y ) ]. Elementy
tej macierzy i tego wektora wyliczamy ze wzorów:
cov ( x p , xq ) =
i
(x
x p )( xqi
pi
xq ) , (p, q = 1,2, …, k), cov ( x p , y ) =
i
(x
pi
x p ) ( yi
y).
Macierz V ma postaK:
( var x1
cov ( x1 x2 )
5 cov ( x x )
var x2
1 2
V =5
5
5*cov ( x1 xk ) cov ( x2 xk )
cov ( x1 xk ) )
cov ( x2 xk ) 4
4.
4
var xk 4+
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
81
Jak wiadomo, macierz V jest macierz9 symetryczn9 o wyznaczniku nieujemnym, i je7eli jest
nieosobliwa (wyznacznik dodatni), to istnieje macierz do niej odwrotna V 1 . Wtedy estymatory
cz9stkowych wspó4czynników regresji, czyli wektor b̂ , znajdujemy ze zwi9zku:
bˆ = V
1
c.
Ka7dy cz9stkowy wspó4czynnik regresji interpretujemy nast;puj9co: okre:la on oczekiwany
przyrost warto:ci :redniej cechy Y, gdy cecha Xp wzro:nie o jednostk;, a pozosta4e b;d9
ustalone.
Nast;pnie definiujemy zmienno:K resztow9 b4;du:
var E =
n
i =1
(y
mˆ ( xi ) )
i
2
oraz zmienno:K regresji
n
var R =
i =1
( mˆ ( x )
2
y ) = bˆT c .
i
Zachodzi zwi9zek:
var R + var E = var y .
Ta ostatnia równo:K pozwala zastosowaK iloraz
Femp =
( n k 1) varR = sR2 .
varR varE
:
=
k
n k 1
k varE
s y2 x
Je7eli hipoteza globalna H 0 : b = 0 zostanie odrzucona na poziomie istotno:ci , co
zachodzi wtedy, gdy Femp > F ;k ;n k 1 , to mo7emy przyst9piK do sprawdzania hipotez
szczegó4owych, 7e wybrany wspó4czynnik regresji bp jest zerem. Funkcja testowa ma postaK:
( p)
temp
=
bˆp
sbˆ
, gdzie sbˆ = s 2y x v pp ,
p
p
przy czym v pp jest elementem diagonalnym macierzy V 1 . Hipotez; H 0 : bp = 0 odrzucamy,
( p)
gdy temp
>t
;n k 1
, gdzie t
;n k 1
jest warto:ci9 krytyczn9 rozk4adu t Studenta.
( p)
<t
Zwykle zmienne, dla których temp
;n k 1
, odrzucamy z modelu regresji jako nieistotne
i powtarzamy analiz; wyliczaj9c ponownie wektor wspó4czynników regresji. Je:li równocze:nie
kilka ró7nych zmiennych obja:niaj9cych oka7e si; nieistotnymi, to odrzucamy tylko jedn9
z nich o najmniejszej warto:ci funkcji testowej t i powtarzamy analiz;. Nale7y zauwa7yK, 7e
test t pozwala na sprawdzenie istotno:ci wprowadzenia danej zmiennej do modelu, przy
za4o7eniu, 7e pozosta4e s9 tam uwzgl;dnione. St9d te7 rola innych zmiennych mo7e si; znacznie
zmieniK, gdy usuwamy któr9kolwiek ze zmiennych.
B49d warto:ci regresyjnej obliczamy ze wzoru:
(1
smˆ ( x ) = s y2 x 5 + ( x
*n
x) V
T
1
(x
Wspó4czynnik determinacji obliczamy ze wzoru:
R2 % =
Z. Lauda ski, D. R. Ma kowski
bT c
100% ,
var y
)
x )4 .
+
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
82
natomiast wzór R =
bˆT c
okre:la wspó4czynnik korelacji.
var y
Warto:ci wspó4czynnika korelacji nale79 do przedzia4u [ 0,1] . Interpretacja wspó4czynnika
korelacji i determinacji jest podobna jak dla przypadku dwuwymiarowego. Wspó4czynnik
determinacji okre:la cz;:K zmienno:ci cechy Y zdeterminowan9, obja:nion9 zale7no:ci9 od
zespo4u cech obja:niaj9cych. Natomiast im wspó4czynnik korelacji jest bli7szy jedno:ci, tym
zale7no:K Y od X 1 ,… , X k jest silniejsza.
Obliczenia w regresji wielokrotnej s9 bardzo pracoch4onne, przy czym pracoch4onno:K
ro:nie bardzo szybko w miar; wzrostu liczby zmiennych obja:niaj9cych. Oczywi:cie w dobie
komputerów oraz odpowiednich programów, nie jest to problem. Problemem jest natomiast
dopracowanie si; „najlepszego modelu” zale7no:ci cechy Y wzgl;dem cech typu X. Dla
uzyskania takiego celu proponowane s9 ró7ne procedury, np. regresj; kolejnych kroków
(regresja krokowa, etapowa, ang. stepwise).
Zastosowanie standaryzacji postaci z pi =
x pi
xp
sx p
wzgl;dem cechy Xp oraz vi =
yi
y
sy
wzgl;dem cechy Y i po opracowaniu poszukiwanego równania zale7no:ci regresyjnej Y
wzgl;dem zbioru cech X, pozwala na wzajemne porównywanie uzyskanych cz9stkowych
wspó4czynników regresji. Powsta4y one przecie7 ze standaryzowanych warto:ci (o :redniej zero
i wariancji jeden), i s9 przy tym niemianowane. Ta postaK równania regresji jest
wykorzystywana w porównawczej ocenie wp4ywu poszczególnych cech obja:niaj9cych na
cech; obja:nian9.
6.3. Modele linearyzowalne, regresja krzywoliniowa
W wielu dziedzinach, w których matematyka stosowana zajmuje poczesne miejsce, cz;sto
w zastosowaniach teorii regresji pojawiaj9 si; modele nieliniowe. W tych modelach szczególne
miejsce zajmuj9 modele linearyzowalne. S9 to modele daj9ce si; sprowadziK do modelu
liniowego przez odpowiedni9 transformacj; zmiennych. Takimi modelami, cz;sto stosowanymi
w praktyce s9 np. model pot;gowy
y = a x b dla x > 0,
y > 0, a > 0 ,
linearyzowalny po transformacji logarytmicznej zmiennych:
ln y = ln a + b ln x ,
( z = ln y, u = ln x ).
Model wyk4adniczy:
y = ea + bx ,
po transformacji postaci:
ln y = a + bx,
y >0.
Model wielomianowy:
y = b0 + b1 x + b2 x 2 +
+ bk x k ,
sprowadzaj9cy si; do modelu liniowego regresji wielokrotnej po prostym podstawieniu:
z1 = x, z2 = x 2 , z3 = x3 , itd.
Model ten jest najcz;:ciej stosowany w praktycznych zastosowaniach regresji
krzywoliniowej ze wzgl;du na ogromn9 ró7norodno:K kszta4tu krzywych wielomianowych oraz
fakt pozostawania zmiennej y bez transformacji w tym modelu.
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
83
Modele wielomianowe znajduj9 liczne zastosowania w zagadnienia biologicznych, np.
w modelowaniu zwi9zków plonów ro:lin uprawnych z 7yzno:ci9 gleby wyra7on9 zawarto:ci9
ró7nych sk4adników pokarmowych czy wnoszonych do gleby dawek ró7nych nawozów. Modele
wielomianowe sprawiaj9 k4opoty numeryczne, gdy7 kolejne pot;gi zmiennych egzogenicznych
i ich iloczyny s9 silnie skorelowane, a ponadto ich warto:ci ró7ni9 si; czasami o kilka rz;dów
wielko:ci, a kowariancje mi;dzy nimi ró7ni9 si; nawet o kilkana:cie rz;dów wielko:ci. Na
przyk4ad dla modelu nawozowego z X 1 = N , X 2 = P
y = b0,0 + b1,0 N + b0,1 P + b2,0 N 2 + b1,1 NP + b0,2 P 2 + b2,1 N 2 P +
,
gdy N i P przyjmuj9 warto:ci rz;du 102, to X 6 = N 2 P jest ju7 rz;du 106, a ich wariancje oraz
odpowiednie kowariancje mog9 osi9gaK warto:ci rz;du 1012. Mo7e to daK efekt wspó4liniowo:ci
kolumn macierzy kowariancji V , a tym samym macierz V b;dzie niemal osobliwa.
Uzyskana funkcja regresji nieliniowej (np. jak wy7ej, tzw. powierzchnia efektywno:ci),
mo7e byK wykorzystywana do wyznaczania cz9stkowych równa, regresji opisuj9cych zale7no:K
jednego z nawozów przy ustalonym poziomie nawo7enia drugim, poszukiwania optymalnych
dawek nawozów, optymalizacji efektywno:ci nawo7enia mineralnego, optymalizacji stosunku
(tutaj N : P) czy ustalenia mineralnego nawo7enia, niezb;dnego do uzyskania okre:lonej
wysoko:ci plonu.
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
84
7. REGRESJA W ANALIZIE WARIANCJI
Cz;sto w uk4adach sklasyfikowanych czynnik klasyfikuj9cy jest typu ilo:ciowego, jak np.
dawki nawozu mineralnego, terminy siewu, poziom pewnego sk4adnika w procesach
technologicznych, itp. Wykorzystuj9c wyniki pomiarów cechy badanej przy okre:lonych
poziomach czynnika, mo7na dokonaK oceny funkcji regresji opisuj9cej zale7no:K oczekiwanej
warto:ci badanej cechy ( m + ai ) od warto:ci xi poziomu i-tego czynnika. Funkcja ta dla
ka7dego i-tego poziomu ma postaK:
m ( xi ) = m + ai .
Je7eli znany jest a priori kszta4t funkcji m ( x ) , to zamiast szacowaK efekty ai , i tym samym
warto:ci funkcji regresji w wybranych punktach, mo7na bezpo:rednio przyst9piK do estymacji
parametrów funkcji regresji. W innych przypadkach, co najcz;:ciej wyst;puje, aproksymujemy
(przybli7amy) t; funkcj; wielomianami. Dla funkcji regresji m ( x ) w przypadku badania p
poziomów xi ( i = 1,2,…, p ) mo7na u7yK, co najwy7ej wielomianu stopnia p 1 postaci:
m ( x ) = b0 + b1 x + b2 + … + b p 1 x p 1 .
W praktycznych zastosowaniach poszukiwania wielomianu opisuj9cego zale7no:K
regresyjn9 :rednich wzgl;dem warto:ci poziomów czynnika ilo:ciowego, nie przekraczaj9
stopnia 5-tego. Najcz;:ciej poszukiwania ko,czymy na stopniu 3-cim. Oczywi:cie, je7eli liczba
poziomów p na to pozwala.
Dla zademonstrowania niniejszego zagadnienia, wykorzystajmy wyniki do:wiadczenia
z liczb9 nicieni, które to liczby ( xi ) stanowi9 kolejne poziomy badanego czynnika. Dla
realizacji tego zadania wystarczaj9ce s9 dane przedstawione w poni7szej tabeli, tzn. warto:ci xi ,
:rednie yi oraz liczby obserwacji ni dla poszczególnych poziomów:
Tabela danych
xi
yi
ni
0
50
100
200
400
800
1600
7,225
6,150
6,150
5,500
5,075
5,075
4,400
4
4
4
4
4
4
4
Jeste:my zainteresowani sprawdzeniem istotno:ci regresji liniowej :rednich badanej cechy
( yi ) wzgl;dem liczby nicieni ( xi ). W tym celu mo7e byK wystarczaj9ce wykonanie oblicze,
wynikaj9cych ze stosowania metody analizy regresji na :rednich obiektowych z wagami
równymi liczbie obserwacji, z jakich powsta4a odpowiednia warto:K :rednia. W naszym
wypadku suma kwadratów dla tak wyznaczonej regresji liniowej wynosi 14,1467, dla regresji
kwadratowej – 17,047 oraz dla kubicznej (stopnia 3-go) – 19,9846. St9d mo7emy wyznaczyK
sumy kwadratów dla testowania poszczególnych hipotez zerowych dotycz9cych istotno:ci
regresji liniowej, kwadratowej (suma kwadratów regresji kwadratowej minus suma kwadratów
regresji liniowej), kubicznej (suma kwadratów regresji kubicznej minus suma kwadratów
regresji kwadratowej) oraz pozosta4ych regresji stopni wy7szych.
dród4o zmienno:ci
Obiekty
W tym efekty:
— Liniowy
— Kwadratowy
— Kubiczny
Reszta
B49d losowy
Ca4kowita
St. sw.
Suma kwd.
er. kwd.
Femp
P-stwo
6
20,9071
3,4845
14,987
0,00000126
1
1
1
3
21
27
14,1467
2,9003
2,9376
0,9225
4,8825
25,7896
14,1467
2,9003
2,9376
0,3075
0,2325
×
60,846
12,474
12,635
1,323
×
×
0,00000012
0,00197792
0,00187455
0,26298467
×
×
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
85
8. ANALIZA KOWARIANCJI
Analiza wariancji pozwala porównaK obiekty pod wzgl;dem pewnej cechy, gdy podlega ona
dla ka7dego obiektu tylko zmienno:ci przypadkowej (losowej) i nie jest równocze:nie
uzale7niona od innych cech, których wp4yw mo7na okre:liK liczbowo. Cz;sto bywa tak, 7e
badana cecha y uwarunkowana jest wp4ywem innych cech x1 , x2 ,… , xk daj9cych si; zmierzyK.
Mog9 one przedstawiaK zmienne losowe lub rzeczywiste. S9 to zmienne towarzysz1ce cesze y
i zak*ócaj1ce jej prawid4ow9 ocen;. Chodzi o to, by wyeliminowaK wp4yw tych zmiennych
towarzysz9cych na ko,cow9 ocen; obiektów wed4ug badanej cechy. Tak9 metod9 oceny jest
metoda analizy kowariancji. Wykorzystuje ona mi;dzy innymi analiz; regresji zmiennej y
wzgl;dem zmiennych towarzysz9cych x1 , x2 ,… , xk . Zajmiemy si; takim przypadkiem o jednej
zmiennej towarzysz9cej wzgl;dem której zak4adamy zale7no:K liniow9 naszej badanej cechy.
Przyk*ad:
Porównywano plon nasion wybranych trzech biotypów pewnego gatunku ro:liny.
Do:wiadczenie za4o7ono metod9 losowanych bloków w 4 powtórzeniach. Rozstawa dla
wszystkich biotypów by4a jednakowa, jednak zaobserwowano wypadni;cia ro:lin, które
wp4yn;4y na warto:K plonu.
Blok I
Blok II
Blok III
Blok IV
y
x
y
x
y
x
y
x
Bio-1 1,59 109 1,18 92 1,62 110 1,45 103
Bio-2 1,46 105 1,26 93 1,31 101 1,29 104
Bio-3 0,89 32 0,92 34 0,71 24 0,68 21
Model liniowy dla obserwacji z tego do:wiadczenia jest postaci:
yij = m + g j + ai + <
( xij
)
x + eij , i = 1, 2,3 ; j = 1, 2,3, 4 .
Zauwa7my, 7e do modelu obserwacji z uk4adu losowanych bloków zosta4 do*1czony
sk4adnik regresji cechy y wzgl;dem odchyle, warto:ci obserwowanych xij zmiennej
towarzysz9cej od warto:ci :redniej.
Wykonajmy dla tego do:wiadczenia analiz; wariancji oraz analiz; kowariancji – na czym
polega ró7nica w ko,cowych wnioskach?
Analiza wariancji
dród4o zmienno:ci St. sw. Suma kwd. er. kwd. Femp P-stwo
Bloki
3
0,0689333 0,0229778 1,14 0,4056
Biotypy
2
0,977867 0,488933 24,27 0,0013
B49d losowy
6
0,120867 0,0201444 ×
×
Ca4kowita
11
1,16767
×
×
×
Analiza kowariancji
dród4o zmienno:ci St. sw.
Regresja
1
Bloki
3
Biotypy
2
B49d losowy
5
Ca4kowita
11
Z. Lauda ski, D. R. Ma kowski
Suma kwd. er. kwd. Femp
0,100647 0,100647 24,89
0,0049802 0,0016601 0,41
0,0560219 0,0280109 6,93
0,0202196 0,0040439 ×
1,16767
×
×
P-stwo
0,0041
0,7528
0,0362
×
×
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
86
Analiza szczegó4owa
yi
y1
y2
y3
y1
y1
y2
y2
y3
y3
1,46
1,33
0,80
0,13
0,66
0,53
Anova
NIRTuk 0,05
×
×
×
0,308
0,308
0,308
Ancova
NIRTuk 0,05
yi
0,96434
0,88643
1,73923
0,077909
–0,774884
–0,852793
×
×
×
0,3401
0,5960
0,3337
Analiza wariancji pozwala nam stwierdziK, 7e badane biotypy s9 ze sob9 zró7nicowane
istotnie ( Pvalue = 0,0013 ). Podobny wniosek uzyskujemy na podstawie analizy kowariancji
( Pvalue = 0,0362 ), uwzgl;dniaj9cej liczb; ro:lin na poletku. Dopiero analiza szczegó4owa
:rednich warto:ci dla biotypów pozwala oceniK, 7e to nie trzeci biotyp daje najni7szy :redni
plon (anova), ale wprost przeciwnie (ancova). Warto:K :redniego plonu zosta4a tutaj
poprawiona przez uwzgl;dnienie jednakowej liczby ro:lin dla badanych biotypów.
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
2
9. TESTY
9.1. Test zgodnoBci
87
2
Nieparametryczne testy istotno%ci, w których weryfikowana hipoteza dotycz9ca rozk4adu
badanej cechy w populacji generalnej nie precyzuje warto:ci parametrów tego rozk4adu
a jedynie zgodno%- z innymi rozk4adami (teoretycznymi lub rozk4adami innych populacji).
Jednym z najstarszych testów istotno:ci, maj9cy tutaj zastosowanie jest test zgodno%ci 2.
Nazwa ta pochodzi st9d, 7e statystyka testowa u7ywana przy weryfikacji hipotezy o zgodno%ci
wyników próby z rozk4adem populacji, ma asymptotyczny rozk4ad 2.
Test zgodno%ci 2 pozwala na sprawdzenie hipotezy, 7e populacja ma okre:lony typ
rozk4adu (tj. okre:lon9 postaK funkcyjn9 dystrybuanty). Mo7e to byK typ rozk4adu skokowego
lub ci9g4ego. Jedynym ograniczeniem w te%cie zgodno%ci 2 jest to, 7e n elementowa próba musi
byK du7a, bo wyniki jej dzielimy na pewne klasy warto%ci (np. w liczbie k klas).
Dla ka7dej klasy z rozk4adu hipotetycznego oblicza si; liczebno:ci teoretyczne ( npi ), które
porównuje si; z empirycznymi ( ni ) za pomoc9 statystyki:
2
=
k
( ni
npi )
2
npi
i =1
, n=
k
i =1
ni ,
k
i =1
pi = 1 .
Gdy rozbie7no:ci mi;dzy liczebno:ciami teoretycznymi a empirycznymi s9 zbyt du7e, to
hipoteza, 7e populacja ma ten w4a:nie rozk4ad teoretyczny, musi byK odrzucona. Na przyk4ad
w rzucie monet9 uzyskano 40 razy or*a oraz 60 razy reszk+. Czy mo7na uznaK, 7e moneta jest
symetryczna? NIE z prawdopodobie,stwem ryzyka 0,05 odrzucenia prawdziwej hipotezy
zerowej, gdy7
2
Mamy tutaj relacj;, 7e
( 40
=
2
emp
50 )
50
2
( 60
+
= 4 > 3,8415 =
50 )
50
2
=2+2=4.
2
0,05;1 .
9.1.1. ZgodnoBO z rozk:adem normalnym
Dla próby losowej o du7ej liczno:ci konstruujemy szeregi rozdzielcze — zestawienie
wskazuj9ce na rozk4ad warto:ci badanej cechy w próbie, który jest przybli7eniem rozk*adu
warto%ci cechy w populacji.
Budowa szeregu rozdzielczego z indywidualnych obserwacji polega na utworzeniu
odpowiednich klas (przedzia4ów), a nast;pnie zliczaniu liczby obserwacji w poszczególnych
klasach. Liczb; klas okre:lamy na ogó4 arbitralnie, kieruj9c si; jednak „zdrowym rozs9dkiem”
i znajomo:ci9 celu, któremu ma s4u7yK podzia4 zbiorowo:ci na klasy. Nale7y przy tym pami;taK
aby granice przedzia4ów klasowych by4y liczbami „okr9g4ymi”. Spotyka si; równie7 konkretne
wzory, za pomoc9 których mo7na orientacyjnie okre:liK liczb; klas w zale7no:ci od liczebno:ci
zbiorowo:ci, np. k 5log n .
Rozpatrzmy plony buraka cukrowego w dt/ha pochodz9ce bezpo:rednio z pól gospodarstw
produkcyjnych.
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
88
pi( )
1 0,524 0,00524
x 150
150<x 200 10 5,236 0,05236
200<x 250 5 2,618 0,02618
250<x 300 19 9,948 0,09948
300<x 350 29 15,183 0,15183
350<x 400 35 18,325 0,18325
400<x 450 34 17,801 0,17801
450<x 500 32 16,754 0,16754
500<x 550 15 7,853 0,07853
550<x 600 6 3,141 0,03141
600<x
5 2,618 0,02618
Ogó4em 191 100,000 1,00000
Klasy
ni
%
emp
Dane te pos4u79 nam do odpowiedzi na pytanie: „czy warto%ci plonów buraka maj1 rozk*ad
normalny?”.
Poni7szy histogram wielko:ci plonów buraka sugeruje du7e podobie,stwo mi;dzy
rozk*adem empirycznych warto:ci plonów a rozk*adem normalnym.
Liczba obserwacji
Rozk ad empiryczny plonów buraka cukrowego
45
40
35
30
25
20
15
10
5
0
Oczekiwane
Normalne
100 150 200 250 300 350 400 450 500 550 600 650
Dlaczego mamy tutaj 11 klas wielko:ci plonów? Otó7 orientacyjna liczba klas k spe4nia
warunek
k
5log n = 5log191 = 5 × 2, 281033 = 11, 40517
a liczba klas równa „11” daje nam zakres klasy równy „50” z jednoczesnym umiejscowieniem
warto:ci :redniej w :rodkowym (6) przedziale klasowym.
g1
g2
xmin
n
x
191 393,7 379,0 408,4 115
xmax R
s
650 535 103,9
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
89
Odpowiednio g1 i g 2 s9 granicami 95% przedzia4u ufno:ci dla warto:ci :redniej plonu
buraka cukrowego, tzn.
P { g1
#
g2} = P $ X
&
m
t0,05;190
S
n
S 9
: = 0,95 .
n;
X + t0,05;190
m
Badanie zgodno%ci analizowanej populacji z rozk*adem normalnym jest cz;sto stosowane
w praktyce jako, 7e szczególnie cz;sto zachodzi potrzeba sprawdzania tej7e hipotezy przed
zastosowaniem innych testów.
2
emp
Tabela obliczania statystyki testowej
( emp )
ni
Klasy
pi
(t )
(t )
pi
npi
(t )
ni
npi
(n
i
(t )
npi
n np ( ) )
(
) np( )
t
2
i
2
i
t
i
1,815
4,133
9,967
19,148
29,309
35,746
34,737
26,898
16,594
8,157
4,496
–0,815
5,867
–4,967
–0,148
–0,309
–0,746
–0,737
5,102
–1,594
–2,157
0,504
Ogó4em n = 191 1,00000 1,00000 191,000
0,000
x 150
150<x 200
200<x 250
250<x 300
300<x 350
350<x 400
400<x 450
450<x 500
500<x 550
550<x 600
600<x
1
10
5
19
29
35
34
32
15
6
5
0,00524 0,00950
0,05236 0,02164
0,02618 0,05218
0,09948 0,10025
0,15183 0,15345
0,18325 0,18715
0,17801 0,18187
0,16754 0,14083
0,07853 0,08688
0,03141 0,04271
0,02618 0,02354
0,6634
34,4189
24,6706
0,0219
0,0956
0,5560
0,5424
26,0347
2,5423
4,6528
0,2537
0,3656
8,3273
2,4752
0,0011
0,0033
0,0156
0,0156
0,9679
0,1532
0,5704
0,0564
2
emp
= 12,9516
Nale7y wyznaczyK elementy dla obliczenia warto:ci funkcji testowej
2
k
=
( ni
i =1
gdzie
Z=
X
prawdopodobie,stwa
m
pi = P { xi 1 < X
npi )
npi
xi } ,
2
,
natomiast
zmienna
. Wi;c:
p1 = P { X
#
150} = P $ Z
&
150 393,7 9
: = P {Z
103,9 ;
2,34552} =
= 1 F ( 2,34552 ) = 1 0,99050 = 0, 00950 ,
p2 = P {150 < X
200} = P { 2,34552 < Z
1,86429} =
= F ( 1,86429 ) F ( 2,34552 ) = 0,03114 0,00950 = 0,02164 ,
p3 = P {200 < X
250} = P { 1,86429 < Z
1,38306} =
= F ( 1,38306 ) F ( 1,86429 ) = 0,08332 0,03114 = 0,05218 ,
itd. dla pozosta4ych przedzia4ów klasowych.
Z. Lauda ski, D. R. Ma kowski
standaryzowana
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
90
Dla zweryfikowania hipotezy (zerowej) postaci „populacja plonów buraka cukrowego ma
2
rozk*ad normalny”, tak obliczon9 warto:K statystyki emp
porównujemy z warto%ci1 krytyczn1
testu
2
;k u 1 ,
gdzie:
— poziom istotno:ci (b*1d I-go rodzaju), k u 1 jest liczb9 stopni
swobody ( k — liczba klas, u — liczba parametrów szacowanych z próby), i je:li zachodzi
2
2
emp
; k u 1 , to hipotez+ zerow1 ( H 0 : rozk*ady empiryczny i teoretyczny s1 zgodne) nale7y
odrzuciK. W przeciwnym przypadku, tzn. gdy
2
emp
<
2
;k u 1 ,
to nie ma podstaw do odrzucenia
hipotezy zerowej. Oczywi:cie nie oznacza to, 7e mo7emy j9 przyj9K, lecz test
zbudowany, 7e im warto:K
W naszym przyk4adzie
2
2
jest tak
jest bli7sza zeru, tym hipoteza jest bardziej wiarygodna.
2
emp
= 12,9516 < 15,5073 =
2
0,05;8 ,
gdzie k u 1 = 11 2 1 = 8 .
Tak wi;c wnioskujemy, 7e rozk*ad warto%ci plonów buraka cukrowego jest rozk*adem
normalnym. Potwierdzaj9 to tak7e inne testy (Ko4mogorowa-Smirnowa i Lillieforsa).
Rozk ad empiryczny plonów buraka cukrowego
Liczba obserwacji
K-S d=,03539, p> .20;p Lillieforsa> .20
Chi-kwadrat(emp) = 12,9516 < 15,5073 = Chi-kwadrat(0,05;8)
45
40
35
30
25
20
15
10
5
0
Oczekiwane
Normalne
100 150 200 250 300 350 400 450 500 550 600 650
9.2. Test niezaleCnoBci
2
Przy badaniu populacji generalnej jednocze:nie ze wzgl;du na dwie cechy cz;sto interesuje
nas sprawdzenie hipotezy, czy cechy te s1 ze sob1 zwi1zane (zale,ne). Gdy obie cechy s9
mierzalne, pos4ugujemy si; wtedy najcz;:ciej poj;ciem korelacji i regresji. Gdy jednak
przynajmniej jedna z dwu badanych cech jest niemierzalna (tzn. ma jedynie kategorie
jako:ciowe), to badaj9c zwi9zek tych cech pos4ugujemy si; poj;ciem niezale,no%ci
stochastycznej odpowiednich dwóch zmiennych losowych. Jak wiadomo z rachunku
prawdopodobie,stwa, dwa zdarzenia losowe A i B s9 niezale,ne, je7eli zachodzi równo:K
P ( A B ) = P ( A) P ( B ) . Podobna jest definicja niezale,no%ci dwu zmiennych losowych X i Y.
Zmienne te s9 niezale,ne, gdy dla dystrybuant zachodzi równo:K F ( x, y ) = F1 ( x ) F2 ( y ) .
Stosowanym w praktyce test niezale,no%ci 2 jest testem istotno%ci pozwalaj9cym na
sprawdzenie, czy dwie badane cechy (niekoniecznie mierzalne) s9 niezale,ne. Test ten oparty
2
, z tym 7e hipotetycznymi
jest na tej samej statystyce co test zgodno%ci
prawdopodobie,stwami s9 oszacowane z próby prawdopodobie,stwa otrzymania równocze:nie
okre:lonej warto:ci (czy kategorii jako:ciowej) cechy X oraz Y, przy za4o7eniu niezale,no%ci
tych cech. Wymogiem tego testu jest du7a liczebno:K próby, której wyniki zosta4y rozdzielone
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
91
na odpowiednie grupy warto:ci (kategorie) ze wzgl;du na obie cechy. Sporz9dza si; zatem
odpowiedni9 tablic;, zwan9 tablic1 kontyngencji (lub asocjacji), która po wype4nieniu daje
macierz liczebno%ci empirycznych. Nak4ada si; na ni9 macierz liczebno%ci teoretycznych,
obliczonych przy za4o7eniu niezale7no:ci badanych cech.
Porównanie elementów obu macierzy, czego dokonuje si; przez zastosowanie statystyki
, daje odpowiedS, czy mo7na odrzuciK hipotez+ o niezale,no%ci cech na skutek wyst9pienia
zbyt du7ych ró7nic liczebno:ci empirycznych i teoretycznych.
2
Macierz liczebno:ci empirycznych
Y1 Y2
n11 n12
… …
nk1 nk 2
Kategorie X \ Y
X1
…
Xk
ni j
p. j
Liczebno:ci
brzegowe:
ni i =
Y
n1
…
nkr
…
…
…
…
ni1
ni 2 … ni
pi1
pi 2 … pi r
r
n
j =1 ij
,
ni j =
ni i . pi i
n1i p1i
… …
nk i pk i
nii
1
k
n
i =1 ij
,
przy
czym
zachodzi
ni j
ni i
, pi j =
.
nii
nii
Z za4o7enia o niezale,no%ci cech ( H 0 : cechy X i Y s1 niezale,ne jest prawdziwa) wynika, 7e
ni i ni j
ni i ni j
, czyli wielko:K nii pij =
jest liczebno%ci1 teoretyczn1 podklasy ( i, j ) .
pi i pi j = pij =
nii nii
nii
nii =
r
n
j =1 i j
=
k
n
i =1 i i
, a prawdopodobie,stwa brzegowe s9 równe: pi i =
Macierz liczebno:ci teoretycznych
Y1
Kategorie X \ Y
X1
X2
…
Xk
Y2
nii p11 nii p12
nii p21 nii p22
nii pk1 nii pk 2
… Y
… nii p1
… nii p2
…
…
… nii pk
Z elementów macierzy liczebno%ci empirycznych nij oraz elementów macierzy liczebno%ci
teoretycznych — nii pij , konstruujemy statystyk;:
2
emp
gdzie nii pij =
ni i ni j
nii
=
r
k
j =1
i =1
( nij
nii pij
nii pij
)
2
,
.
Statystyka ta ma przy za4o7eniu prawdziwo:ci hipotezy H 0 o niezale,no%ci cech,
asymptotyczny rozk4ad
2
Z. Lauda ski, D. R. Ma kowski
z (r–1)(k–1) stopniami swobody.
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
92
2
emp
Praktycznie wi;c, obliczon9 warto:K
porównujemy z warto:ci9 krytyczn9
2
;( r 1)( k 1) ,
i je7eli zajdzie nierówno:K
2
emp
2
;( r 1)( k 1)
,
to hipotez; H 0 o niezale,no%ci badanych cech nale,y odrzuci- — co w praktyce oznacza ich
zale,no%-. Gdy natomiast
2
emp
<
2
;( r 1)( k 1)
,
wtedy nie ma podstaw do odrzucenia hipotezy o niezale,no%ci badanych cech.
Przyk*ad:
W celu stwierdzenia, czy podanie chorym na pewn9 chorob; nowego leku przynosi popraw;
w ich stanie zdrowia, wylosowano dwie grupy pacjentów w jednakowym stopniu chorym.
Jednej grupie (120 osób) podawano nowy lek, a drugiej (80 osób) lek tradycyjny.
bez poprawy wyraSna poprawa wyzdrowienie ni i pi i
20 (0,195)
40 (0,180)
60 (0,225)
Badanym lekiem
120 0,6
39
36
45
45 (0,130)
20 (0,120)
15 (0,150)
80 0,4
Tradycyjnie
26
24
30
ni j
65
60
75
200
pi j
0,325
0,300
0,375
1
Leczeni X\Y
Mo7emy teraz obliczyK warto:K statystyki wed4ug znanego ju7 wzoru na
2
emp
.
Przeprowadzimy niezb;dne rachunki w tabeli, a liczebno%ci teoretyczne, wynikaj9ce z naszej
hipotezy zerowej s9 równe:
nii p11 =
n1i ni1 120 65
nn
120 60
=
= 39 , nii p12 = 1i i 2 =
= 36 ,
200
200
nii
nii
nii p13 =
n1i ni3 120 75
n n 80 65
=
= 45 , nii p21 = 2i i1 =
= 26 ,
nii
200
200
nii
nii p22 =
n n
n2i ni 2 80 60
80 75
=
= 24 , nii p23 = 2i i3 =
= 30 .
nii
200
200
nii
( i, j )
nij
nii pij
(1,1)
(1,2)
(1,3)
(2,1)
(2,2)
(2,3)
20
40
60
45
20
15
200
39
36
45
26
24
30
200
nij
nii pij
–19
4
15
19
–4
–15
0
( nij
nii pij )
361
16
225
361
16
225
2
( nij
nii pij )
2
nii pij
9,26
0,44
5,00
13,88
0,67
7,50
36,75
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
93
Obliczona statystyka:
2
emp
=
r
k
j =1
i =1
( nij
nii pij
nii pij
)
2
= 36,75
= 0,01 oraz liczby stopni swobody
dla przyj;tego poziomu istotno%ci
2
0,01;2
wyraSnie przewy7sza warto:K krytyczn9 (teoretyczn9), równ9 9, 21 =
(r
1)( k 1) = 2
. Zatem na poziomie
istotno:ci = 0,01 hipotez; H 0 o niezale,no%ci nale7y odrzuci@. Oznacza to, 7e podawanie
pacjentom nowego leku w sposób istotny poprawia ich stan zdrowia.
Miar9 oceny :cis4o:ci analizowanego zwi9zku mo7e byK m.in. wspó*czynnik asocjacji
Cramera
E2 =
2
emp
n.. min ( r 1, k 1)
36,75
= 0,18375 ,
200 min ( 2,1)
=
przyjmuj9cy warto:ci z przedzia4u [ 0;1] . St9d te7 mamy, 7e E = 0,18375 = 0,4287 , a im
warto:K E jest bli7sza jedno:ci, tym zale7no:K jest silniejsza.
9.3. ZgodnoBO rozk:adów empirycznych
Cz;sto zachodzi potrzeba sprawdzenia hipotezy, 7e dwie próby (lub wi;cej prób) pochodz9
z jednej populacji, czyli 7e te populacje maj9 ten sam rozk4ad. Tutaj, podobnie jak
w poprzednich przypadkach, tak7e ma zastosowanie test 2 .
Przyk*ad: Zosta4a sformu4owana hipoteza, 7e cz;sto:ci wyst;powania pewnej cechy (np. X)
w trzech populacjach generalnych s9 jednakowe. Na podstawie trzech losowych prób
zestawiono warto:ci obserwowane w macierz liczebno%ci empirycznych.
Liczba przypadków Pop. I Pop. II Pop. III
z cech9 X
45
89
111
bez cechy X
15
25
38
n. j
60
114
149
ni.
245
78
323
Uogólniaj9c nasz przyk4ad, mo7emy zapisaK:
Macierz liczebno:ci empirycznych
Kategorie X \Populacje Y
X1
X2
…
Xk
ni j
Z. Lauda ski, D. R. Ma kowski
Y1
Y2
n11
n21
…
nk1
ni i
… Y
n12
n11 n1i
n22 … n11 n2i
… … … …
nk 2 … nkr nk i
p1i
p2 i
…
pk i
ni1
ni 2 … ni
1
nii
pi i
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
94
Liczebno:ci
r
ni i =
brzegowe:
n
j =1 ij
ni j =
,
k
n
i =1 ij
,
przy
czym
zachodzi
ni i
, wyra7aj9
nii
hipotetyczny rozk*ad warto%ci cechy X w badanych populacjach. Z za4o7enia zgodno%ci
ni j ni i
jest liczebno%ci1 teoretyczn1 dla j-tej populacji
rozk*adów wynika, 7e wielko:K ni j pi i =
nii
Y oraz i-tej dla kategorii X.
r
nii =
n
j =1 i j
Widzimy
2
emp
2
=
k
n
i =1 i i
=
wi;c
r
k
j =1
i =1
identyczno:K
( nij
pi i =
, a prawdopodobie,stwa brzegowe równe
ni j pi i
)
oblicze,
prowadz9cych
do
wyznaczenia
statystyki
2
, a tak7e techniki testowania, z przypadkiem zastosowania testu
ni j pi i
jako testu niezale,no%ci.
ni1 p1i =
ni1n1i 60 245
n n 114 245
=
= 45,51 , ni2 p1i = i2 1i =
= 86,47 ,
323
323
nii
nii
ni3 p1i =
ni3n1i 149 245
n n 60 78
=14,49 ,
=
=113,02 , ni1 p2i = i1 2i =
nii
323
200
nii
ni2 p2i =
n n 149 78
ni2n2i 114 78
= 35,98 .
=
= 27,53 , ni3 p2i = i3 2i =
nii
nii
200
200
Macierz liczebno:ci empirycznych i teoretycznych
L. przypadków
Pop. I
Pop. II
Pop. III
z cech9 X
45 (45,51) 89 (86,47) 111 (113,02)
bez cechy X 15 (14,49) 25 (27,53) 38 (35,98)
ni j
60
114
149
2
emp
Obliczenie warto:ci statystyki
ni i
245
78
323
nie nastr;cza ju7 wi;kszych k4opotów. Mianowicie
mamy, 7e
2
emp
+
(15
Uzyskana warto:K
(
2
emp
( 45
=
= 0, 479 < 5,991 =
45,51)
45,51
14, 49 )
14, 49
2
emp
2
+
2
( 89
+
( 25
86, 47 )
86, 47
27,53)
27,53
2
+
2
(111
+
113,02 )
113,02
( 38
35,98 )
35,98
2
+
2
= 0,479 .
= 0, 479 jest mniejsza od warto:ci krytycznej (z tablic)
2
0,05;2 ).
2
0,05;2
Tym samym nie mamy podstaw do odrzucenia hipotezy
zerowej mówi9cej o tym, 7e cz;sto:K wyst;powania cechy X w badanych populacjach jest
jednakowa, czyli badane populacje ze wzgl;du na wyst+powanie cechy X s9 jednakowe.
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
95
10. KLASYFIKACJA DANYCH STATYSTYCZNYCH
Wa7nym elementem bada, empirycznych jest porównanie mi;dzy sob9 analizowanych
obiektów (ro:lin, zwierz9t, gospodarstw, przedsi;biorstw, itp.) Celem tych porówna, jest
zwykle odpowiedS na pytanie, czy obiekty bada, s9 do siebie podobne. Poziom oceny stopnia
podobie,stwa obiektów (cech) pozwala zaliczyK je do tej samej grupy (klasy) obiektów (cech)
lub wnioskowaK o braku podobie,stwa mi;dzy badanymi obiektami (cechami), a wi;c ich
zró7nicowaniu. W matematycznych metodach tak rozumianej klasyfikacji danych,
wykorzystuje si; zwykle pewne miary okre:laj9ce podobie,stwo par obiektów (cech). Taka
miara mo7e mieK charakter: miary odleg4o:ci (distance) lub miary blisko:ci (proximity). Miary
odleg4o:ci cechuj9 si; tym, 7e je7eli nast;puje ich wzrost — wtedy oznacza to zwi;kszenie
zró7nicowania mi;dzy obiektami (cechami). Miary blisko:ci — odwrotnie, tzn. gdy ich warto:K
ro:nie, wtedy malej9 ró7nice mi;dzy porównywalnymi obiektami (cechami).
W praktycznym stosowaniu poszczególnych miar (np. korzystaj9c z pakietów
statystycznych) nale7y pami;taK o charakterze posiadanych danych statystycznych oraz
o przedmiocie bada,.
10.1. Analiza skupie1 (Cluster analysis)
Analiza skupie, (taksonomia numeryczna) jest dziedzin9 wiedzy o zasadach porz9dkowania
obiektów, gdy nic nie wiadomo o ich strukturze (klasyfikacji). Nale7y t; struktur; (podzia4 na
klasy) dopiero odkryK, maj9c w dyspozycji wielocechowe dane statystyczne — opisuj9ce ka7dy
z obiektów. Podzia4 zbioru obiektów na klasy odbywa si; w oparciu pewnej miary okre:laj9cej
podobie,stwo par obiektów. Miara ta mo7e mieK charakter miary blisko:ci (proximity) lub
miary odleg4o:ci (distance). W dalszej cz;:ci przedstawiony jest do:K znaczny zbiór tych miar
maj9cych zastosowanie w obliczeniach zwi9zanych z zastosowaniem omawianej metody
i wyst;puj9cy w wielu pakietach statystycznych.
10.2. Miary odleg:oBci (Dissimilarity measure)
Zmienne ilo ciowe (interval),
n — liczba obserwacji lub cech.
Euklidesowa (Euclidean distance):
d ( x, y ) =
n
i =1
( xi
yi ) ,
2
Kwadrat Euklidesowej (squared Euclidean distance):
d ( x, y ) =
n
i =1
( xi
yi ) ,
2
Czebyszewa (Chebychev):
d ( x, y ) = max xi
yi ,
d ( x, y ) =
yi ,
1 i n
Miejska (Block / Manhatan):
n
i =1
xi
Minkowskiego (Minkowski):
(
d ( x, y ) = 5
*
Z. Lauda ski, D. R. Ma kowski
n
x
i =1 i
yi
p
1
)p
4+ =
p
n
x
i =1 i
yi
p
,
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
96
U7ytkownika (Customized):
(
d ( x, y ) = 5
*
n
x
i =1 i
p
yi
1
)r
4+ =
n
r
x
i =1 i
yi
p
.
Zmienne nominalne (counts),
nxi , n yi – liczby obserwacji i–tych warto:ci cechy X oraz Y, gdzie: N =
nx( i ) =
t
(
i
nxi
) (n
xi
+ n yi
N
) , n( ) = (
t
yi
i
) (n
n yi
+ n yi
xi
N
).
xi
nxi +
yi
Warto:K statystyki chi-kwadrat (Chi-squared):
d ( x, y ) =
(n
nx( i )
t
xi
nx( i )
xi
)
(n
2
+
t
n(yi )
t
yi
n(yi )
yi
)
2
,
t
Znormalizowana statystyka chi-kwadrat (Phi-squared):
(n
d ( x, y ) =
nx( i )
t
xi
nx( i )
)
+
t
xi
(n
2
yi
n(yi )
t
yi
n(yi )
)
2
t
N
.
Zmienne zerojedynkowe (binary),
wg tablicy kontyngencji:
Y\X
0
1
0
a
c
1
b
d
Euklidesowa (Euclidean):
d ( x, y ) = b + c ,
Kwadrat Euklidesowej (squared Euclidean):
d ( x, y ) = b + c ,
Ró7nica wielko:ci (size difference):
d ( x, y ) =
(b
c)
2
( a + b + c + d )2
! [ 0; ' ) ,
Ró7nica wzorców (pattern difference):
d ( x, y ) =
b c
( a + b + c + d )2
! [ 0;1] ,
Z. Lauda ski, D. R. Ma kowski
n yi ,
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
Zmienno:K (variance):
d ( x, y ) =
b+c
! [ 0; ' ) ,
4 (a + b + c + d )
Kszta4tu (shape):
d ( x, y ) =
( a + b + c + d ) (b + c) (b
( a + b + c + d )2
c)
2
,
Lance'a i Williamsa (Lance and Williams):
b+c
! [ 0;1] .
2 a+b+c
d ( x, y ) =
10.3. Miary bliskoBci / podobie1stwa (Similarity measure)
Zmienne ilo ciowe (interval),
n — liczba obserwacji lub cech.
Wspó4czynnik korelacji Pearsona (Pearson correlation):
p ( x, y ) =
i
i
( xi
( xi
x )( yi
x)
2
i
y)
( yi
y)
Odleg4o:K k9towa (cosine):
xy
i i i
p ( x, y ) =
x2
i i
y2
i i
Zmienne zerojedynkowe (binary),
wg tablicy kontyngencji:
Y\X
0
1
0
a
c
1
b
d
Miara Russela i Rao (Russel and Rao):
p ( x, y ) =
a
,
a+b+c+d
Miara zgodno:ci (simple matching):
p ( x, y ) =
a+d
,
a+b+c+d
Miara Jaccarda (Jaccard):
p ( x, y ) =
Z. Lauda ski, D. R. Ma kowski
a
,
a+b+c
.
2
.
97
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
98
Miara Czekanowskiego (Dice):
p ( x, y ) =
2a
,
2a + b + c
Miara Hamanna (Hamann):
p ( x, y ) =
( a + d ) (b + c ) !
a+b+c+d
[
1;1] ,
Wspó4czynnik Y Yule'a (Yule's Y):
p ( x, y ) =
ad
bc
! [ 1;1] ,
ad + bc
Wspó4czynnik Q Yule'a (Yule's Q):
p ( x, y ) =
ad bc
! [ 1;1] ,
ad + bc
Miara Ochiai (Ochiai):
p ( x, y ) =
a
a
! [ 0;1] ,
a+b a+c
Zerojedynkowa wersja wspó4czynnika korelacji Persona (Phi 4-point correlation):
p ( x, y ) =
ad bc
( a + b )( a + c )( b + d )( c + d )
! [ 0;1] ,
Miara rozproszenia (Dispersion):
p ( x, y ) =
ad bc
( a + b + c + d )2
! [ 1;1] .
10.4. Analiza skupie1 (cd.)
Celem stosowania metody analizy skupie, w badaniach empirycznych jest przede
wszystkim uzyskanie jednorodnych podgrup obiektów badania. Uzyskany w ten sposób podzia4,
oprócz „odkrycia” nieznanej struktury zjawiska, pozwala tak7e na wyodr;bnienie ich
zasadniczych cech (w4a:ciwo:ci).
Za4ó7my wi;c, 7e dany jest zbiór n – obiektów:
Q = {O1 , O2 ,
, On } ,
z których ka7dy opisany jest za pomoc9 k — cech: X 1 , X 2 ,
, X k . Celem niniejszej metody jest
podzia4 zbioru obiektów Q na klasy (skupienia, kategorie) — Qi ( i = 1, 2,… , m n ) obiektów
spe4niaj9cych warunki:
1)
Q1 + Q2 +
2)
Qi
Q i Qi
+ Qm = Q — suma tych klas daje ca4o:K zbioru obiektów,
, dla i = 1, 2,… , m n , gdzie
— zbiór pusty.
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
99
Co do typu kategorii (grup) obiektów Qi ( i = 1, 2,… , m n ) mo7na rozró7niK dwa przypadki:
a)
Qi
— tzn. niektóre obiekty z badanego zbioru mog9 nale7eK do wi;cej
Qj
ni7 jednego podzbioru jednorodnych obiektów. Z tak9 sytuacj9 spotykamy si; na
przyk4ad w szczegó4owej analizie porównawczej warto:ci :rednich obiektowych
w do:wiadczeniach czynnikowych z zastosowaniem wielokrotnych testów
istotno:ci (Tukey'a, Duncana, itp.),
b)
Qi
Qj =
— tzn. otrzymujemy roz49czne podzbiory badanych obiektów.
W ramach przypadku b) mo7na stosowaK jedn9 z dwóch technik grupowania:
1. Hierachiczne — w ramach których skupienia tworz9 binarne drzewa, tj. skupienia
wy7szego poziomu zawieraj9 w sobie skupienia z poziomu ni7szego.
2. Optymalizacyjno–iteracyjne — które dokonuj9 podzia4u zbioru badanych
obiektów na m wzajemnie roz49cznych podzbiorów, przy czym liczba podgrup
m jest ustalana przez badacza (np. metoda znana jako k–%rednich).
10.4.1. Hierarchiczne metody grupowania
W:ród hierarchicznych metod analizy skupie, mo7na wyró7niK nast;puj9ce metody
grupowania:
— aglomeracyjne — polegaj9ce na sukcesywnym 49czeniu skupie, (zak4ada si;, 7e
pocz9tkowo ka7dy obiekt tworzy skupienie), zob. rys. — od poziomu I-go do
poziomu IV-tego. Metody te w praktycznych zastosowaniach s9 najcz;:ciej
wykorzystywane. Typowym rezultatem dzia4ania tych metod s9 dendrogramy —
drzewa binarne, których w;z4y odpowiadaj9 utworzonym skupieniom.
— podzia*owe — polegaj9ce na sukcesywnym podziale zbioru obiektów (jedno
skupienie) na kolejne poziomy skupie, (na dwie cz;:ci, trzy cz;:ci, itp.), a7 do
momentu, gdy ka7dy obiekt b;dzie stanowi4 osobne skupienie, zob. rys. — od
poziomu IV-go do poziomu I-go.
IV
III
II
A
B
C
D
E
F
I
Powy7szy rysunek przedstawia grup; sze:ciu obiektów: A, B, C, D, E, F — jako poziom
I o sze:ciu skupieniach, które tworz9 kolejno: poziom II — o trzech skupieniach (AB, CD, EF),
poziom III — o dwóch skupieniach (ABCD, EF) oraz poziom IV — o jednym skupieniu
(ABCDEF).
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
100
W ramach poszczególnych metod grupowania rozró7niamy wiele sposobów obliczania
odleg4o:ci (podobie,stwa) pomi;dzy skupieniami. Cz;sto w pakietach dost;pne s9 nast;puj9ce
sposoby:
— :redniej odleg4o:ci mi;dzy skupieniami (Between-groups linkage) — odleg4o:K
mi;dzy skupieniami A i B traktowana jest jako :rednia arytmetyczna odleg4o:ci
mi;dzy wszystkimi parami obiektów nale79cych do skupie, A i B, tzn.
d ( A, B ) =
nA
nB
i =1
j =1
(
d OAi , OB j
n A nB
),
— :redniej odleg4o:ci wewn9trz skupie, (Within-groups linkage) — odleg4o:K
mi;dzy skupieniami A i B traktowana jest jako :rednia arytmetyczna odleg4o:ci
mi;dzy wszystkimi mo7liwymi parami obiektów nale79cych zarówno do
skupienia A jak i skupienia B, tzn.
d ( A, B ) =
nA
i
i =2
p =1
(
)
d OAi , OAp +
nA
( nA
nB
j
j =2
q =1
1)
2
+
nB
(
)
d OB j , OBq +
( nB
2
1)
nA
nB
i =1
j =1
(
d OAi , OB j
),
+ n A nB
— najbli7szego s9siedztwa, pojedynczego wi9zania (Nearest neighbor, single
linkage) — odleg4o:K mi;dzy skupieniami A i B traktowana jest jako odleg4o:K
mi;dzy najbli7szymi obiektami (najbli7szymi s9siadami) nale79cymi do tych
skupie,, tzn.
{(
d ( A, B ) = min d OAi , OB j
i, j
)} , i = 1, 2,…, n
A
, j = 1, 2,…, nB ,
— najdalszego s9siedztwa, pe4nego wi9zania (Furthest neighbor, complete linkage)
— odleg4o:K mi;dzy skupieniami A oraz B traktowana jest jako odleg4o:K mi;dzy
najbardziej odleg4ymi obiektami (najdalszymi s9siadami) nale79cymi
odpowiednio do skupie, A oraz B, tzn.
{(
d ( A, B ) = max d OAi , OB j
i, j
)} , i = 1, 2,…, n
A
, j = 1, 2,…, nB ,
— :rodka ci;7ko:ci (Centroid clustering) — odleg4o:K mi;dzy skupieniami A oraz B
traktowana jest jako odleg4o:K mi;dzy :rodkami ci;7ko:ci (punktem :rednich
w przestrzeni wielocechowej, zdefiniowanej przez analizowane cechy) obiektów
skupienia A oraz B, tzn.
d ( A, B ) = d ( x A , xB ) ,
gdzie: x A , xB s9 :rodkami ci;7ko:ci skupie, A oraz B,
— mediany (Median clustering) — odleg4o:K mi;dzy skupieniami A oraz B to
mediana odleg4o:ci (:rodkowa odleg4o:K) mi;dzy obiektami nale79cymi
odpowiednio do skupienia A oraz B, tzn.
{(
d ( A, B ) = mediana d OAi , OB j
i, j
)} ,
dla i = 1, 2,…, n A , j = 1, 2,…, nB ,
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
101
— Warda (Ward's method) — odleg4o:K mi;dzy skupieniami A oraz B traktowana
jest jako kwadraty odleg4o:ci mi;dzy :rodkami ci;7ko:ci skupie, a obiektami
poszczególnych skupie,, tzn. metoda ta do oszacowania odleg4o:ci mi;dzy
skupieniami wykorzystuje podej:cie analizy wariancji:
d ( A, B ) =
nA
i =1
(
)
d 2 OAi , x A +
nB
j =1
(
)
d 2 OB j , xB ,
gdzie: x A , xB s9 :rodkami ci;7ko:ci dla skupie, A i B.
Przy wszystkich wymienionych sposobach obliczania odleg4o:ci mi;dzy skupieniami,
wykorzystywana jest macierz odleg4o:ci (podobie,stwa) mi;dzy obiektami (skupieniami)
obliczana wed4ug miar oraz formu4 obliczeniowych przedstawionych wcze:niej.
10.4.2. Grupowanie metod@ k– rednich (k–means)
Metody optymalizacyjno–iteracyjne, polegaj9 na optymalizacji pewnej funkcji jako:ci
podzia4u zbioru obiektów na okre:lon9 (zadan9) liczb; skupie, (podgrup). Poszukiwanie
ko,cowych rozwi9za, uzyskuje si; poprzez uzyskiwanie kolejnych rozwi9za, (iteracji)
prowadz9cych do tego w4a:ciwego (ko,cowego) rozwi9zania. Ten proces w praktyce ko,czy
si;, gdy w dwóch kolejnych iteracjach nie nast9pi zmiana struktury skupie, (ewentualnie
uzyskania pewnej warto:ci progowej zmian jako:ci podzia4u) lub po wykonaniu pewnej
maksymalnej (ustalanej) liczby iteracji. W ca4ym tym procesie najcz;:ciej chodzi o to, by
w uzyskanym podziale zbioru obiektów na podgrupy, zró7nicowanie obiektów w podgrupach
wg wybranej miary by4o jak najmniejsze, za: mi;dzy grupami — jak najwi;ksze, tzn. by
skupienia w ustalonej liczbie by4y tak ró7ne, jak to tylko mo7liwe.
Rozwi9zanie tego typu problemu badawczego mo7na uzyskaK przy pomocy algorytmu
grupowania metod9 k–%rednich. Jest to procedura najcz;:ciej wykorzystywana w praktyce.
Funkcj; kryterium podzia4u zbioru obiektów na k podzbiorów mo7na zapisaK w postaci:
f (…) =
k
mi
i =1
j =1
( X ij
Xi
)
2
,
gdzie: X i — :rodek ci;7ko:ci (wielocechowy) i–tego skupienia (podgrupy), X ij — j–ty obiekt
(wielocechowy) w i–tym skupieniu, k — liczba skupie,, mi — liczba obiektów w i–tym
skupieniu. Celem metody k–%rednich jest wi;c znalezienie takiego podzia4u zbioru obiektów na
k skupie,, który minimalizuje warto:K powy7szej funkcji.
Zauwa7my tutaj pewne „podobie stwo” do metody jednoczynnikowej analizy wariancji.
Mianowicie w te:cie istotno:ci jednoczynnikowej analizy wariancji dla pojedynczej cechy
szacowane s9: zmienno%- mi+dzy grupami oraz zmienno%- wewn1trz grup dla weryfikacji
hipotezy o równo:ci warto:ci :rednich w grupach i im F — warto:K funkcji testowej jest
wi;ksza, tym jeste:my bardziej pewni, 7e warto:ci :rednie analizowanych grup s9
zró7nicowane. Natomiast w grupowaniu metod9 k–%rednich chcemy uzyskaK taki podzia4, aby
uzyskaK najbardziej istotne wyniki analizy wariancji. W sytuacji idealnego podzia4u na k –
skupie, otrzymaliby:my istotnie ró7ne :rednie w grupach dla ka7dej lub prawie ka7dej
z analizowanych cech. Wielko:K statystyki F pochodz9cej z analizy wariancji ka7dej cechy jest
wskaSnikiem tego, na ile dana cecha bierze udzia4 w dyskryminacji skupienia.
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
102
11. ANALIZA CZYNNIKOWA
U podstaw analizy czynnikowej le7y za4o7enie, 7e w zespole p cech { X i ; i = 1, 2,… , p} s9
ukryte czynniki, a w najprostszym przypadku jeden, b;d9ce Sród4em wspólnej informacji
tkwi9cej w nich. Celem analizy czynnikowej jest wykrycie tych wspólnych czynników,
odpowiedzialnych za zachowanie si; poszczególnych cech, czy te7 poszczególnych grup cech.
Tak wi;c analiza czynnikowa s4u7y tak7e do okre:lania (poszukiwania) grup cech podobnie
zachowuj9cych si; wed4ug ustalonych ocen zwi9zków mi;dzy cechami, na przyk4ad
wspó4czynników korelacji. Mo7na wi;c za4o7yK, 7e w poszukiwaniu wspólnych czynników
najcz;:ciej wykorzystujemy macierz korelacji mi;dzy poszczególnymi cechami analizowanego
zespo4u. Najbardziej upowszechnion9 metod9 wyznaczania czynników jest metoda sk*adowych
g*ównych Hotellinga, polegaj9ca na przypisaniu czynnika Z j wektorowi w*asnemu dla j — tej
warto%ci w*asnej macierzy korelacji. Natomiast kryterium Kaisera polega na tym, by do zespo4u
czynników braK te sk4adowe, dla których warto:K w4asna przekracza 1.
Mi;dzy czynnikami Z j ( j = 1, 2,…, q
p ) i zmiennymi X i zachodz9 zwi9zki liniowe dla
i = 1,2,… , p :
X i = ai1Z1 + a12 Z 2 +
+ aiq Z q + biU i =
q
a Z
j =1 ij j
+ biU i ,
a zapisane w notacji macierzowej jako:
(
)
X p×1 = A p×q Z q×1 + B p× p U p×1 , gdzie B = diag b1 , b2 ,… , bp .
Wspó4czynniki aij nosz9 nazw; *adunków czynnikowych czynników Z j na cech; X i .
Zmienne U i s9 sk*adnikami (czynnikami) specyficznymi w ka7dej zmiennej X i . Czynniki Z j
i U i s9 wewn;trznie i mi;dzy sob9 nieskorelowane. Natomiast wielko:K hi2 =
q
a2
j =1 ij
nazywamy zasobem wspólnej zmienno%ci cechy X i determinowanej czynnikami Z j , za:
wielko:K bi2 = 1 hi2 nazywamy wariancj1 specyficzn1.
Suma zasobów hi2 =
q
j =1
aij2 daje 49czn9 determinacj; zmienno:ci wszystkich X i przez
czynniki Z j . Poniewa7 suma wariancji zmiennych X i jest równa p , wi;c wspó4czynnik:
RX2 Z =
1
p
p
i =1
hi2 =
1
p
p
q
i =1 j =1
aij2 ,
jest zespo4owym wspó*czynnikiem determinacji. Suma kwadratów 4adunków mo7e byK
rozdzielona na cz;:ci, przypisane poszczególnym czynnikom Z j , tzn.
-j =
p
i =1
aij2
( j = 1, 2,…, q ) ,
okre:laj9c9 jego wag; w determinacji zmienno:ci zbioru { X i } .
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
103
11.1. Rotacje czynników, metoda varimax
Niech Q oznacza macierz korelacji zmiennych
{Xi} .
Oznaczaj9c przez A macierz
o elementach aij oraz p wierszach i q kolumnach, mo7emy zapisaK macierz korelacji
(
)
(
)
Q = AAT + V , gdzie B 2 = V , czyli V = diag b12 , b22 ,… , bp2 , za: Q = E XXT . Otó7 je7eli
macierz D jest macierz9 ortogonaln9, to transformacja czynników Z2 = ZD nie zmienia
struktury macierzy korelacji Q , poniewa7
( AD )( AD )T
= ADDT AT = AAT .
Transformacji D geometrycznie odpowiada obrót kierunków g4ównych okre:laj9cych
sk4adowe g4ówne. Mo7na dokonaK obrotu tak, aby 4adunki przy cechach maksymalnie si;
ró7nicowa4y, przez co otrzymuje si; ich prostsz9 interpretacj;. St9d warunek by warians
*adunków by4 maksymalny ( var a = max! ), prowadzi do metody varimax, daj9cej maksymalne
zró7nicowanie 4adunków w ramach czynnika.
Przyk*ad:
Dane pocz9tkowe i oceny warto:ci czynników g4ównych
Dane pocz9tkowe
Oceny
L
P X1 X2 X3 X4 X5
F1
F2
1 1,53 114,01 0,75 12,65 1,96 1,29966 –0,44444
2 0,18 79,53 0,67 13,30 5,28 0,16175 2,24022
3 1,90 105,63 0,85 12,62 1,71 1,54248 –0,70054
4 0,91 45,62 0,11 13,14 6,24 –0,87322 1,70228
5 1,27 79,48 0,50 12,95 3,61 0,37869 0,60940
6 1,52 52,08 0,36 12,57 4,10 –0,18745 –0,26739
7 1,32 83,87 0,58 12,77 2,53 0,57096 –0,07796
8 1,04 33,94 0,29 12,85 0,04 –0,53311 –0,81805
9 0,70 72,94 0,59 12,61 4,94 0,01145 0,44298
10 1,54 34,22 0,30 12,99 3,66 –0,34385 0,42427
11 0,75 50,39 0,46 12,68 6,45 –0,48357 0,92079
12 1,22 35,04 0,21 12,88 2,42 –0,62866 –0,10550
13 1,31 65,25 0,70 12,76 3,98 0,47475 0,30293
14 0,64 0,00 0,16 12,77 3,96 –1,52738 0,15888
15 0,00 39,65 0,30 12,75 4,12 –1,15052 0,52626
16 1,93 74,27 0,71 12,65 0,00 1,02120 –1,29301
17 2,70 96,93 0,77 12,87 1,32 1,79728 –0,56077
18 1,78 65,29 0,39 12,40 1,25 0,18555 –1,52887
19 1,71 70,57 0,52 12,46 1,36 0,45296 –1,28117
20 0,44 75,09 0,62 12,91 4,63 0,05342 1,08298
21 2,49 124,00 0,78 13,14 3,71 2,03699 0,90104
22 1,61 101,89 0,66 12,92 3,57 1,07240 0,54644
23 0,75 15,26 0,25 12,46 0,31 –1,09198 –1,55199
24 0,17 5,05 0,00 12,47 1,74 –1,96442 –1,02693
25 1,13 33,39 0,36 12,75 0,46 –0,42248 –0,91512
26 1,38 81,35 0,55 13,10 4,49 0,55698 1,16760
27 0,44 34,97 0,23 12,80 4,52 –1,08841 0,59665
28 0,47 17,89 0,11 12,71 3,53 –1,47427 –0,00743
29 1,40 60,57 0,48 12,30 0,92 0,06964 –1,71237
30 0,71 56,68 0,68 12,89 3,79 0,08317 0,66882
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
104
Dane pocz9tkowe — macierz korelacji liniowej
X1
X2
X3
X4
X5
X1
1
,631(**) ,555(**) –,030 –,399(*)
X2 ,631(**)
1
,895(**)
,244
,032
X3 ,555(**) ,895(**)
1
,163
–,045
X4 –,030
,244
,163
1
,533(**)
X5 –,399(*)
,032
–,045 ,533(**)
1
Analiza czynnikowa — zasoby zmienno:ci wspólnej, RX2 Z =
1
p
p
i =1
hi2 = 0,82
Pocz9tkowe Po wyodr;bnieniu Wariancja specyficzna
1,000
,759
0,241
1,000
,925
0,075
1,000
,855
0,145
1,000
,736
0,264
1,000
,823
0,177
X1
X2
X3
X4
X5
Metoda wyodr+bniania czynników — g*ównych sk*adowych.
%
skumulowany
Ogó4em
% wariancji
%
skumulowany
48,981
81,974
92,254
98,310
100,000
% wariancji
%
skumulowany
48,981
32,993
10,280
6,056
1,690
Sumy kwadratów
4adunków po rotacji
Ogó4em
% wariancji
2,449
1,650
,514
,303
,085
2,449
1,650
48,981
32,993
48,981
81,974
2,449
1,650
48,981
32,994
48,981
81,974
Wykres osypiska
2,5
2,0
WartoBO w:asna
1
2
3
4
5
Sumy kwadratów 4adunków po
wyodr;bnieniu
Ogó4em
Nr sk4adowej
Ca4kowita wyja:niona wariancja
Pocz9tkowe warto:ci
w4asne
1,5
1,0
0,5
0,0
1
2
3
4
5
Numer sk:adowej
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
105
Macierz sk4adowych
X2
X3
X1
X5
X4
Sk4adowa
1
2
,946 ,172
,919 ,100
,805 –,334
–,160 ,893
,188 ,837
Liczba wyodr+bnionych sk*adowych — 2.
Macierz rotowanych sk4adowych
X2
X3
X1
X5
X4
Sk4adowa
1
2
,946 ,174
,919 ,102
,805 –,332
–,162 ,893
,186 ,838
Metoda rotacji – Varimax z normalizacj1 Kaisera.
Rotacja osi1gn+*a zbie,no%- w 3 iteracjach.
Wykres sk:adowych w rozwi@zaniu rotowanym
X5
0,9
X4
Sk:adowa 2
0,6
0,3
X2
X3
0,0
X1
-0,3
-0,6
-0,9
-0,9
-0,6
-0,3
0,0
0,3
0,6
Sk:adowa 1
Uk4ad wspó4rz;dnych dwóch pierwszych sk4adowych (biplot)
Macierz wspó4czynników ocen g4ównych sk4adowych
X1
X2
X3
X4
X5
Z. Lauda ski, D. R. Ma kowski
Sk4adowa
1
2
,329 –,202
,386 ,105
,375 ,061
,076 ,508
–,066 ,541
0,9
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
106
Macierz kowariancji ocen g4ównych sk4adowych
Sk4adowa
1
2
1
1,000 ,000
2
,000 1,000
Wspó4czynniki korelacji mi;dzy cechami a „odkrytymi” czynnikami
X1
X2
X3
X4
X5
F1
F2
X1
1
,631(**)
,555(**)
–,030
–,399(*)
,805(**)
–,332
X2
,631(**)
1
,895(**)
,244
,032
,946(**)
,174
X3
,555(**)
,895(**)
1
,163
–,045
,919(**)
,102
X4
–,030
,244
,163
1
,533(**)
,186
,838(**)
X5
–,399(*)
,032
–,045
,533(**)
1
–,162
,893(**)
F1
,805(**)
,946(**)
,919(**)
,186
–,162
1
,000
F2
–,332
,174
,102
,838(**)
,893(**)
,000
1
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
107
III. SWICZENIA POKAZOWE
W ramach praktycznego wykorzystania prezentowanej wiedzy oraz prezentacji
analitycznego oprogramowania statystycznego, przyk4ady w ramach Kwicze, pokazowych b;d9
realizowane z wykorzystaniem Systemu SAS®. Jest to pakiet oprogramowania przeznaczonego
do analiz statystycznych. W jego sk4ad wchodzi :rodowisko programistyczne SAS®, aplikacja
graficzna SAS Enterprise Guide® oraz opcjonalnie :rodowisko JMP®. Szczegó4owe informacje
odno:nie prezentowanego oprogramowania, oraz pe4n9 dokumentacj; mo7na znaleSK na stronie:
http://www.sas.com/offices/europe/poland/. Dokumentacj; do modu4ów BASE SAS
i SAS/STAT w wersji elektronicznej do49czono do p4yty CD z materia4ami z niniejszego
szkolenia.
W opisie kodów procedur w j;zyku 4GL przyj;to nast;puj9c9 konwencj;:
— kolorem czarnym podano w4a:ciw9 procedur; 4GL;
— wielkimi literami podano polecenia sk4adni procedur;
— ma4ymi literami i kursyw9 podano miejsca odwo4a, do bibliotek/zbiorów lub
zmiennych ze zbiorów danych;
— kolorem niebieskim podano procedury uzupe4niaj9ce, dzi;ki którym mo7liwa jest
efektowniejsza prezentacja uzyskanych wyników (procedury te mo7na pomin9K);
— s4owo ‘opcje’ oznacza mo7liwo:K modyfikacji polece, poprzez dodawanie
ró7nego rodzaju opcji;
Sk4adnie procedur podano w wersji uproszczonej, to znaczy wymieniaj9c tylko omawiane
polecenia. Pe4na sk4adnia procedur znajduje si; w dokumentacji oprogramowania oraz
w plikach pomocy.
1. PRAWID
OWE PRZYGOTOWANIE DANYCH DO ANALIZ
Zdecydowana wi;kszo:K programów analitycznych wymaga specyficznego przygotowania
zbiorów danych do analiz statystycznych. Dane przygotowywane do oblicze, w Systemie SAS®
równie7 powinny byK w ten sposób przygotowane.
Dane zestawiane s9 w formie tabeli ‘p4askiej’, gdzie kolejne kolumny traktuje si; jako
kolejne zmienne (cechy), a wiersze jako kolejne przypadki (obserwacje). Pierwszy wiersz tabeli
zawiera nazwy kolumn. Nazwy kolumn powinny byK zapisane alfabetem mi;dzynarodowym
(nie zawieraj9cym nazw narodowych, np. 9, ;, 7, …), ani 7adnych symboli specjalnych (kropek,
my:lników, itp.) oraz spacji, wyj9tek stanowi tzw. znak podkre:lenia ( _ ). Tak wi;c nazwa
‘plon j;czmienia’ jest nazw9 nieprawid4ow9, forma poprawna powinna mieK postaK
‘plon_jeczmienia’. Obserwacje wpisujemy jedna pod drug9. Puste komórki tabeli uwa7ane s9 za
braki danych. Niedopuszczalne s9 nast;puj9ce formy wprowadzania danych:
Odmiana
Grana
Begra
…
Z. Lauda ski, D. R. Ma kowski
Rok
Plon
2004
2005
2006
2004
2005
2006
…
ZK
36,5
32,2
28,7
40,3
38,2
22,1
…
90
92
88
94
90
86
…
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
108
Odmiana
Grana
Begra
Plony w dt/ha
2004
36,5
40,3
2005
32,2
38,2
2006
28,7
22,1
grana
begra
ZK w %
2004
90
94
2005
92
90
2006
88
86
Poprawnie wprowadzone dane powinny mieK postaK:
Odmiana
Grana
Grana
Grana
Begra
Begra
Begra
…
Rok
Plon
2004
2005
2006
2004
2005
2006
…
ZK
36,5
32,2
28,7
40,3
38,2
22,1
…
90
92
88
94
90
86
…
Do przygotowania zbioru Sród4owego danych najwygodniej jest u7yK arkusza
kalkulacyjnego, np. Ms Excel. Je7eli do przygotowania tabeli z danymi wykorzystuje si;
Excela, wiersz z nag4ówkiem powinien zaczynaK si; w komórce A1. W arkuszu po za danymi
nie powinno si; znajdowaK nic wi;cej.
Przed przeniesieniem danych ze zbioru Sród4owego do oprogramowania analitycznego,
nale7y upewniK si;, czy stosowany pakiet analityczny obs4uguje format w jakim dane zosta4y
zapisane.
System SAS® w pe4ni obs4uguje mi;dzy innymi nast;puj9ce formaty zapisu:
— Arkusz kalkulacyjny Ms Excel 97, 2000, 2002, XP, 2003;
— Arkusz kalkulacyjny Ms Excel 5, 95;
— Arkusz kalkulacyjny Ms Excell 4;
— Pliki bazy danych Ms Access 2000, 2002, XP, 2003;
— Pliki bazy danych Ms Access 97
— Pliki dBase
— Pliki JMP
— Arkusz kalkulacyjny Lotus 1-2-3
— Bazy danych ORACLE
— Bazy danych MySQL
— Pliki SPSS
— Pliki XML
— … itd.
Przed wykonaniem oblicze, nale7y ostatecznie sprawdziK, czy w zbiorze z danymi nie ma
b4;dów. Najdrobniejszy b49d w danych (Sle postawiony przecinek dziesi;tny, z4a wielko:K liter,
tzw. „literówka”, itp.) mo7e w znacz9cy sposób zmieniK wyniki analiz i uniemo7liwiK
prawid4owe wnioskowanie.
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
109
2. WCZYTYWANIE DANYCH DO SYSTEMU SAS®
2.1. SAS Enterprise Guide®
Program SAS Enterprise Guide® (EG) jest graficznym narz;dziem Systemu SAS®
przeznaczonym do wykonywanie podstawowych operacji na danych, tworzeniu wykresów oraz
przeprowadzaniu prostych analiz statystycznych. Wi;kszo:K operacji wykonuje si;
w :rodowisku graficznym.
EG wczytuje wszystkie typy plików obs4ugiwane przez System SAS®. Aby rozpocz9K prac;
w programie nale7y zdecydowaK czy rozpoczynany b;dzie nowy projekt (zestaw analiz) czy te7
b;dzie wykorzystywany istniej9cy ju7 projektu (rys. I.4.1).
Rys. I.4.1. Okno wyboru projektu programu SAS Enterprise Guide®.
Okno robocze EG (rys. I.4.2) zbudowane jest z menu i paska narz;dzi (1), eksploratora
projektów (2), okna statusu zada, (3), listy zada, (4) oraz okna procesu (5).
1
2
5
4
3
Rys. I.4.2. Okno robocze programu SAS Enterprise Guide®.
Nast;pnie mo7na przyst9piK doczytania zbioru z danymi. W tym celu z menu ‘Plik’ wybiera
si; opcj; ‘Otwórz’, a nast;pnie ‘Dane’ (‘Plik’
‘Otwórz’
‘Dane’). W kolejnym kroku
nale7y wskazaK miejsce, z którego dane b;d9 wczytywane (rys. I.4.3).
Z. Lauda ski, D. R. Ma kowski
110
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
Rys. I.4.3. Okno wyboru Sród4a danych EG.
Po wybraniu Sród4a (je7eli dane znajduj9 si; na komputerze, na którym uruchomiono EG,
nale7y wybraK opcj; „Komputer lokalny”) nale7y wskazaK plik z danymi. Je7eli wczytywany
zbiór jest w formacie SAS® (‘.sas7bdat’), to dane zostan9 natychmiast wczytane, je7eli
natomiast dane zapisane s9 w innym formacie, musz9 zostaK odpowiednio zaimportowane.
W przypadku plików arkusz kalkulacyjnego Ms Excel (‘.xls’) program zapyta, który arkusz ma
zostaK zaimportowany (rys. I.4.4), a nast;pnie zapyta w jaki sposób dane maj9 zostaK
zaimportowane (rys. I.4.5).
Rys. I.4.4. Wybór arkusza przy imporcie danych zapisanych w formacie Ms Excel do EG.
Rys. I.4.5. Okno wyboru sposobu importu danych.
Je7eli zostanie wybrana opcja „otworzyK plik jako zbiór SAS-owy”, u7ytkownik
w kolejnych krokach b;dzie musia4 ustawiK wszystkie w4a:ciwo:ci danych i ich formaty,
dlatego, je7eli dane s9 ju7 prawid4owo przygotowane, najlepiej jest wybraK pierwsz9 opcj;,
czyli „wy:wietliK plik jako taki”. Wybór pierwszej opcji sprawi, 7e dane zostan9
zaimportowane zgodnie, a formatowanie i w4a:ciwo:ci danych zostan9 ustawione
automatycznie.
Nast;pnie dane zostan9 wy:wietlone w oknie projektu, a na schemacie przebiegu procesów
pojawi si; ikona symbolizuj9ca dane (rys. I.4.6).
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
111
Rys. I.4.6. Fragment schematu przebiegu procesu z ikon9 symbolizuj9ca dane.
2.2. rodowisko programistyczne SAS®
erodowisko graficzne EG jakkolwiek 4atwe w obs4udze, nie pozwala na wykorzystanie
wszystkich mo7liwo:ci jakie posiada System SAS®. Wszystkie nawet najbardziej
skomplikowane analizy mo7na natomiast wykonaK korzystaj9c z tak zwanego „:rodowiska
programistycznego” (rys. I.4.7). Wszystkie analizy i procesy wykonuje si; za pomoc9 tzw.
procedur (proc-stepów) lub data-stepów zbudowanych w j;zyku 4GL.
Rys. I.4.7. Wygl9d :rodowiska programistycznego Systemu SAS®.
Dane s9 gromadzone w bibliotekach (‘Library’). Do podgl9du bibliotek i danych s4u7y okno
eksploratora (rys. I.4.8). W systemie znajduj9 si; biblioteki systemowe (stworzone podczas
instalacji oprogramowania) jak i biblioteki za4o7one przez u7ytkownika.
Rys. I.4.8. Okno eksploratora z widocznymi bibliotekami systemowymi.
Jedna biblioteka systemowa o nazwie ‘Work’ ma wyj9tkowe zadanie. Jest to biblioteka
tymczasowa. Oznacza to, 7e wszystkie zbiory danych, jakie zostan9 w niej umieszczone b;d9
dost;pne tylko przez okres pracy programu. Po zamkni;ciu aplikacji zawarto:K tej biblioteki jest
kasowana. Dodatkowo w procedurach, podczas odwo4ywania si; do zbiorów danych
znajduj9cych si; w tej bibliotece nie trzeba podawaK jej nazwy.
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
112
Zak7adanie biblioteki
Istnieje kilka sposobów zak4adania bibliotek danych. Najwygodniejsze jest wykorzystanie
graficznego kreatora. W tym celu na pasku narz;dzi nale7y klikn9K na przycisku ‘’ (rys. I.4.9).
Rys. I.4.9. Przycisk uruchamiaj9cy kreatora zak4adania biblioteki.
Wy:wietlone zostanie okno kreatora (rys. I.4.10). Nale7y podaK nazw; nowej biblioteki
(8 znaków bez cyfr i znaków specjalnych), wskazaK lokalizacj; folderu na dysku twardym
przypisanego do tworzonej biblioteki (to tam b;d9 przechowywane zbiory danych). Aby
biblioteka zosta4a za4o7one na trwa4e nale7y dodatkowo zaznaczyK opcj; ‘W49cz przy
uruchomieniu’.
Rys. I.4.10. Okno kreatora zak4adania biblioteki.
W przypadku usuni;cia biblioteki, zostanie usuni;ty tylko wpis informuj9cy o bibliotece
w programie, folder z danymi pozostanie jednak na dysku twardym komputera.
Procedury pisane w j;zyku 4GL najcz;:ciej odwo4uj9 si; do zbiorów danych. Lokalizacj;
danych podaje si; w postaci:
nazwa_biblioteki..nazwa_zbioru
np.: ‘kurs.dane1’ — oznacza zbiór dane1 z biblioteki Kurs.
Import danych z pliku Ms Excell
Najcz;stsz9 operacj9 importu jest wczytanie danych zapisanych w arkuszu kalkulacyjnym
Ms Excel. Aby uruchomiK kreatora importu (rys. I.4.11) z menu ‘Plik’ nale7y wybraK opcj;
‘Importuj dane…’ (‘Plik’ ‘Importuj dane…’).
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
113
Rys. I.4.11. Pierwsze okno kreatora importu danych.
W oknie tym wybiera si; rodzaj importowanego pliku. Nale7y zwróciK uwag;, 7e do
wyboru s9 a7 trzy rodzaje plików Excela, zale7nie od wersji arkusza kalkulacyjnego. Po
wyborze typu Sród4a danych nale7y wcisn9K przycisk ‘Dalej’.
W kolejnym oknie nale7y wskazaK lokalizacj; pliku z danymi, a nast;pnie wybraK, który
arkusz ze skoroszytu Excela ma byK zaimportowany. Kolejnym krokiem jest wybór biblioteki
do której importowane dane maj9 zostaK do49czone i nadanie nazwy tabeli danych (rys. I.4.12).
Rys. I.4.12. Wybór biblioteki i nadanie nazwy tabeli danych.
Po wykonaniu tych operacji nale7y wcisn9K przycisk ‘Koniec’. Je7eli dane by4y
przygotowane we w4a:ciwy sposób (tak jak podano wcze:niej) to we wskazanej bibliotece
pojawi si; nowa tabela z zaimportowanymi danymi, a w oknie logu pojawi si; komunikat:
‘UWAGA: biblioteka.dane utworzono’.
Po dwukrotnym klikni;ciu na ikonie reprezentuj9cej w oknie eksploratora zbiór danych,
zostanie on otwarty do podgl9du.
Z. Lauda ski, D. R. Ma kowski
114
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
Dane do Cwicze pokazowych
Wszystkie dane prezentowane w niniejszym szkoleniu zosta4y do49czone do p4yty CD
z materia4ami szkoleniowymi. znajduj9 si; one w folderze ‘Kurs’. Dane zapisane s9 w formacie
SAS’a. Wystarczy przekopiowaK na dysk twardy komputera ca4y folder ‘Kurs’, a nast;pnie
za4o7yK w Systemie SAS® bibliotek; o nazwie ‘Kurs’ odnosz9c9 si; do tego folderu.
Na p4ycie CD w folderze ‘Kody SAS 4GL’ zapisano wszystkie prezentowane kody
w j;zyku 4GL opatrzone niezb;dnym komentarzem.
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
115
3. PODSTAWOWE ANALIZY STATYSTYCZNE
3.1. Statystyki opisowe
3.1.1. SAS Enterprise Guide®
Analiza rozk7adu
Analiza rozk4adu znajduje si; w menu ‘Opisz’ (‘Opisz’
‘Analiza rozk adu…’). Jest
odpowiednikiem procedury UNIVARIATE w :rodowisku programistycznym. Pozwala na
wy:wietlenie podstawowych statystyk oraz zbadanie zgodno:ci rozk4adu cechy losowej
z rozk4adami teoretycznymi (mi;dzy innymi z rozk4adem normalnym), a tak7e pozwala na
wykonanie histogramów, wykresów probabilistycznych, wykresów kwantyli oraz wykresów
pude4kowych.
Statystyki agregujDce
Statystyki agreguj9ce znajduj9 si; w menu ‘Opisz’ (‘Opisz’ ‘Statystyki agreguj/ce…’).
S9 odpowiednikiem procedury MEANS w :rodowisku programistycznym. S4u79 do
wyznaczania parametrów rozk4adów cech losowych (np.: warto:K :rednia, wariancja,
odchylenie standardowe, wspó4czynnik zmienno:ci, przedzia4y ufno:ci dla warto:ci :redniej,
itp.) oraz do przygotowywania histogramów i wykresów pude4kowych.
3.1.2. rodowisko programistyczne
PROC UNIVARIATE
Procedura UNIVARIATE jest elementem modu4u BASE SAS. S4u7y ona do:
— wyznaczania statystyk opisowych bazuj9cych na estymacji punktowej
parametrów rozk4adów cech ci9g4ych;
— wyznaczania statystyk dopasowania rozk4adu cechy ci9g4ej do rozk4adów
teoretycznych, w tym do rozk4adu normalnego;
— wyznaczania frakcji cechy losowej;
— przygotowania histogramów z dopasowaniem do rozk4adu teoretycznego;
— przygotowania wykresów probabilistycznych zgodno:ci cechy losowej
z rozk4adem teoretycznym.
Sk4adnia procedury ma postaK:
PROC UNIVARIATE <opcje>;
BY zmienne_grupujace;
VAR lista_zmiennych;
HISTOGRAM lista_zmiennych /<opcje>;
PROBPLOT lista_zmiennych /<opcje>;
RUN; QUIT;
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
116
Przyk7ad:
Wyznaczenie podstawowych statystyk dla zmiennej ‘MTN’ (masa tysi9ca nasion) w zbiorze
‘Lubin_zaprawa’ (dane pochodz9ce z do:wiadczenia z 4ubinem 7ó4tym) z biblioteki ‘Kurs’.
Testowanie normalno:ci rozk4adu cechy, wyznaczenie frakcji, przygotowanie histogramu
i wykresu probabilistycznego.
ODS HTML;
PROC UNIVARIATE DATA=kurs.lubin_zaprawa
NORMAL FREQ;
VAR mtn;
HISTOGRAM mtn /NORMAL (COLOR=RED W=2);
PROBPLOT mtn/NORMAL (MU=EST SIGMA=EST
COLOR=RED W=2);
RUN; QUIT;
ODS HTML CLOSE;
PROC MEANS
Procedura MEANS jest elementem modu4u BASE SAS. S4u7y do wyznaczania
podstawowych statystyk cech ilo:ciowych, np.:
— liczba obserwacji, liczb; braków danych;
— warto:K :rednia;
— wariancja i odchylenie standardowe;
— standardowy b49d oceny :redniej;
— przedzia4 ufno:ci dla :redniej;
— minimum, maksimum, rozst;p;
— wspó4czynnik zmienno:ci;
— itp.
Sk4adnia procedury ma postaK:
PROC MEANS <opcje>;
BY zmienne_grupujace;
VAR lista_zmiennych;
RUN;
Domy:lnie procedura MEANS wyznacza dla analizowanych danych liczbowych: liczb;
obserwacji, warto:K :redni9, odchylenie standardowe, minimum i maksimum. Aby wyznaczyK
inne parametry, nale7y wymieniK w opcjach procedury, które parametry maj9 byK wyznaczone.
Do wskazywania parametrów wykorzystuje si; nast;puj9ce s4owa kluczowe:
CLM
CV
KURT
MAX
MEAN
MIN
N
NMISS
RANGE
przedzia4 ufno:ci dla :redniej
wspó4czynnik zmienno:ci [%]
kurtoza
maksimum
warto:K :rednia
minimum
liczba obserwacji
liczba braków danych
rozst;p
SKEW
STD
STDERR
SUM
VAR
MEDIAN
Q1
Q3
sko:no:K
odchylenie standardowe
standardowy b49d :redniej
suma
wariancja
mediana
górny kwartyl
dolny kwartyl
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
117
Przyk7ady:
Domy:lne statystyki dla zmiennej ‘wschody_polowe’ ze zbioru ‘Lubin_zaprawa’
w bibliotece ‘Kurs’.
ODS HTML;
PROC MEANS DATA = kurs.lubin_zaprawa;
VAR wschody_polowe;
RUN;
ODS HTML CLOSE;
Domy:lne statystyki dla zmiennej ‘wschody_polowe’ i ‘MTN’ ze zbioru ‘Lubin_zaprawa’
oddzielnie dla ka7dego roku bada, (zbiór musi byK posortowany po zmiennej ‘rok’).
ODS HTML;
PROC MEANS DATA = kurs.lubin_zaprawa;
BY rok;
VAR wschody_polowe mtn;
RUN;
ODS HTML CLOSE;
erednia, wariancja, odchylenie standardowe, wspó4czynnik zmienno:ci, przedzia4 ufno:ci
(przy q = 0.01) oraz rozst;p dla zmiennych ‘fung_1’, ‘fung_2’, fung_3’ i ‘fung_4’ (od ‘fung_1’
do ‘fung_4’) ze zbioru ‘Jeczmien_grzyby’.
ODS HTML;
PROC MEANS DATA = kurs.jeczmien_grzyby
ALPHA = 0.01 MEAN VAR STD CV
CLM RANGE;
VAR fung_1 -- fung_4;
RUN;
ODS HTML CLOSE;
3.2. Testy t
3.2.1. SAS Enterprise Guide®
Test t
Testy t znajduj9 si; w menu ‘Analizuj’ w grupie ‘ANOVA’ (‘Analizuj’
‘ANOVA’
‘Test t’). S9 odpowiednikiem procedury TTEST w :rodowisku programistycznym. S4u79 do
wykonywania testów t dla porównania warto:ci :redniej z norm9, porównania dwóch warto:ci
:rednich oraz porównania dwóch warto:ci :rednich dla danych skorelowanych (tzw. „test
sparowany”). Ponad to umo7liwia wykonanie wykresów pude4kowych i wykresów warto:ci
:rednich.
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
118
3.2.2. rodowisko programistyczne
PROC TTEST
Procedura TTEST jest elementem modu4u SAS/STAT. Pozwala ona na przeprowadzenie
test t-Studenta dla:
— porównania warto:ci :redniej z norm9:
temp =
x
m0
n
s
— porównania dwóch warto:ci :rednich (przy za4o7eniu równych i nierównych
wariancji):
temp =
t 'emp =
( x1
x2 ) m0
2
1
s
s2
+ 2
n1 n2
( x1
x2 ) m0
przy df =
2
1
=
s12 s22
+
n1 n2
2
dla
Sr
2
1
2
2
2
2
2
2
s
s
n1
n
+ 2
n1 1 n2 1
dla
2
1
2
2
— porównania dwóch ‘sparowanych’ (skorelowanych) warto:ci :rednich:
temp =
d
m0
sd2
n
Jednocze:nie podczas przeprowadzania testu t dla ró7nicy dwóch warto:ci :rednich
procedura TTEST wykonuje test F porównania dwóch wariancji:
Femp =
s12
s22
Sk4adnia procedury ma postaK:
PROC TTEST <opcje>;
BY zmienne_grupujace;
CLASS zmienna_klasyfikujaca;
VAR lista_zmiennych;
PAIRED lista_par;
RUN;
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
119
Przyk7ady:
Porównanie :redniej z wzorcem. Dla zbioru ‘Lubin_zaprawa’ sprawdziK czy :rednia ‘MTN’
wynosi 180 g.
H 0 : m = m0
ODS HTML;
PROC TTEST DATA = kurs.lubin_zaprawa H0 = 180;
VAR mtn;
RUN;
ODS HTML CLOSE;
Porównanie dwóch warto:ci :rednich. Dla zbioru ‘Lubin_zaprawa’ sprawdziK czy :rednie
warto:ci ‘MTN’ w latach 2004 i 2005 by4y sobie równe.
H 0 : m1 m2 = m0
dla
m0 = 0 F
H 0 : m1 = m2
ODS HTML;
PROC TTEST DATA = kurs.lubin_zaprawa H0 = 0;
CLASS rok;
VAR mtn;
RUN;
ODS HTML CLOSE;
3.3. Analiza wariancji
3.3.1. SAS Enterprise Guide®
ANOVA jednoczynnikowa
Jednoczynnikowa ANOVA znajduje si; w menu ‘Analizuj’ w grupie ‘ANOVA’ (‘Analizuj’
‘ANOVA’
‘ANOVA jednoczynnikowa…’). Jest odpowiednikiem procedury ANOVA
w :rodowisku programistycznym. S4u7y do wykonywania testu F analizy wariancji dla uk4adu
jednoczynnikowego, ca4kowicie losowego. Pozwala równie7 na przeprowadzenie porówna,
wielokrotnych i na wykonanie testów homogeniczno:ci wariancji (homoskedastyczno:ci
zmiennych). Równie7 mo7na wykonaK wykresy pude4kowe i wykresy warto:ci :rednich.
3.3.2. Lrodowisko programistyczne
PROC ANOVA / PROC GLM
W Systemie SAS® do przeprowadzenia testu F analizy wariancji mo7na wykorzystaK dwie
procedury: ANOVA i GLM.
Procedura ANOVA pozwala na przeprowadzenie prostej analizy wariancji dla uk4adów
kompletnych, ortogonalnych (pozbawionych braków danych).
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
120
Procedura GLM jest procedur9 bardziej zaawansowan9, pozwala na wykonanie analizy
wariancji dla dowolnych uk4adów. W literaturze zaleca si; stosowanie procedury GLM.
Sk4adnia procedury ma postaK:
PROC GLM <opcje>;
BY zmienne_grupujace;
CLASS zmienne_klasyfikujace;
MODEL zmienna_zalezna = zmienne_klasyfikujace;
MEANS zmienne_klasyfikujace /opcje;
RUN; QUIT;
Przyk7ad:
Za pomoc9 analizy wariancji sprawdziK czy istniej9 ró7nice pomi;dzy liniami j;czmienia w
stopniu pora7enia grzybami oznaczonymi jako ‘fung_1’ w zbiorze ‘Jeczmien_grzyby’.
Dodatkowo wykonaK testy Tukeya, Duncana oraz Dunnetta (obustronny, wzorzec – linia ‘1’).
ODS HTML;
PROC GLM DATA = kurs.jeczmien_grzyby;
CLASS linia;
MODEL fung_1 = linia;
MEANS linia / TUKEY;
MEANS linia / DUNCAN;
MEANS linia / DUNNETT ('1');
RUN; QUIT;
ODS HTML CLOSE;
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
121
4. PLANOWANIE EKSPERYMENTU
4.1. rodowisko programistyczne SAS®
PROC PLAN
Procedur PLAN jest elementem modu4u SAS/STAT. Pozwala ona na:
— przygotowanie listy kombinacji i permutacji liczb;
— rozlosowanie i przygotowanie planów do:wiadcze,;
— rozlosowanie mi;dzy innymi:
o uk4adów ca4kowicie losowych i uk4adów blokowych,
o uk4adów bloków niekompletnych,
o uk4adów kwadratu 4aci,skiego i greko-4aci,skiego,
— przygotowanie zbiorów do wprowadzania danych.
Sk4adnia procedury ma postaK:
PROC PLAN <opcje>;
FACTORS lista_czynników </NOPRINT>;
TREATMENTS lista_czynników;
OUTPUT OUT = zbiór_sas <opcje czynników>;
RUN; QUIT;
Przyk7ady:
Rozlosowanie do:wiadczenia jednoczynnikowego w uk4adzie losowanych bloków (4 bloki,
5 poziomów czynnika A).
PROC PLAN;
FACTORS Bloki = 4 ORDERED Czynnik_a = 5 RANDOM
/NOPRINT;
OUTPUT OUT = plan_1;
RUN; QUIT;
ODS LISTING CLOSE;
ODS HTM;
PROC PRINT DATA = plan_1 NOOBS;
RUN;
ODS HTML CLOSE;
ODS LISTING;
Z. Lauda ski, D. R. Ma kowski
122
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
Rozlosowanie do:wiadczenia jednoczynnikowego w uk4adzie kwadratu 4aci,skiego
(4 wiersze, 4 kolumny, 4 poziomy czynnika A).
PROC PLAN;
FACTORS wiersz = 4 ORDERED kolumna = 4
ORDERED /NOPRINT;
TREATMENTS Czynnik_a = 4 CYCLIC;
OUTPUT OUT = plan_2 wiersz ORDERED kolumna
ORDERED Czynnik_a RANDOM;
RUN; QUIT;
ODS LISTING CLOSE;
ODS HTML;
PROC PRINT DATA = plan_2 NOOBS;
RUN;
PROC TABULATE;
CLASS wiersz kolumna; VAR Czynnik_a;
TABLE wiersz, kolumna * (Czynnik_a ="
* f = 6.) * sum='';
RUN;
ODS HTML CLOSE;
ODS LISTING;
Do:wiadczenie jednoczynnikowe w uk4adzie losowanych bloków — niekompletne
(12 poziomów czynnika — po 10 w bloku, 5 bloków).
PROC PLAN;
FACTORS Bloki = 5 ORDERED Czynnik_a = 10 OF 12
CYCLIC /NOPRINT;
OUTPUT OUT = plan_3 Bloki ORDERED Czynnik_a
RANDOM;
RUN; QUIT;
ODS LISTING CLOSE;
ODS HTML;
PROC PRINT DATA = plan_3 NOOBS;
RUN;
ODS HTML CLOSE;
ODS LISTING;
Rozlosowanie do:wiadczenia dwuczynnikowego w uk4adzie split-plot (4 bloki, 3 poziomy
czynnika A, 5 poziomów czynnika B).
ODS LISTING CLOSE;
ODS HTML;
PROC PLAN;
FACTORS bloki = 4 ORDERED czynnik_a = 3
RANDOM czynnik_b = 5 RANDOM;
OUTPUT OUT = plan_4 bloki ORDERED
czynnik_a RANDOM czynnik_b
RANDOM;
RUN; QUIT;
PROC PRINT DATA = plan_4 NOOBS;
RUN;
ODS HTML CLOSE;
ODS LISTING;
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
123
Do:wiadczenie dwuczynnikowe w uk4adzie hierarchicznym split-blok (4 pasy — czynnik
A, 3 powtórzenia, 7 poziomów czynnika B).
PROC PLAN;
FACTORS pasy = 4 ORDERED powt = 3 ORDERED
czynnik_b = 7 RANDOM /NOPRINT;
OUTPUT OUT = plan_5 pasy ORDERED powt ORDERED
czynnik_b RANDOM;
RUN; QUIT;
ODS LISTING CLOSE;
ODS HTML;
PROC PRINT DATA = plan_5 NOOBS;
RUN;
ODS HTML CLOSE;
ODS LISTING;
4.2. rodowisko JMP 6 / 7
erodowisko JMP zosta4o opracowane przez SAS Institute Inc. z my:l9 o dynamicznej
prezentacji danych. Umo7liwia dynamiczne po49czenie opcji graficznych z analizami
statystycznymi. Do poprawnego dzia4ania JMP wymaga zainstalowanej prócz Polskiej równie7
Angielskiej wersji j;zykowej Systemu SAS®. Wi;cej informacji o :rodowisku JMP na stronie
http://www.jmp.com/.
Aby uruchomiK modu4 planowania eksperymentów nale7y wybraK z okna ‘JMP Starter’
kategori; ‘DOE’ (design of experiment) (rys. II.4.1).
Rys. II.4.1. Opcje kategorii ‘DOE’ w oknie ‘JMP Starter’.
Nast;pnie nale7y wybraK rodzaj planowanego eksperymentu. Dalsze prezentowane
przyk4ady wykorzystuj9 opcj; ‘Custom Design’. W nowo otwartym oknie (rys. II.4.2) mo7na
wprowadzaK kolejne czynniki w planowanym do:wiadczeniu.
Z. Lauda ski, D. R. Ma kowski
124
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
Rys. II.4.2. Okno ‘DOE — Custom Design’.
Po wybraniu liczby i rodzajów czynników w planowanym do:wiadczeniu nale7y wcisn9K
przycisk ‘Continue’, a nast;pnie . Po rozszerzeniu okna (rys. II.4.3) mo7na wskazaK ile razy
losowanie ma byK powtórzone (liczba replikacji).
Rys. II.4.3. Okno ‘DOE — Custom Design’ — opcje replikacji.
Po wci:ni;ciu przycisku ‘Make Table’ do:wiadczenie zostanie rozlosowane i zostanie
wy:wietlona tabela przygotowana wed4ug zaplanowanego uk4adu do:wiadczalnego.
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
125
Przyk7ady:
Do:wiadczenie jednoczynnikowe w uk4adzie losowanych bloków (4 Bloki, 5 poziomów
czynnik A):
Factors:
Bloki — Blocking, 5 runs
Czynnik A — Categorical, 5 levels
Number of replictions: 3
Do:wiadczenie dwuczynnikowe w uk4adzie losowanych bloków (3 Bloki, 4 poziomów
czynnik A, 2 poziomy czynnika B):
Factors:
Bloki — Blocking, 8 runs
Czynnik A — Categorical, 4 levels
Czynnik B — Categorical, 2 levels
Number of replictions: 2
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
126
5. STATYSTYCZNE METODY OPRACOWYWANIA WYNIKÓW
5.1. Analiza wariancji
Do przeprowadzenia analizy wariancji na podstawie danych pochodz9cych z do:wiadcze,
przeprowadzonych w oparciu o uk4ady do:wiadczalne, wykorzystuje si; procedur; GLM
w bardziej zaawansowanej formie.
Sk4adnia procedury
PROC GLM <opcje>;
BY zmienne_grupujace;
CLASS zmienne_klasyfikujace;
MODEL zmienna_zalezna =
zmienne_klasyfikujace /opcje;
TEST H = efekt E = efekt;
MEANS zmienne_klasyfikujace /opcje;
LSMEANS zmienne_klasyfikujace;
CONTRAST <etykieta> efekt kontrasty;
RUN; QUIT;
W analizie wariancji wyró7nia si; cztery ró7ne sposoby wyznaczania sumy kwadratów
odchyle,. Sposoby te zwane s9 typami sum kwadratów. Ich znaczenie prezentuje poni7sza
tabela:
TYP I
[SS1]
R ( A | m)
TYP II
[SS2]
R ( A | m, B )
TYP III
[SS3]
R ( A | m, B, A × B )
TYP IV
[SS4]
R ( A | m, B, A × B )
R ( A × B | m, A, B )
R ( A × B | m, A, B )
R ( A × B | m, A, B )
R ( A × B | m, A, B )
A
B
A×B
R ( B | m, A )
R ( B | m, A )
R ( B | m, A, A × B )
R ( B | m, A, A × B )
R(.) reprezentuje zmniejszenie sumy kwadratów odchyle, dla b4;du losowego, gdy do modelu zostaje dodane
dane Sród4o zmienno:ci.
Zastosowanie typów sum kwadratów odchyle,:
TYP I
[SS1]
TYP II
[SS2]
TYP III
[SS3]
TYP IV
[SS4]
jedno- i wieloczynnikowe modele dla danych kompletnych
modele dla danych niekompletnych przy nieistotnej interakcji pomi;dzy
czynnikami (np. niekompletny uk4ad losowanych bloków)
modele dla danych niekompletnych przy istotnej interakcji pomi;dzy
czynnikami
modele dla danych niekompletnych przy brakach ca4ych podklas
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
127
Przyk7ady:
Do wiadczenia jedno- i dwuczynnikowe
Do:wiadczenie jednoczynnikowe w uk4adzie losowanych bloków badaj9ce reakcj;
wybranej linii pszenicy ozimej na ró7ne dawki nawo7enia azotem.
ODS HTML;
PROC GLM DATA= kurs.pszenica_naw_jlb;
CLASS bloki dawka;
MODEL plon = bloki dawka;
MEANS dawka / DUNCAN;
RUN; QUIT;
ODS HTML CLOSE;
Wyznaczanie grup jednorodnych — procedura Duncana:
NIRD = t ( ; k '; v )
2
Se 2
n
= 0,05
v=6
Se2 = 0, 22797
n=4
Warto:ci krytyczne wielokrotnego testu Duncana dla 2 i 3 porównywanych obiektów:
k’
3
2
t ( 0,05; k ';6 )
2,536
2,447
NIRD
0,8562
0,8261
Krok 1: uszeregowanie :rednich w kolejno:ci malej9cej:
x180 = 4,8250 x90 = 3,6500 x0 = 2, 7675
Krok 2: porównanie dwóch pierwszych :rednich, k’=3 (bo do porównania s9 3 obiekty)
x180
x90 = 4,8250 3, 6500 = 1,175 > 0,8563 = NIRD ( k '=3)
Krok 3: porównanie dwóch kolejnych warto:ci :rednich, k’=2 (bo zosta4y tylko 2 obiekty)
x90
x0 = 3,6500 2,7675 = 0,8825 > 0,8261 = NIRD ( k '= 2)
Wyznaczone grupy jednorodne:
Obiekt
180
90
0
Z. Lauda ski, D. R. Ma kowski
xi
4,8250
3,6500
2,7675
Grupa
A
B
C
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
128
Do:wiadczenie jednoczynnikowe w uk4adzie kwadratu 4aci,skiego.
ODS HTML;
PROC GLM DATA= kurs.burak_cukr_jls;
CLASS rzad kolumna odmiana;
MODEL plon = rzad kolumna odmiana /SS1;
MEANS odmiana / TUKEY;
RUN; QUIT;
ODS HTML CLOSE;
Wyznaczanie grup jednorodnych — procedura Tukeya:
NIRT = q ( ; k 1; v )
Se 2
n
= 0,05
n=6
Se2 = 0,3005
k 1= 5
v = 20
q ( 0,05;5; 20 ) = 4, 44524
NIRT = 0,9948
Grupy jednorodne:
Obiekt
5
2
3
4
1
6
xi
19,6667
18,6167
18,5167
18,3500
18,3000
18,2000
Grupa
A
B
B
B
B
B
Do:wiadczenie jednoczynnikowe w uk4adzie losowanych bloków z liniami kukurydzy —
dane nieortogonalne.
ODS HTML;
PROC GLM DATA= kurs.kukurydza_jlbn;
CLASS bloki odmiana;
MODEL plon = bloki odmiana /SS2;
MEANS odmiana;
LSMEANS odmiana;
MEANS odmiana / TUKEY;
RUN; QUIT;
ODS HTML CLOSE;
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
129
Wyznaczanie grup jednorodnych — procedura Tukeya-Kramera:
NIRT ( µ1
µ2 )
= q ( , k 1, v )
Se2
1
2
1 1
+
n1 n2
= 0,05
v = 123
k 1= 3
Se2 = 35,6806
q ( 0,05;3;123) = 3,6833
Warto:ci :rednie i liczno:K obserwacji:
Obiekt
O1
O2
O3
O4
ni
27
65
22
17
xi
18,6704
16,9123
16,6682
19,7529
Wyznaczanie grup jednorodnych:
Porównywane
obiekty
O4 – O1
O4 – O2
O4 – O3
O1 – O4
O1 – O2
O1 – O3
O2 – O4
O2 – O1
O2 – O3
O3 – O4
O3 – O1
O3 – O2
Ró7nica
warto:ci
:rednich
1,112
2,841
3,085
–1,112
1,728
1,973
–2,841
–1,728
0,244
–3,085
–1,973
–0,244
Z. Lauda ski, D. R. Ma kowski
NIRT ( µ1
µ2 )
28,772
25,315
30,009
28,772
21,277
26,691
25,315
21,277
22,922
30,009
26,691
22,922
Istotno:K ró7nic
(*** — oznacza
istotn9 ró7nic;)
Grupa
A
A
A
A
A
A
A
A
A
A
A
A
130
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
Do:wiadczenie dwuczynnikowe w uk4adzie ca4kowicie losowym — analiza interakcji.
ODS HTML;
PROC GLM DATA= kurs.pszen_j_dcl;
CLASS f_ojcowska f_mateczna;
MODEL plon_f1 = f_ojcowska | f_mateczna /SS1;
MEANS f_ojcowska f_mateczna /TUKEY;
LSMEANS f_ojcowska * f_mateczna
/SLICE= f_ojcowska;
LSMEANS f_ojcowska * f_mateczna
/SLICE= f_mateczna;
RUN; QUIT;
ODS HTML CLOSE;
Do:wiadczenie dwuczynnikowe w uk4adzie ca4kowicie losowym — analiza interakcji, cd.
Wykres interakcji.
GOPTIONS RESET= all;
PROC GPLOT DATA= kurs.pszen_j_dcl;
SYMBOL1 I=std1mtj C=red LINE=1 W=2;
SYMBOL2 I=std1mtj C=blue LINE=1 W=2;
SYMBOL3 I=std1mtj C=green LINE=1 W=2;
SYMBOL4 I=std1mtj C=black LINE=1 W=2;
SYMBOL5 I=std1mtj C=pink LINE=1 W=2;
PLOT plon_f1 * f_ojcowska = f_mateczna;
PLOT plon_f1 * f_mateczna = f_ojcowska;
RUN; QUIT;
Do wiadczenia wieloczynnikowe
Do:wiadczenie trójczynnikowe w uk4adzie losowanych bloków — porównanie z wzorcem,
kontrasty.
ODS HTML;
PROC GLM DATA = kurs.pszen_j_tlb;
CLASS blok odmiana zaprawa zabieg;
MODEL zk_st_bliss = blok odmiana zaprawa
zabieg odmiana*zaprawa odmiana*zabieg
zaprawa*zabieg odmiana*zaprawa*zabieg
/SS1;
MEANS zaprawa / DUNNETT('kontrola');
CONTRAST 'Koksa vs. Korynta'
odmiana 1 -1 0 0;
CONTRAST 'Koksa vs. Nawra'
odmiana 1 0 -1 0;
CONTRAST 'Koksa vs. Torka'
odmiana 1 0 0 -1;
CONTRAST 'Korynta vs. Nawra'
odmiana 0 1 -1 0;
CONTRAST 'Korynta vs. Torka'
odmiana 0 1 0 -1;
CONTRAST 'Nawra vs. Torka'
odmiana 0 0 1 -1;
RUN; QUIT;
ODS HTML CLOSE;
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
Uk7ady hierarchiczne i split-plot
Do:wiadczenie dwuczynnikowe w uk4adzie split-plot
dród4a zmienno:ci:
1. Bloki
2. Czynnik A
3. B49d 1 (Interakcja: Bloki × Czynnik A)
4. Czynnik B
5. Interakcja: Czynnik A × Czynnik B
6. B49d 2 (B49d losowy)
ODS HTML;
PROC GLM DATA = kurs.pszenica_oz_sp;
CLASS bloki odmiany nawozenie;
MODEL plon = bloki odmiany nawozenie
bloki*odmiany odmiany*nawozenie /SS1;
TEST H = bloki odmiany E = bloki*odmiany;
MEANS odmiany / TUKEY E = bloki*odmiany;
MEANS nawozenie / TUKEY;
RUN; QUIT;
ODS HTML CLOSE;
Do:wiadczenie dwuczynnikowe w uk4adzie hierarchicznym split-blok.
dród4a zmienno:ci:
1. Bloki
2. Czynnik A
3. B49d 1 (Interakcja: Bloki × Czynnik A)
4. Czynnik B
5. B49d 2 (Interakcja: Bloki × Czynnik B)
6. Interakcja: Czynnik A × Czynnik B
7. B49d 3 (B49d losowy)
ODS HTML;
PROC GLM DATA = kurs.groch_spb;
CLASS bloki ochrona odmiana;
MODEL mtn = bloki ochrona odmiana
bloki*ochrona bloki*odmiana
ochrona*odmiana /SS1;
TEST H = bloki ochrona E = bloki*ochrona;
TEST H = odmiana E = bloki*odmiana;
MEANS ochrona / TUKEY E = bloki*ochrona;
MEANS odmiana / TUKEY E = bloki*odmiana;
RUN; QUIT;
ODS HTML CLOSE;
Z. Lauda ski, D. R. Ma kowski
131
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
132
Uk7ad kratowy
Specjalnie do analizy danych pochodz9cych z do:wiadcze, za4o7onych w uk4adach
kratowych w Systemie SAS® znajduje si; oddzielna procedura – LATTICE.
W zbiorze danych do analizy trzy kolumny musz9 mieK z góry ustalone nazwy:
Group — oznacza numer kraty
Block — oznacza numer bloku (w ka7dej kracie bloki numeruje si; od pocz9tku)
Treatmnt — oznacza badany czynnik
Rep — zmienna opcjonalna, mówi o liczbie powtórze, uk4adu
Sk4adnia procedury
PROC LATTICE <opcje>;
BY zmienne_grupujace;
VAR zmienne_analizowane;
RUN;
Przyk7ad:
Do:wiadczenie odmianowe za4o7one w uk4adzie kratowym cz;:ciowo zrównowa7onym.
ODS HTML;
PROC LATTICE DATA = kurs.soja_krata;
VAR plon;
RUN;
ODS HTML CLOSE;
5.2. Analiza korelacji i regresji prostych
Pierwszym krokiem w analizie korelacji pomi;dzy cechami jest sporz9dzenie wykresu
rozrzutu obrazuj9cego potencjaln9 relacj; pomi;dzy analizowanymi cechami. Na wykresie
mo7emy stwierdziK czy s9 podstawy do podejrzewania, 7e istnieje zale7no:K pomi;dzy cechami
i jaki mo7e byK charakter tej zale7no:ci. Do sporz9dzania wykresów rozrzutu wykorzystuje si;
procedur; GPLOT.
Sk4adnia procedury
PROC GPLOT <opcje>;;
PLOT zmienna_x * zmienna_y;
RUN; QUIT;
Przyk7ad:
Wykres rozrzutu dla plonu pszenicy jarej i jego sk4adowych.
PROC GPLOT DATA = kurs.pszenica_j_skladowe;
PLOT plon * (liczba_klosow_na_mkw -- mtz);
RUN; QUIT;
W przypadku gdy podej7ewa si;, 7e wystepuje liniowa zale7no:K pomi;dzy analizownymi
cechami, a cechy maj9 rok4ady ci9g4e, nale7y przeprowadziK analiz; wspó4czynników korelacji
liniowych Pearsona. Do analizy wspó4czynnikówkorelacji s4u7y procedura CORR.
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
133
Sk4adnia procedury:
PROC CORR <opcje>;;
VAR zmienne_var;
WITH zmienne_with;
RUN; QUIT;
Przyk7ad:
Analiza wspó4czynników korelacji liniowych Pearsona pomi;dzy plonem pszenicy jarej
i jego sk4adowymi.
ODS HTML;
PROC CORR DATA = kurs.pszenica_j_skladowe;
VAR _numeric_;
RUN;
ODS HTML CLOSE;
W prypadku stwierdzenia wystepowania istotnej korlecji liniowej pomi;dzy dwoma
cechami, mo7na t; zale7no:K zapisaK matematycznie w postaci funkcji regresji liniowej. analiz;
funkcji regresji liniowej przeprowadza si; z wykorzystaniem procedury REG.
Sk4adnia procedury:
PROC REG <opcje>;;
MODEL zmienna_zaleLna =
zmienna_przyczynowa /<opcje>;;
RUN; QUIT;
Przyk7ad:
Analiza funkcji regresji liniowej pomi;dzy plonem (zmienna zale7na, Y) a liczb9 k4osów na
metrze kwadratowym (zmienna obja:niaj9ca, X).
ODS HTML;
ODS GRAPHICS ON;
PROC REG DATA = kurs.pszenica_j_skladowe;
MODEL plon = liczba_klosow_na_mkw;
RUN; QUIT;
ODS GRAPHICS OFF;
ODS HTML CLOSE;
Je7eli sta4a regresji jest nie istotna statystycznie i nie ma merytorycznych przes4anek by j9
pozostawiK w modelu, mo7na przeprowadziK analiz; funkcji regresji liniowej bez sta4ej
w modelu.
ODS HTML;
ODS GRAPHICS ON;
PROC REG DATA = kurs.pszenica_j_skladowe;
MODEL plon = liczba_klosow_na_mkw /NOINT;
RUN; QUIT;
ODS GRAPHICS OFF;
ODS HTML CLOSE;
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
134
5.3. Analiza regresji wielokrotnej
Aaliz; funkcji regresji wielokrotnej (jeen Y i wiele X) mo7na przeprowadziK równie7
z wykorzystaniem procedury REG.
Sk4adnia procedury:
PROC REG <opcje>;;
MODEL zmienna_zaleLna =
zmienne_przyczynowe /<opcje>;;
RUN; QUIT;
Przyk7ady:
Analiza funkcji regresji liniowej pomi;dzy plonem (zmienna zale7na, Y) a jego sk4adowymi
(zmienne obja:niaj9ce, X1, X2 i X3).
ODS HTML;
PROC REG DATA = kurs.pszenica_j_skladowe;
MODEL plon = liczba_klosow_na_mkw -- mtz;
RUN; QUIT;
ODS HTML CLOSE;
Bez sta4ej w modelu:
ODS HTML;
PROC REG DATA = kurs.pszenica_j_skladowe;
MODEL plon = liczba_klosow_na_mkw -- mtz
/NOINT;
RUN; QUIT;
ODS HTML CLOSE;
W analizie regresji wielokrotnej prócz analizy pe4nego modelu ze wszystkimi zmiennymi
w modelu, mo7na przeprowadziK analiz; po49czon9 z doborem zmiennych do modelu. Ma to
szczególnie du7e znaczenie, gdy analizuje si; wp4yw wielu zmiennych obja:niaj9cych na
zmienn9 zale7n9.
Dobór miennych do modelu mo7na przprowadzic za pomoc9 szeregu metod:
— tzw. metody ‘krokowe’:
o „w przód” (FOREWARD)
o „w ty4” (BACKWARD)
o „obukierunkowo” (STEPWISE)
— metody oparte na wyznaczanych parametrach modeli
o R2 (RSQUARE)
SS (modelu)
R2 = r 2 =
yi2
o
poprawiony R2 (ADJRSQ)
2
Radj
=1
(1
R2
(n
) (n
p ')
1)
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
135
— metody oparte na tzw kryteriach informacyjnych
o Cp Mallowsa (CP)
( MSE p MSE full ) ( n p ')
Cp = p '+
MSE full
o Akaike Information Criterion (AIC)
SSE
AIC = ( n ) ln
+2 p
n
o Schwarz Bayesian Criterion (SBC)
SSE
SBC = ( n ) ln
+ p ln ( n )
n
o itd.
Przyk7ad:
Analiza funkcji regresji liniowej pomi;dzy plonem (zmienna zale7na, Y) a jego sk4adowymi
(zmienne obja:niaj9ce, X1, X2 i X3), bez sta4ej w modelu z zastosowaniem selekcji zmiennych
STEPWISE.
ODS HTML;
PROC REG DATA = kurs.pszenica_j_skladowe;
MODEL plon = liczba_klosow_na_mkw -- mtz
/ NOINT SELECTION = stepwise;
RUN; QUIT;
ODS HTML CLOSE;
5.4. Analiza kowariancji
Prócz analizy wariancji, procedura GLM mo7e byK równie7 wykorzystywana do
przeprowadzenia analizy kowariancji.
Sk4adnia procedury:
PROC GLM <opcje>;;
BY zmienne_grupujace;
CLASS zmienne_klasyfikujace;
MODEL zmienna_zalezna =
zmienne_klasyfikujace
zmienne_towarzyszace /SOLUTION;
LSMEANS zmienne_klasyfikujace /STDERR
PDIFF COV;
RUN; QUIT;
Przyk7ad:
Analiza kowariancji dla plonów ziemniaka wzgl;dem liczby zabiegów fungicydami
z nawo7eniem NPK jako zmienn9 towarzysz9c9.
ODS HTML;
PROC GLM DATA = kurs.ziemniak;
CLASS fungi;
MODEL yield = fungi npk / SOLUTION;
LSMEANS fungi /STDERR PDIFF COV;
RUN; QUIT;
ODS HTML CLOSE;
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
136
5.5. Tablice kontyngencji i testy chi-kwadrat
Tablice kontyngencji i testy zale<no ci
Do sporz9dzania tablic kontyngencji i wykonywania testów chi-kwadrat zale7no:ci s4u7y
procedura FREQ.
Sk4adnia procedury:
PROC FREQ <opcje>;;
TABLE zmienna_wierszy * zmienna_kolumn
/<opcje>;;
RUN;
Przyk7ady:
Tablica kontyngencji dla danych pochodz9cych z metryczki ankiety.
ODS HTML;
PROC FREQ DATA = kurs.ankieta;
TABLE wiek_kod * wyksztalcenie_kod;
RUN;
ODS HTML CLOSE;
Tablica kontyngencji I testy chi-kwadrat zale7no:ci.
ODS HTML;
PROC FREQ DATA = kurs.ankieta ;
TABLE wiek_kod * wyksztalcenie_kod / CHISQ;
RUN;
ODS HTML CLOSE;
UWAGA ! Test Mantela-Haenszela ma zastosowanie tylko wtedy gdy obie analizowane
zmienne maj9 charakter porz9dkowy. W pozosta4ych przypadkach wyniki tego testu ignoruje si;.
Test chi-kwadrat zgodno ci
Do badania zgodno:ci rzeczywistego rozk4adu zmiennej (obserwowanej proporcji
obserwacji) do rozk4adu teoretycznego (teoretycznej proporcji obserwacji) mo7na równie7
wykorzystaK procedur; FREQ.
Sk4adnia procedury:
PROC FREQ <opcje>;;
TABLE analizowana_zmienna /NOCUM
TESTP = (proporcja);
RUN;
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
137
Przyk7ad:
Test chi-kwadrat zgodno:ci; sprawdzenie czy stosunek p4ci ankietowanych osób by4 jak
30:70.
ODS HTML;
PROC FREQ DATA = kurs.ankieta;
TABLE plec_kod /NOCUM TESTP = (30 70);
RUN;
ODS HTML CLOSE;
5.6. Analiza skupie1
Analiza skupie, w Systemie SAS® sk4ada si; z kilku procedur, s9 to mi;dzy innymi:
— PROC DISTANCE — pozwala na wyznaczenie macierzy odleg4o:ci pomi;dzy
obiektami;
— PROC CLUSTER — s4u7y do wykonywania hierarchicznej klasteryzacji;
— PROC FASTCLUS — s4u7y do wykonywania klasteryzacji metod9 k-:rednich;
— PROC TREE — s4u7y do sporz9dzania dendrogramów.
PROC DISTANCE
Sk4adnia procedury:
PROC DISTANCE METHOD = metoda <opcje>;;
ID zmienna_identyfikacyjna;
VAR rodzaj_cechy (lista_zmiennych);
RUN;
Rodzaje cech:
— ANOMINAL (zmienna jest asymetrycznie nominalna)
— NOMINAL (zmienna jest symetrycznie nominalna)
— ORDINAL (zmienna ma charakter porz9dkowy)
— INTERVAL (zmienna oznacza przedzia4 liczbowy)
— RATIO (zmienna jest dodatnia i jest ilorazem)
Metody (wybrane):
— GOWER (dystans Gower’a)
— DGOWER (1 – dystans Gower’a)
— EUCLID (odleg4o:K Euklidesowa)
— SQEUCLID (kwadrat odleg4o:ci Euklidesowej)
— COV (kowariancja)
— CORR (korelacja)
— DCORR (korelacja przekszta4cona w odleg4o:K Euklidesow9)
— L(p) (odleg4o:K Minkowskiego)
— CITYBLOCK (odleg4o:K miejska)
— CHEBYCHEV (odleg4o:K Czebyszewa)
— HAMMING (od4eg4o:K Hamminga)
— JACCARD (dystans genetyczny Jaccarda)
— DJACCARD (podobie,stwo genetyczne Jaccarda)
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
138
PROC CLUSTER
Sk4adnia procedury:
PROC CLUSTER METHOD = metoda <opcje>;;
ID zmienna_identyfikacyjna;
VAR lista_zmiennych;
RUN;
Metody (wybrane):
— AVERAGE — metoda :redniego wi9zania, UPGMA
— CNENTROID — metoda centroidu, UPGMC
— MCQUITTY — metoda podobie,stwa McQuitty’ego, WPGMA
— MEDIAN — metoda mediany Gower’a, WPGMC
— SINGLE — metoda pojedynczego wi9zania, najbli7szego s9siedztwa
— WARD — metoda Ward’a
Przyk7ady:
Hierarchiczna analiza skupie, dla danych molekularnych.
1) Wyznaczenie macierzy dystansu genetycznego Jaccarda
PROC DISTANCE DATA = kurs.pzyto_pcr
METHOD = jaccard OUT = macierz_1;
ID linia;
VAR anominal(pcr_1 -- pcr_673);
RUN;
ODS HTML;
PROC PRINT DATA = macierz_1 NOOBS;
RUN;
ODS HTML CLOSE;
2) Klasteryzacja hierarchiczna metod9 najbli7szego s9siedztwa (pojedynczego wi9zania)
ODS HTML;
PROC CLUSTER DATA = macierz_1 METHOD = single;
ID linia;
RUN;
ODS HTML CLOSE;
3) Sporz9dzenie dendrogramu
PROC TREE SPACES = 2 HORIZONTAL;
ID linia;
RUN;
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
Hierarchiczna analiza skupie, dla danych fenotypowych.
1) Wyznaczenie macierzy odleg4o:ci kwadratowej Euklidesa
PROC DISTANCE DATA = kurs.trawy_ocena
METHOD = sqeuclid OUT = macierz_2;
ID odmiana;
VAR ordinal(pr -- ps);
RUN;
ODS HTML;
PROC PRINT DATA = macierz_2 NOOBS;
RUN;
ODS HTML CLOSE;
2) Klasteryzacja hierarchiczna metod9 UPGMA
ODS HTML;
PROC CLUSTER DATA = macierz_2 METHOD = average;
ID odmiana;
RUN;
ODS HTML CLOSE;
3) Sporz9dzenie dendrogramu
PROC TREE SPACES = 2;
ID odmiana;
RUN;
5.7. Wielowymiarowa analiza czynnikowa
Sk4adnia procedury:
PROC FACTOR METHOD = metoda NORM
NORM = normalizacja
ROTATE = rotacja <opcje>;;
VAR lista_zmiennych;
RUN;
Normalizacje:
— COV — opiera si; na macierzy kowariancji w miejsce macierzy korelacji
— KAISER — normalizacja Kaiser’a
— NONE / RAW — bez normalizacji
— WEIGHT — normalizacja Cureton’a-Mulaik’a
Metody analizy czynnikowej:
— ALPHA — alfa analiza czynnikowa
— HARRIS — analiza sk4adowych Harris’a
— IMAGE — analiza sk4adowych plonu
— ML — analiza czynnikowa maksymalnej wiarygodno:ci
— PRINCIPAL — analiza czynnikowa sk4adowych g4ównych
— PRINT — iteracyjna analiza czynnikowa plonów
— ULS — analiza czynnikowa niewa7onych najmniejszych kwadratów
Z. Lauda ski, D. R. Ma kowski
139
140
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
Rodzaje rotacji:
BIQUARTIMAX,
EQUAMAX,
FACTORPARSIMAX,
NONE,
ORTHCF(p1,p2),
ORTHGENCF(p1,p2,p3,p4), ORTHOMAX, PARSIMAX, QUARTIMAX, VARIMAX,
BIQUARTIMIN,
COVARIMIN,
HK<(p)>,
OBBIQUARTIMAX,
OBEQUAMAX,
OBFACTORPARSIMAX,
OBLICF(p1,p2),
OBLIGENCF(p1,p2,p3,p4),
OBLIMIN,
OBPARSIMAX,
OBQUARTIMAX,
OBVARIMAX,
PROCRUSTES,
PROMAX,
QUARTIMIN.
Przyk7ad:
Analiza czynnikowa metod9 sk4adowych g4ównych z rotacj9 VARIMAX i normalizacj9
Kaiser’a.
ODS HTML;
PROC FACTOR DATA = kurs.trawy_nas
METHOD = principal
NORM = kaiser
ROTATE = varimax SCREE;
VAR cecha_1_1 -- cecha_2_7;
RUN;
ODS HTML CLOSE;
Z. Lauda ski, D. R. Ma kowski
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
141
LITERATURA
AGRESTI A. 2002. Categorical Data Analysis. 2nd Edition. New Jersey, USA: John Wiley
& Sons Inc.
BOX G. E. P., HUNTER J. S., HUNTER W. G. 2005. Statistics for Experimenters — Design,
Innovation, and Discovery. Second Edition. New Jersey, USA: Wiley and Sons Inc.
CALIrSKI T. 1967. Model analizy wariancji dla do:wiadcze, wielokrotnych. Rocznik Nauk
Rolniczych, Seria A 93, 3: 549—579.
CARPENTER A. 1999. Annotate: Simply the Basics. Cary, NC, USA: SAS Publishing, SAS
Institute Inc.
CODY R. P., SMITH J. K. 2005. Applied Statistics and the SAS Programming Language. Fifth
Edition. Upper Saddle River, NJ, USA: Pearson Education Inc.
DER G., EVERITT B. S. 2002. A Handbook of Statistical Analyses using SAS. Second Edition.
London, UK: Chapman & Hall/CRC.
FISHER R. A. 1925. Statistical methods for research workers. Edynburg and London, Oliver and
Boyd.
FISHER R. A. 1935. The design of experiments. Edynburg and London, Oliver and Boyd.
FREUND R. J., LITTELL R. C. 2000. SAS System for Regression. Third Edition. New York,
USA: SAS Publishing, SAS Institute Inc., John Wiley & Sons Inc.
FRIENDLY M. 1991. SAS System for Statistical Graphics. First Edition. Cary, NC, USA: SAS
Publishing, SAS Institute Inc.
KALA R. 1996. Elementy wnioskowania parametrycznego dla przyrodników. Pozna,:
Akademia Rolnicza w Poznaniu.
KHATTRE R., NAIK D. N. 2000. Multivariate Data Reduction and Discrimination with SAS
Software. New York, USA: SAS Publishing, SAS Institute Inc., John Wiley & Sons Inc.
LITTEL R. C., STROUP W. W., FREUND R. J. 2002. SAS for linear models. Fourth edition. Cary,
NC, USA: SAS Institute Inc., John Wiley & Sons Inc.
mUBKOWSKI Z. 1968. Metodyka do:wiadczalnictwa rolniczego. Warszawa, PWRiL.
MsDRY W. 2003. Do:wiadczalnictwo - do:wiadczenia czynnikowe. Warszawa: Fundacja
Rozwój SGGW.
MULLER K. E., FETTERMAN B. A. 2003. Regression and ANOVA, an Integrated Approach
Using SAS Software. New York, USA: SAS Publishing, SAS Institute Inc., John Wiley
& Sons Inc.
NAWROCKI Z. 1967. Teoria i praktyka do:wiadczenia rolniczego. Warszawa, PWRiL.
OKTABA W. 1982 a. Elementy statystyki matematycznej i metodyka do:wiadczalnictwa.
Warszawa, PWN.
OKTABA W. 1982 b. Metody statystyki matematycznej w do:wiadczalnictwie. Warszawa,
PWN.
O'ROURKE N., HATCHER L., STEPANSKI E. J. 2005. A step-by-step approach to using SAS for
univariate & multivariate statistics. Second edition. Cary, NC, USA.: SAS Institute Inc.,
John Wiley & Sons Inc.
PIELAT H., VISCARDI T. 1987. Tablice warto:ci krytycznych wspó4czynnika korelacji.
Warszawa: Instytut Warzywnictwa.
RAO C. R. 1994. Statystyka i prawda. Warszawa, PWN.
RAWLINGS J. O., PANTULA S. G., DICKEY D. A. 2001. Applied Regression Analysis —
a Research Tool. Second Edition. New York, USA: Springer-Verlag Inc.
SAS INSTITUTE INC. 2004 a. BASE SAS 9.1.3 Procedures guide. Cary, NC, USA: SAS
Publishing, SAS Institute Inc.
Z. Lauda ski, D. R. Ma kowski
142
PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH
SAS INSTITUTE INC. 2004 b. SAS 9.1 Companion for Windows. Cary, NC, USA: SAS
Publishing, SAS Institute Inc.
SAS INSTITUTE INC. 2004 c. SAS/GRAPH 9.1 Reference. Cary, NC, USA: SAS Publishing,
SAS Institute Inc.
SAS INSTITUTE INC. 2004 d. SAS/STAT 9.1 user's guide. Cary, NC, USA: SAS Publishing,
SAS Institute Inc.
SCHLOTZHAUER S. D., LITTELL R. C. 1997. SAS System for Elementary Statistical Analysis.
Second Edition. Cary, NC, USA: SAS Publishing, SAS Institute Inc.
STOKES M. E., DAVIS C. S. 2000. Categorical Data Analysis Using the SAS System. 2nd
Edition. New York, USA: SAS Publishing, SAS Institute Inc., John Wiley & Sons Inc.
TRtTOWSKI J., WÓJCIK A. R. 1988. Metodyka do:wiadcze, rolniczych. Siedlce: WSRP.
UBYSZ-BORUCKA L., MsDRY W., MUSZYrSKI S. 1985. Podstawy statystyczne genetyki cech
ilo:ciowych w hodowli ro:lin.. Warszawa: Wydawnictwo SGGW-AR.
WALEWSKI R. 1976. Zasady planowania, prowadzenia i dokumentowania pola
do:wiadczalnego. S4upia Wielka: IMUZ.
WESTFALL P. H., TOBIAS R. D., ROM D., WOLFINGER R. D., HOCHBERG Y. 1999. Multiple
Comparisons and Multiple Tests Using SAS. Cary, NC, USA: SAS Publishing, SAS
Institute Inc.
WÓJCIK A. R. 1993. Statystyka z elementami rachunku prawdopodobie,stwa i statystyki
opisowej. Warszawa: SGGW.
WÓJCIK A. R., LAUDArSKI Z. 1989. Planowanie i wnioskowanie statystyczne
w do:wiadczalnictwie. Warszawa: PWN.
ZIELIrSKI W. 1999. Wybrane testy statystyczne. Warszawa: Fundacja Rozwój SGGW.
ZIELIrSKI W. 2000. Tablice statystyczne. Warszawa: Fundacja Rozwój SGGW.
Z. Lauda ski, D. R. Ma kowski
Download