INSTYTUT HODOWLI I AKLIMATYZACJI RO LIN PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH MATERIA Y SZKOLENIOWE Dr hab. Zbigniew Lauda ski, prof. nadzw. Katedra Biometrii Wydzia Rolnictwa i Biologii SGGW — Warszawa Mgr in&. Dariusz R. Ma kowski Pracownia Ekonomiki Nasiennictwa i Hodowli Ro lin Zak ad Nasiennictwa i Nasionoznawstwa IHAR — Radzików IHAR — RADZIKÓW, 2007 2 PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH SPIS TRE CI Szczegó owy program seminarium...............................................................5 I. II. Wprowadzenie do statystyki matematycznej...............................................9 1. Zdarzenia losowe i prawdopodobie!stwo..................................................... 9 1.1. Klasyczna definicja prawdopodobie!stwa (Laplace’a)..................... 10 1.2. Aksjomatyczna definicja prawdopodobie!stwa (Ko mogorowa) ..... 11 1.3. zasadnicze twierdzenia......................................................................... 11 1.4. Prawdopodobie!stwo ca kowite, wzór Bayesa .................................. 12 2. Zmienne losowe i ich rozk ady teoretyczne.................................................. 14 2.1. Zmienne losowe typu skokowego ........................................................ 14 2.2. Zmienne losowe typu ci/g ego............................................................. 18 3. Estymacja punktowa i przedzia owa parametrów populacji jednowymiarowych, hipotezy statystyczne................................................... 26 3.1. Statystyczna próba losowa................................................................... 26 3.2. Poj3cie estymatora (estymacja punktowa)......................................... 28 3.3. Estymacja przedzia owa ...................................................................... 30 3.4. Hipotezy statystyczne i ich weryfikacja, testy statystyczne .............. 34 3.5. Wi3cej ni5 dwie 6rednie — test analizy wariancji ............................. 46 Analiza statystyczna danych do6wiadczalnych............................................51 1. Wprowadzenie ................................................................................................ 51 2. Zasady statystyczne planowania eksperymentów........................................ 52 2.1. Metodyka i technika do6wiadcze! rolniczych.................................... 53 3. Poj3cie kontrastu ............................................................................................ 68 4. Transformacje danych empirycznych .......................................................... 71 5. Analiza wspó zale5no6ci ................................................................................. 73 6. Funkcja regresji.............................................................................................. 77 6.1. Reresja liniowa dwu zmiennych.......................................................... 77 6.2. Korelacja i regresja wielu zmiennych ................................................ 80 6.3. Modele linearyzowane, regresja krzywoliniowa................................ 82 7. Regresja w analizie wariancji........................................................................ 84 8. Analiza kowariancji........................................................................................ 85 9. Testy 2............................................................................................................. 87 9.1. Testy zgpdmo6ci 2 ............................................................................... 87 9.2. Testy niezale5no6ci 2 ........................................................................... 90 9.3. Zgodno6= rozk adów empirycznych.................................................... 93 Z. Lauda ski, D. R. Ma kowski 3 PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 4 10. Klasyfikacja danych statystycznych.................................................................. 95 10.1. Analiza skupie! (Cluster analysis)....................................................... 95 10.2. Miary odleg o6ci (Dissimilarity measure) ............................................ 95 10.3. Miary blisko6ci / podobie!stwa (Similarity measure) ........................ 97 10.4. Analiza skupie! (cd.) ............................................................................ 98 11. Analiza czynnikowa ........................................................................................ 102 11.1. Rotacje czynników, metoda varimax .................................................. 103 III. Awiczenia pokazowe ...................................................................................... 107 1. Prawid owe przygotowanie danych do analizy ............................................ 107 2. Wczytywanie danych do Systemu SAS® ....................................................... 109 2.1. SAS Enterprise Guide® ........................................................................ 109 2.2. Drodowisko programistyczne SAS® .................................................... 111 3. Podstawowe analizy statystyczne................................................................... 115 3.1. Statystyki opisowe ................................................................................ 115 3.2. Testy t .................................................................................................... 117 3.3. Analiza wariancji.................................................................................. 119 4. Planowanie eksperymentu ............................................................................. 121 4.1. Drodowisko programistyczne SAS® .................................................... 121 4.2. Drodowisko JMP 6 / 7........................................................................... 123 5. Statystyczne metody opracowywania wyników ........................................... 126 5.1. Analiza wariancji.................................................................................. 126 5.2. Analiza korelacji i regresji prostych................................................... 132 5.3. Analiza regresji wielokrotnej .............................................................. 134 5.4. Analiza kowariancji.............................................................................. 135 5.5. Tablice kontyngencji i testy chi-kwadrat ........................................... 136 5.6. Analiza skupie!..................................................................................... 137 5.7. Wielowymiarowa analiza czynnikowa................................................ 139 Literatura........................................................................................................141 Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 5 SZCZEGÓ OWY PROGRAM SEMINARIUM „PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH” (S. Sz. 13/2007) Kierownik merytoryczny: Dr hab. Zbigniew Lauda,ski, prof. nadzw. Katedra Biometrii SGGW Warszawa Data i miejsce: 20–22 listopad 2007 r. IHAR Radzików (sala konferencyjna) Szkolenie skierowane jest w g4ównej mierze do pracowników naukowych Instytutów Badawczych, Uczelni Wy7szych i Firm Hodowlanych, wykorzystuj9cych w swej pracy metody i analizy statystyczne. Obejmuje zagadnienia zwi9zane z podstawami statystyki matematycznej, biostatystyki, do:wiadczalnictwa rolniczego i analizy danych. W trakcie szkolenia zaprezentowane b;dzie wykorzystanie komputerowego oprogramowania analitycznego (System SAS®, SAS Institute Inc.) do analizy przyk4adów obrazuj9cych omawiane zagadnienia. W szczególno:ci szkolenie to kierowane jest do m4odych pracowników nauki, którym prezentowane zagadnienia z zakresu do:wiadczalnictwa rolniczego i statystyki matematycznej s9 potrzebne do prowadzenia bada,. DATA TEMAT LICZBA GODZIN GODZINY OD – DO PROWADZNCY 1 2 3 4 5 20 listopad 2007 r. (wtorek) Przyjazd uczestników; pocz;stunek (kawa, herbata, ciastka) godz. 1000–1030 0,3 1030–1045 Kierownik merytoryczny Kierownik Sekcji Promocji i Szkole, 1. Prawdopodobie,stwo, zmienne losowe, rozk4ady zmiennych losowych skokowych i ci9g4ych, parametry zmiennych losowych. Poj;cia populacji generalnej i próby reprezentatywnej – dane statystyczne i ich pozyskiwanie. Szereg rozdzielczy i histogram. 1 1045–1130 prof. SGGW Zbigniew Lauda,ski 2. Estymacja punktowa i przedzia4owa parametrów populacji jednowymiarowych. Poj;cie modelu liniowego obserwacji: yi = m + i . Hipotezy merytoryczne i statystyczne. B4;dy wnioskowania statystycznego. 1 1130–1215 prof. SGGW Zbigniew Lauda,ski Otwarcie seminarium; przedstawienie celu; sprawy organizacyjne BLOK I Wprowadzenie do statystyki matematycznej Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 6 1 2 3 Praktyczne stosowanie statystycznych testów istotno:ci: t – Studenta oraz F – Fishera przy weryfikacji hipotez statystycznych: H 0 : m = m0 , H 0 : m1 = m2 , H 0 : 2 1 = 4 5 0,5 1215–1235 mgr in7. Dariusz R. Ma,kowski IHAR — Radzików Pracownia Ekonomiki Nasiennictwa i Hodowli Ro:lin 1 1235–1320 prof. SGGW Zbigniew Lauda,ski 2 2. 3. Klasyfikacja danych statystycznych wed4ug wielu poziomów jednego kryterium (czynnika). Model liniowy obserwacji: yij = m + i + ij . Hipoteza zerowa postaci H 0 : m1 = m2 = = mk , jako rozszerzenie hipotezy postaci H 0 : m1 = m2 . Metoda analizy wariancji. Przerwa obiadowa — godz. 1320–1420 BLOK I (ci2g dalszy) Porównania wielokrotne, zastosowanie testów: Tukeya, Duncana, Dunneta. Poj;cie grupy jednorodnej oraz warto:ci NIR — Najmniejszej Istotnej Ró7nicy. 4. Fwiczenia pokazowe. 0,5 1420–1445 mgr in7. Dariusz R. Ma,kowski 1 1445–1530 mgr in7. Dariusz R. Ma,kowski Kolacja — godz. 1800 21 listopad 2007 r. (%roda) BLOK II Planowanie eksperymentu 1. Laboratoryjne i polowe do:wiadczenia porównawcze. Do:wiadczenia w uk4adach: ca4kowicie losowych i losowanych bloków (klasyczny, kwadrat 4aci,ski, split-plot, splitblock). Modele liniowe danych z wybranych do:wiadcze, jedno–, dwu– oraz trójczynnikowych. Poj;cie wspó4dzia4ania (interakcji) czynników. Do:wiadczenia wielokrotne. 1,25 830–930 prof. SGGW Zbigniew Lauda,ski 2. Do:wiadczenia czynnikowe w uk4adach kompletnych i niekompletnych, zrównowa7onych i niezrównowa7onych. 0,75 930–1000 prof. SGGW Zbigniew Lauda,ski 1 1000–1045 mgr in7. Dariusz R. Ma,kowski 3. Fwiczenia pokazowe. Przerwa na kaw; i herbat; — godz. 1045–1115 BLOK III Statystyczne metody opracowywania wyników do4wiadcze5 wg modeli analizy wariancji, kowariancji i regresji. 1. Analiza wariancji danych z wieloczynnikowych do:wiadcze, porównawczych. Transformacje danych. Poj;cie kontrastu. 1 1115–1200 prof. SGGW Zbigniew Lauda,ski Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 1 2 Weryfikacja hipotez ogólnych i szczegó4owych — porównania wielokrotne :rednich. 3 4 1 1200–1245 7 5 mgr in7. Dariusz R. Ma,kowski Przerwa obiadowa — godz. 1245–1345 BLOK III (ci2g dalszy) 2. Populacje dwuwymiarowe i wielowymiarowe. Analiza korelacja i analiza regresji liniowej dwóch zmiennych. Korelacja i regresja liniowa wielu zmiennych. 1,5 1345–1450 prof. SGGW Zbigniew Lauda,ski 3. Zastosowanie wybranych funkcji jednej zmiennej niezale7nej w analizach statystycznych. Regresja w analizie wariancji. Analiza kowariancji. 1 1450–1535 prof. SGGW Zbigniew Lauda,ski Kolacja — godz. 1700 Wyjazd do teatru — godz. 1750 22 listopad 2007 r. (czwartek) BLOK III (ci2g dalszy) Inne metody opracowywania danych statystycznych. 1. Zastosowania testu 2 Pearsona . Hipotezy nieparametryczne dotycz9ce zgodno:ci rozk4adu populacji generalnej z rozk4adem teoretycznym na podstawie wieloelementowej próby (szeregi rozdzielcze) oraz zgodno:ci rozk4adów kilku populacji generalnych. Badanie niezale7no:ci cech jako:ciowych na podstawie tablic kontyngencji. 1 830–915 prof. SGGW Zbigniew Lauda,ski 2. Analiza skupie, w badaniach zró7nicowania obiektów wielocechowych. Wielowymiarowa analiza czynnikowa w zastosowaniach do grupowania zmiennych (cech). 2 915–1045 prof. SGGW Zbigniew Lauda,ski Przerwa na kaw; i herbat; — godz. 1045–1115 BLOK III (ci2g dalszy) 3. Fwiczenia pokazowe. 2,5 1115–1315 Podsumowanie seminarium po49czone z dyskusj9 uczestników; rozdanie za:wiadcze,. 0,3 13151335 Obiad — godz. 1335 Odwiezienie autokarem do Warszawy — godz. 1415 Z. Lauda ski, D. R. Ma kowski mgr in7. Dariusz R. Ma,kowski Kierownik merytoryczny Kierownik Sekcji Promocji i Szkole, 8 PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 9 I. WPROWADZENIE DO STATYSTYKI MATEMATYCZNEJ 1. ZDARZENIE LOSOWE I PRAWDOPODOBIE STWO Do%wiadczeniem (eksperymentem) losowym nazywamy takie do:wiadczenie dla którego, pomimo sprecyzowania warunków jego realizacji, nie jeste:my w stanie przewidzieK jego wyniku (wynik losowy, przypadkowy). Rzucaj9c monet9 (do%wiadczenie) nie jeste:my w stanie okre:liK wyniku — mo7emy przecie7 uzyskaK or*a lub reszk+. Rzucaj9c kostk9 sze:cienn9, w wyniku mo7na uzyskaK jedn9 z sze:ciu mo7liwo:ci. S9 to wszystkie mo7liwe zdarzenia wyst;puj9ce w tym do:wiadczeniu. W ka7dym do:wiadczeniu losowym mo7na wi;c wyró7niK najprostsze, nierozk4adalne zdarzenia (wyniki), które nazywamy elementarnymi, o w4asno:ciach: 1) dane zdarzenie mo,e zaj%- lub nie, 2) jedno ze zdarze elementarnych na pewno zajdzie, 3) zaj%cie jednego w tym samym do%wiadczeniu wyklucza zaj%cie innego. Zbiór wszystkich zdarze, elementarnych zwi9zanych z do:wiadczeniem nazywamy przestrzeni1 zdarze elementarnych i b;dziemy oznaczaK symbolem E . Natomiast jej elementy, poszczególne zdarzenia — symbolem ei . Przestrze, zdarze, elementarnych mo7e zawieraK sko,czon9 liczb; elementów, np. przy rzucie kostk9 — E = {1, 2,3, 4,5, 6} . Mo7e byK równie7 zbiorem niesko,czonym przeliczalnym, np. rzut monet9 do pierwszego pojawienia si; or4a — E = {O,RO, RRO, RRRO,…} jak i nieprzeliczalnym — np. trafienie strza4em do tarczy traktowanej jako powierzchnia o nieprzeliczalnej liczbie punktów. Ka7dy podzbiór przestrzeni zdarze, elementarnych nazywamy zdarzeniem (losowym). Przy czym zdarzeniem pewnym nazywamy ca49 przestrze, — E , natomiast zdarzeniem niemo,liwym — podzbiór pusty zbioru E , tzn. podzbiór który niezawiera 7adnego zdarzenia. Na przyk4ad przy rzucie kostk9 oprócz zdarze, E i , mamy 6 podzbiorów jednoelementowych, 15 dwuelementowych, 20 trzyelementowych, 15 czteroelementowych i 6 pi;cioelementowych. Z matematycznego punktu widzenia zdarzenia s9 zbiorami (podzbiorami), dlatego te7 mo7na wykonywaK wszystkie dzia4ania mnogo:ciowe, które prowadz9 do tworzenia nowych zdarze,. St9d te7 mamy, dla co najmniej dwu zdarze, A oraz B (np. A = {e2 , e4 , e6 } — parzysta liczba oczek, B = {e4 , e5 , e6 } — liczba oczek wi;ksza ni7 3), odpowiednie operacje: 1. Suma (alternatyw+) zdarze — A B = {e2 , e4 , e5 , e6 } , 2. Iloczyn (koniunkcj+) zdarze — A B = {e4 , e6 } . Je7eli iloczyn jest zbiorem pustym — , wtedy mówimy o zdarzeniach wykluczaj1cych si+ (wy49czaj9cych si;), 3. Ró8nica zdarze — A B = {e2 } , 4. Negacja zdarze — A = {e1 , e3 , e5 } oznacza zdarzenie przeciwne do zdarzenia A , czyli A = E A . 5. Implikacja zdarze — je7eli jedno zdarzenie poci9ga za sob9 zaj:cie innego zdarzenia; np. zdarzenie: C = „wypad*a jedynka” poci9ga za sob9 np. zdarzenie: D = „wypad*a nieparzysta liczba oczek”, czyli C D . Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 10 1.1. Klasyczna definicja prawdopodobie1stwa (Laplace'a) Je7eli wszystkie zdarzenia elementarne s9 jednakowo mo,liwe, to prawdopodobie,stwo zaj:cia zdarzenia A jest ilorazem liczby zdarze elementarnych sprzyjaj9cych zaj:ciu A do k liczby mo,liwych zdarze , tzn. P ( A ) = . n Przyk*ad: Zdarzenie A = {e3 , e4 , e5 , e6 } w rzucie kostk9, wtedy k = 4, n = 6 , czyli P ( A ) = 2 . 3 Przyk*ad: Niech zdarzenie A oznacza trafienie „szóstki” w du7ego lotka. Liczba elementów przestrzeni E jest równa: Cnk = n! 49 k = = = 13 983 816 , n k ! ( n k )! 6! ( 49 6 )! czyli P ( A ) = 1 13983816 0,0000000715 . Mo7emy wyznaczyK prawdopodobie,stwa wylosowania: „trójki”: 6 3 = 0,0176504 , 49 6 6 4 „czwórki”: „pi1tki”: 43 3 43 2 49 6 6 5 43 1 49 6 = 0,0009686 , = 0,00001845 . Prawdopodobie,stwo jakiejkolwiek wygranej w totolotka jest równe sumie prawdopodobie,stw poszczególnych wygranych (suma zdarze roz*1cznych), tzn. jest ono równe: 0, 0186375215 0,019 . Oznacza to, 7e na 1000 zak4adów (gier) mamy szans; wygrania w 19 zak4adach, natomiast przegrania (zdarzenie przeciwne) w 981 grach. 0,0176504 razy wi;ksz9 ni7 wytypowaK 0,0009686 0,0009686 razy wi;ksze ni7 „pi1tki”. „czwórk+”, natomiast trafienie „czwórki” jest 52,50 = 0,00001845 Dalej, 7e trafiK „trójk+” mamy szans; 18, 22 = Jaka bywa praktyka — np. w zak4adach z 27.10.2007 r. mieli:my: (6) 1, ( 5 ) 228, ( 4 ) 13662, ( 3) 244684 , Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 11 244684 razy wi;ksza ni7 wytypowanie 13662 13662 „czwórki”, natomiast trafienie „czwórki” jest 59,92 = razy wi;ksze ni7 „pi1tki”. 228 Widoczna jest znacz9ca zgodno:K teorii z praktyk9. Mamy tutaj, 7e szansa trafienia „trójki” jest 17,91 = 1.2. Aksjomatyczna definicja prawdopodobie1stwa (Ko mogorowa) Prawdopodobie stwo zdarzenia A jest to funkcja okre:lona na zbiorze zdarze elementarnych E o okre:lonych mo7liwo:ciach tworzenia sum zdarze,, iloczynów, ró7nic, zdarze, przeciwnych, pewnych i niemo7liwych, spe4niaj9ca uk4ad trzech aksjomatów: 1. Dla ka7dego A mamy P ( A ) 0 , 2. P ( E ) = 1 , 3. P ( A1 Ai A2 Aj = …) = P ( A1 ) + P ( A2 ) + … dla i dla zdarze, parami roz49cznych — j. Z powy7szych aksjomatów wynikaj9 wnioski: 1. Dla ka7dego A prawdziwe jest równo:K ( ) P A = 1 P ( A) , 2. Prawdopodobie,stwo zdarzenia niemo7liwego jest równe zero, tzn. P ( czyli P ( E ) = 1 , 3. Dla ka7dego zdarzenia A )=0, E prawdziwa jest relacja: 0 P ( A) 1 . 1.3. Zasadnicze twierdzenia Je7eli zdarzenia A i B s9 zale,ne (losowanie bez zwracania), wtedy mamy prawdopodobie stwo warunkowe: P ( A B) = P( A B) P(B) , je:li P ( B ) > 0 . Je:li natomiast spe4niona jest równo:K: P ( A B ) = P ( A ) lub P ( B A ) = P ( B ) , to zdarzenia A i B s9 niezale,ne (losowanie ze zwracaniem). Prawdopodobie stwo iloczynu dwóch zdarze : P( A B ) = P ( A ) P ( B A) = P ( B ) P ( A B ) , co mo7na uogólniK na dowoln9 liczb; zdarze,, np. dla trzech: P( A B C ) = P ( A) P ( B A) P ( C A Je7eli zdarzenia A i B s9 niezale,ne, wtedy: P( A Z. Lauda ski, D. R. Ma kowski B ) = P ( A) P ( B ) . B) . PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 12 Przyk*ad: W urnie znajduje si; 5 bia4ych, 4 czarne i 3 zielone kule. Losujemy bez zwracania trzy kule. Jakie jest prawdopodobie,stwo wylosowania kul: A — bia4ej, B — czarnej oraz C — kuli zielonej? P( A B C ) = P ( A) P ( B A) P ( C A = B) = 5 4 3 1 + + = . 12 11 10 22 Prawdopodobie stwo sumy zdarze : P( A B ) = P ( A) + P ( B ) P ( A B) . Je7eli dwa zdarzenia A i B s9 roz49czne (wykluczaj1ce si+), wtedy: P( A B ) = P ( A) + P ( B ) . 1.4. Prawdopodobie1stwo ca:kowite, wzór Bayesa Za4ó7my, 7e interesuj9ce nas zdarzenie A mo7e zaj:K, je:li zajdzie jedno z wykluczaj9cych si; zdarze,: B1 , B2 ,…, Bn , tworz9cych uk4ad zdarze, wy*1czaj1cych si+, a ich suma prawdopodobie,stw wynosi 1 — czyli jest zdarzeniem pewnym (jakiekolwiek Bi zawsze zajdzie), wtedy prawdopodobie stwo ca*kowite zaj:cia zdarzenia A : P ( A) = n i =1 P ( Bi ) P ( A Bi ) . Za4ó7my dalej, 7e przeprowadzono do:wiadczenie, w wyniku którego zasz4o zdarzenie A , które mo7e zaj:K tylko wówczas, gdy zajdzie jedno ze zdarze, Bi — dla i = 1, 2,… , n . Poniewa7 nie wiemy, które z tych zdarze, Bi zajdzie, wi;c zdarzenia te nazywamy hipotezami, ich prawdopodobie,stwa realizacji P ( Bi ) — prawdopodobie,stwami a’priori, natomiast P ( Bi A ) — prawdopodobie,stwami hipotezy a’posteriori, które to prawdopodobie,stwa wyznaczymy korzystaj9c z formu4y Bayesa: P ( Bi A ) = P ( Bi ) P ( A Bi ) gdzie oczywi:cie P ( A ) = P ( A) n i =1 , P ( Bi ) P ( A Bi ) . Przyk*ad: Nasiona w sklepie pochodz9 od trzech producentów odpowiednio: 10%, 50% i 40%. Na podstawie obserwacji stwierdzono, 7e niekie4kuj9ce nasiona od pierwszego stanowi9 2%, od drugiego — 10%, za: od trzeciego — 4%. Wysiane nasionko nie wykie4kowa4o — od którego producenta najprawdopodobniej ono pochodzi? PrzeprowadSmy cykl oblicze, dla uzyskania odpowiedzi. Prawdopodobie,stwo (ca*kowite) tego, 7e wysiane nasionko nie wykie4kuje jest równe: P ( A ) = 0,1 0,02 + 0,5 0,1 + 0, 4 0,04 = 0,068 , Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 13 natomiast szanse realizacji poszczególnych trzech hipotez a’posteriori wynosz9 odpowiednio: ( H1 ) : P ( B1 A) = ( H 2 ) : P ( B2 0,1 0,02 = 0,0294 , 0,068 A) = ( H 3 ) : P ( B3 A) = 0,5 0,1 = 0,7353 , 0,068 0, 4 0,04 = 0, 2353 . 0,068 Nietrudno zauwa7yK, 7e szanse te s9 zró7nicowane. Ró7nice te wynikaj9 oczywi:cie ze zró7nicowania poszczególnych udzia4ów oraz zdolno:ci kie4kowania nasion pochodz9cych od poszczególnych producentów. Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 14 2. ZMIENNE LOSOWE I ICH ROZK ADY TEORETYCZNE Przez zmienn1 losow1 mo7na intuicyjnie rozumieK zmienn9, która w wyniku do%wiadczenia losowego mo7e przyj9K warto:K z pewnego zbioru liczb rzeczywistych z okre:lonym prawdopodobie,stwem. Na przyk4ad: 1) liczba przedmiotów wyprodukowanych na danym stanowisku w ci9gu jednej zmiany, 2) wyniki pomiarów, 3) ilo:K energii zu7ywanej dziennie w mieszkaniu, 4) warto:K cech jednostek statystycznych wylosowanych z populacji generalnej (próba). Przestrze, zdarze, elementarnych E mo7e byK zatem zbiorem o ró7nych elementach (np. orze4 i reszka, :cianki kostki sze:ciennej, plony konkretnej ro:liny uprawnej, itp.) i ka7dy taki zbór E mo7na odwzorowaK na podzbiór liczb rzeczywistych R – (np. odpowiednio: {0, 1}, {1, 2, 3, 4, 5, 6}, {plony od 0 do 150 dt/ha}). Przyk*ad: Rzucamy trzema monetami (orze4 — 1, reszka — 0). Ka7demu zdarzeniu elementarnemu — {(OOO), (OOR), (ORO), (ROO), (RRO), (ROR), (ORR), (RRR)} przyporz9dkowujemy sum; liczb, wskazuj9c9 na liczb; wyrzuconych or4ów. Mianowicie odpowiednio: {3, 2, 2, 2, 1, 1, 1, 0}. W przypadku rzutu kostk9 do gry, mamy zbiorowi sze:ciu :cianek kostki przyporz9dkowany zbiór warto:ci: {1, 2, 3, 4, 5, 6} — liczba oczek. Mo7na powiedzieK, 7e zmienn1 losow1 X nazywamy ka7d9 funkcj; mierzaln9 okre:lon9 na przestrzeni zdarze, elementarnych E i przybieraj9c9 warto:K ze zbioru liczb rzeczywistych (odwzorowanie X : E R ). Zmienne losowe oznaczamy zazwyczaj du7ymi literami: X , Y , Z ,… , natomiast warto:ci przybierane przez te zmienne (tzw. realizacje zmiennych), ma4ymi: x, y , z,… Wzajemne przyporz9dkowanie warto:ci zmiennych losowych i zdarze, jest jednoznaczne. Oznacza to, 7e ka7de zdarzenie mo7e byK scharakteryzowane tylko jedn9 z mo7liwych warto:ci zmiennej losowej. Liczby rzeczywiste x ! R b;d9ce realizacjami zmiennej losowej X , mog9 tworzyK sko czony lub niesko czony podzbiór zbioru liczb rzeczywistych. a) Zmienn1 losow1, której zbiór ró7nych warto:ci jest przeliczalny albo sko,czony, nazywamy zmienn9 losow1 skokow1 lub dyskretn1. Takimi zmiennymi losowymi s9 np. liczba dzieci w rodzinie, liczba nasion w k4osie czy liczba jaj zniesionych przez kur; w okresie roku. b) Zmienn1 losow1, której zbiór mo7liwych realizacji jest niesko,czony i nieprzeliczalny nazywamy zmienna losow1 ci1g*1. Takimi zmiennymi typu ci9g4ego jest np. wzrost, waga, wiek poszczególnych osób czy plon z hektara konkretnej odmiany zbo7a. 2.1. Zmienne losowe typu skokowego Z definicji zmiennej losowej wynika, 7e dowolne zbiory jej warto:ci s9 zdarzeniami losowymi, którym odpowiadaj9 okre:lone prawdopodobie,stwa. Funkcj; przyporz9dkowuj9c9 realizacjom zmiennej losowej X odpowiadaj9ce im prawdopodobie,stwa nazywamy funkcj1 rozk*adu prawdopodobie stwa tej zmiennej lub krócej: rozk adem prawdopodobie5stwa. Zapisujemy to nast;puj9co: P ( x = xi ) = pi , gdzie n i =1 pi = 1 oraz pi 0 , i = 1, 2,3,… Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 15 Liczby xi nazywamy punktami skokowymi zmiennej losowej X , a prawdopodobie,stwa pi — skokami tej zmiennej. Rozk4ad takiej zmiennej mo7na definiowaK za pomoc9 wzoru, tabeli lub wykresu. Na przyk4ad zmienna losowa oznaczaj9ca liczb; or4ów uzyskanych w trzech rzutach monet9: warto:ci ( xi ) zmiennej X 0 1 2 3 prawdopodobie,stwa ( pi ) 1 8 3 8 3 8 1 8 Rozk4ad ten mo7na przedstawiK graficznie: pi 3 8 1 8 0 1 3 2 xi Rozk4ad prawdopodobie,stwa wyra7ony analitycznie (za pomoc9 wzoru), podaj9cy prawdopodobie,stwa tego, 7e orze4 pojawi si; po raz pierwszy w k-tym rzucie monet9 ( k = 1, 2,… ), tzn. E = {O,RO, RRO, RRRO,…} jest nast;puj9cy: P( X = k ) = 1 , 2k 1 1 2 = 1 , jako suma wyrazów post;pu = k 1 2 1 k =1 2 niesko,czonego o ilorazie równym 1 i pierwszym wyrazie równym 1 . 2 2 gdzie oczywi:cie n geometrycznego Wa7nym poj;ciem zwi9zanym ze zmienn1 losow1 i jej rozk*adem jest poj;cie funkcji dystrybuanty. Dystrybuant1 zmiennej losowej X nazywamy funkcj; F ( x ) zmiennej rzeczywistej x , okre:lon9 wzorem: F ( x) = P ( X x ) dla ka7dego x ! R . Dla zmiennej losowej skokowej — dystrybuanta okre:lona jest wzorem: F ( x) = P( X Z. Lauda ski, D. R. Ma kowski x) = xi x pi dla i = 0,1,2,… PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 16 Dystrybuanta zmiennej losowej oznaczaj9cej liczb; or4ów w trzech rzutach monet9 jest postaci: F ( x) 1 7 8 4 8 1 8 0 1 3 2 #0 %1 % %% 84 F (x ) = $ %8 %7 %8 %& 1 d la x x < 0 d la 0 x <1 d la 1 x < 2 d la 2 x < 3 d la 4 x 3 Znaj9c rozk4ad, zawsze mo7na znaleSK dystrybuant;, i odwrotnie. Dystrybuanta zmiennej losowej ma nast;puj9ce w4asno:ci: 1. Jest niemalej9ca, tzn. dla x1 < x2 zawsze F ( x1 ) F ( x2 ) oraz prawostronnie ci9g4a. 2. Jest ograniczona: 0 F ( x ) 1 , przy czym F ( ' ) = 0 i F ( +' ) = 1 . 3. Jest przedzia4ami sta4a oraz mo7e mieK sko,czon9 lub przeliczaln9 liczb; punktów nieci9g4o:ci (skoków), przy czym mamy: P ( a < X b ) = F ( b ) F ( a ) . Najwi;ksze praktyczne znaczenie maj9 parametry zmiennej losowej charakteryzuj9ce jej po4o7enie i rozrzut warto:ci. S9 to odpowiednio: warto%- %rednia (oczekiwana, przeci+tna) oraz wariancja i odchylenie standardowe. Warto%ci1 oczekiwan1 zmiennej losowej X typu skokowego nazywamy liczb; okre:lon9 wzorem: E(X ) = n x i =1 i pi . W4asno:ci warto:ci oczekiwanej: 1) warto:K oczekiwana sta4ej jest równa tej sta4ej, tzn. E (C ) = C , 2) warto:K oczekiwana sumy zmiennych losowych jest równa: E ( X + Y ) = E ( X ) + E (Y ) — sumie warto:ci oczekiwanych, co mo7na uogólniK na wiele zmiennych. 3) warto:K oczekiwana iloczynu dwóch zmiennych jest równa: E ( X Y ) = E ( X ) E (Y ) — iloczynowi warto:ci oczekiwanych. Oczywi:cie, sta4y mno7nik mo7na wynosiK przed warto:K :redni9, tzn. E ( C X ) = C E ( X ) . Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 17 Wariancj1 zmiennej losowej X typu skokowego nazywamy liczb;: D2 ( X ) = 2 E ( X ) +) pi = E *( X n (x i =1 * i ( ) = E X2 E ( X ) +) = 2 (* E ( X ) +) . 2 Wariancja jest wi;c warto%ci1 oczekiwan1 kwadratu odchyle, warto:ci zmiennej od jej warto:ci oczekiwanej. Ma ona nast;puj9ce w4asno:ci: 1) wariancja sta4ej jest równa zeru, tzn. D 2 ( C ) = 0 , 2) wariancja iloczynu sta4ej i zmiennej losowej jest równa: D2 (C X ) = C 2 D2 ( X ) , 3) wariancja sumy (ró7nicy) dwóch zmiennych niezale7nych jest równa sumie ich wariancji, tzn. D 2 ( X ± Y ) = D 2 ( X ) + D 2 (Y ) . Pierwiastek kwadratowy z wariancji nosi nazw; odchylenia standardowego, czyli: D ( X ) = D2 ( X ) . 2.1.1. Przyk:adowe rozk:ady zm. losowych typu skokowego Warto:ciom zmiennych losowych mo7na na niesko,czenie przyporz9dkowywaK prawdopodobie,stwa spe4niaj9ce warunki: n i =1 wiele sposobów pi = 1 (lub ' i =1 pi = 1 ) oraz pi 0 . Oznacza to, 7e istnieje wiele rozk4adów zmiennych losowych skokowych, jednak7e niektóre z nich pojawiaj9 si; cz;sto w praktycznych zastosowaniach. Do nich nale79 rozk4ady: 1. Dwupunktowy — powsta4y w wyniku podzia4u zbioru zdarze, elementarnych na dwie cz;:ci: zdarzenie A (sukces) i zdarzenie przeciwne A (niepowodzenie), a nast;pnie przyporz9dkowanie tym zdarzeniom liczb rzeczywistych: A x1 , A x2 . Najcz;:ciej rozwa7amy zmienn9 losow9 gdy: x1 = 0 , x2 = 1 (rozk4ad zerojedynkowy). Przyjmuj9c oznaczenia: p1 = q i p2 = 1 q = p . Zatem funkcja rozk4adu jest postaci: P ( X = x ) = p x q1 wynosi E ( X ) = p , a wariancja D 2 x dla x = 0 lub x = 1 i warto:K oczekiwana ( X ) = pq . 2. Dwumianowy (Bernoulliego) — wyra7a liczb; sukcesów w serii n niezale7nych do:wiadcze,. Jest wi;c w gruncie rzeczy sum9 n niezale7nych zmiennych losowych zerojedynkowych. Funkcja rozk4adu prawdopodobie,stwa jest tutaj postaci: n P ( X = k ; n; p ) = p k q n k , dla k ! {0,1, 2,…, n} , k czyli: E ( X ) = np , D 2 ( X ) = npq i D ( X ) = npq . Na przyk4ad wyrzucenie dwu or4ów w rzucie trzema monetami jest równe: 3 P ( X = 2;3;0,5 ) = 0,52 0,53 2 = 3 0,25 0,5 = 0,375 . 2 Parametry rozk4adu zmiennej obrazuj9cej rzut trzema monetami: E ( X ) = 1,5 ; D 2 ( X ) = 0,75 ; D ( X ) = 0, 75 . Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 18 3. Poissona (rozk*ad rzadkich zdarze ) — jest granicznym rozk4adem niezale7nych serii do:wiadcze,, w których wraz ze wzrostem n maleje do zera prawdopodobie,stwo p pojedynczego sukcesu, w ten sposób, 7e np - , gdzie — ustalona liczba dodatnia. Funkcja rozk4adu jest postaci: P- ( k ) = -k - , k! st9d te7 mamy, 7e: E ( X ) = - , D 2 ( X ) = - , D ( X ) = - . e Przyk*ad: W jednej z uczelni wylosowano 90 studentów oraz dokonano rejestracji ich nieobecno:ci na obowi9zkowych zaj;ciach w wybranym semestrze. Otrzymano wyniki: liczba dni nieobecno:ci liczba studentów 0 12 1 20 2 27 3 18 4 7 5 3 6 2 7 1 Zak4adaj9c, 7e rozk4ad liczby nieobecno:ci na zaj;ciach jest rozk4adem Poissona, wyznaczyK prawdopodobie,stwo, 7e student b;dzie nieobecny mniej ni7 dwa razy oraz trzykrotnie. Mamy tutaj: - = E(X ) = 0 12 20 27 +1 +2 + 90 90 90 +7 1 = 2,1 . 90 Mo7na wi;c wyznaczyK poszczególne prawdopodobie,stwa: P ( X = 3) = 2,13 e 3! 2,1 = 0,189 , P ( X < 2 ) = P ( X = 1) + P ( X = 2 ) = = 2,10 e 0! 2,1 + 2,11 e 1! 2,1 = 0,1225 + 0, 2575 = 0,38. 2.2. Zmienne losowe typu ci@g:ego Dla zmiennej losowej ci1g*ej niemo7liwe jest przypisanie jej warto:ciom dodatnich prawdopodobie,stw sumuj9cych si; do jedno:ci. Mo7liwe jest jednak przyporz9dkowanie takich prawdopodobie,stw przedzia4om, np. P ( x < X < x + .x ) , gdzie .x jest d4ugo:ci9 pewnego krótkiego przedzia4u o pocz9tku w punkcie x. Je7eli przy .x 0 istnieje granica f ( x ) postaci: lim .x P ( x < X < x + .x ) .x 0 = f ( x) , to granic; t; nazywamy funkcj1 g+sto%ci prawdopodobie stwa zmiennej losowej X , lub krótko: g+sto%ci1 prawdopodobie stwa. Prawdopodobie,stwo tego, 7e zmienna losowa ci9g4a przyjmuje warto:K z przedzia4u liczbowego [a, b] jest ca4k9 z funkcji g;sto:ci prawdopodobie,stwa, tzn. P(a b X b ) = P ( a < X < b ) = / f ( x ) dx , a gdy7 P ( a X a ) = P (b X b) = 1 . Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 19 Tak wi;c ka7da funkcja spe4niaj9ca warunki na przedziale [ a, b ] : 1. f ( x ) 0 , b 2. / +' f ( x ) dx = 1 lub / f ( x ) dx = 1 , mo7e byK funkcj1 g+sto%ci prawdopodobie ' a Dystrybuanta F ( x) = P ( X stwa. x) = zmiennej x / ' losowej ci9g4ej nazywamy funkcj; postaci: dF ( x ) f ( u ) du , st9d funkcja g;sto:ci jest równa: f ( x ) = F 2 ( x ) = o ile dx X F ( x ) jest funkcj9 ró7niczkowaln9. 2.2.1. Przyk:adowe rozk:ady zmiennych losowych typu ci@g:ego 1. Rozk*ad równomierny — zmienna losowa X ma rozk*ad równomierny, je:li jej funkcja g;sto:ci jest dana wzorem: f ( x) 1 b a a a +b 2 b x # 1 % dla x ! [ a, b ] , f ( x) = $b a dla x 3 [ a, b ] %&0 Powy7szy wykres przedstawia funkcj; rozk4adu równomiernego (prostok9tnego). PostaK funkcji dystrybuanty powy7szej zmiennej losowej jest nast;puj9ca: F ( x) = x / ' x f ( u ) du = / a 1 b a x du = u ) x a 1 a x . = = 4 b a +a b a b a b a Jest to wi;c funkcja liniowa na przedziale [ a, b ] o równaniu jak wy7ej, natomiast dla pozosta4ych x jest funkcj9 sta49: dla x < a mamy f ( x ) = 0 , za: dla x b mamy f ( x) = 1. Tak wi;c dystrybuanta tej zmiennej losowej jest postaci: # 0 %x a % F ( x) = $ %b a %& 1 Z. Lauda ski, D. R. Ma kowski dla x a dla x ! [ a, b ] dla x b PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 20 Wykres funkcji dystrybuanty dla a = 1 i b = 4 przedstawia poni7szy rysunek Zmienna ta przyjmuje wi;c warto:ci z przedzia4u [a, b] z jednakowymi szansami. Jej parametry s9 równe: b x2 ) b2 a 2 a+b E ( X ) = / x f ( x ) dx = / dx = = , 4 = 2 ( b a ) 4+ a 2 ( b a ) 2 a a a b b b b D 2 ( X ) = / (* x E ( X ) )+ 2 a x b a +b) 2 4+ ( f ( x ) dx = / 5 x a* D ( X ) = D2 ( X ) = (b a) 12 2 = 2 1 b a dx = (b a) 2 12 , b a . 2 3 2. Rozk*ad normalny (Gaussa–Laplace'a) — jest podstawowym rozk4adem zmiennej losowej ci9g4ej o funkcji g;sto:ci danej wzorem: f ( x ) = m = E(X ), = D( X ) . Fakt ten najcz;:ciej zapisujemy: X ~ N ( m, 2 ). 1 e 26 (x 2 m) 2 2 , gdzie: Krzywa normalna jest krzyw9 symetryczn9 wzgl;dem prostej x = m , posiada maksimum w punkcie x = m , które 1 jest równe . Punkt ten jest nie tylko warto:ci9 oczekiwan9, ale tak7e 26 median9 i modaln9 (dominant9) rozk4adu. Krzywa ta ma dwa punkty przegi;cia oraz x = m + . Dystrybuanta rozk4adu jest okre:lona w punktach: x = m wzorem: F ( x ) = 1 26 x / exp ' (t 2 m) 2 2 dt dla x ! R . Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 21 Lewe i prawe rami; krzywej zbli7aj9 si; asymptotycznie do osi odci;tych (x), przy czym poza przedzia4em „trzysigmowym” rz;dne niewiele ró7ni9 si; od zera. Mamy odpowiednio: P(m X m+ ) = 0,6827 , P(m 2 X m+2 ) = 0,9545 , P(m 3 X m+3 ) = 0,9973 Ostatnia relacja okre:la tzw. prawo trzech sigm — prawie wszystkie elementy populacji mieszcz9 si; w przedziale trzysigmowym. 2.2.2. Standaryzacja rozk:adu normalnego Dla unikni;cia 7mudnych rachunków przy wyliczaniu warto:ci g;sto:ci i dystrybuanty X m zmiennej losowej X ~ N ( m, 2 ) stosuje si; przekszta4cenie zwane standaryzacj1: Z = . W ten sposób funkcja g;sto:ci rozk4adu normalnego standaryzowanego — Z ~ N ( 0;1) , jest 1 e postaci: g ( z ) = 26 z2 2 . Wykres g;sto:ci rozk4adu normalnego standaryzowanego Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 22 Warto:ci funkcji g;sto:ci i dystrybuanty rozk4adu Z ~ N ( 0;1) s9 tablicowane. Natomiast dla obliczania dowolnego prawdopodobie,stwa mo7na wykorzystywaK równo:K: P(a X b) = P a m X m b m =P a m Z b m . Przyk*ad: ObliczyK prawdopodobie stwo, 7e wzrost przypadkowego m;7czyzny b;dzie zawarty mi;dzy 190 a 200 cm, skoro wiadomo, 7e populacja m;7czyzn ma rozk4ad X ~ N (172;36 ) . P (190 X 200 ) = P 190 172 6 = P (3 Z Rozk4ad X ~ N ( m; 2 ), standaryzowany Z ~ N ( 0;1) , f. g. 4,67 ) = 0,0013 1 e 26 f ( x) = p.: 200 172 = 6 Z 1 f. g. p.: g ( z ) = e 26 z2 2 (x 2 m) 2 2 Z= X m rozk*ad . Funkcja g sto ci prawdopodobie stwa y=normal(x;0;1) 0,60 0,45 0,30 0,15 0,00 -3,50 -1,75 0,00 P{ X Funkcja dystrybuanty — F ( z ) = 1 26 1,75 3,50 1,75} = 0,959941 z /e 1 2 t 2 dt ' Dystrybuanta p=inormal(x;0;1) 1,0 0,8 0,6 0,4 0,2 0,0 -3,50 -1,75 F (1, 75 ) = P ( X 0,00 1,75 3,50 1,75 ) = 0,959941 Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH Dystrybuanta rozk4adu N(0; 1) — F ( z ) = 1 26 z /e 1 2 t 2 23 dt ' z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0 0,50000 0,50399 0,50798 0,51197 0,51595 0,51994 0,52392 0,52790 0,53188 0,53586 0,1 0,53983 0,54380 0,54776 0,55172 0,55567 0,55962 0,56356 0,56749 0,57142 0,57535 0,2 0,57926 0,58317 0,58706 0,59095 0,59483 0,59871 0,60257 0,60642 0,61026 0,61409 0,3 0,61791 0,62172 0,62552 0,62930 0,63307 0,63683 0,64058 0,64431 0,64803 0,65173 0,4 0,65542 0,65910 0,66276 0,66640 0,67003 0,67364 0,67724 0,68082 0,68439 0,68793 0,5 0,69146 0,69497 0,69847 0,70194 0,70540 0,70884 0,71226 0,71566 0,71904 0,72240 0,6 0,72575 0,72907 0,73237 0,73565 0,73891 0,74215 0,74537 0,74857 0,75175 0,75490 0,7 0,75804 0,76115 0,76424 0,76730 0,77035 0,77337 0,77637 0,77935 0,78230 0,78524 0,8 0,78814 0,79103 0,79389 0,79673 0,79955 0,80234 0,80511 0,80785 0,81057 0,81327 0,9 0,81594 0,81859 0,82121 0,82381 0,82639 0,82894 0,83147 0,83398 0,83646 0,83891 1,0 0,84134 0,84375 0,84614 0,84849 0,85083 0,85314 0,85543 0,85769 0,85993 0,86214 1,1 0,86433 0,86650 0,86864 0,87076 0,87286 0,87493 0,87698 0,87900 0,88100 0,88298 … … … … … … … … … … … 1,9 0,97128 0,97193 0,97257 0,97320 0,97381 0,97441 0,97500 0,97558 0,97615 0,97670 2,0 0,97725 0,97778 0,97831 0,97882 0,97932 0,97982 0,98030 0,98077 0,98124 0,98169 2,1 0,98214 0,98257 0,98300 0,98341 0,98382 0,98422 0,98461 0,98500 0,98537 0,98574 2,2 0,98610 0,98645 0,98679 0,98713 0,98745 0,98778 0,98809 0,98840 0,98870 0,98899 … … … … … … … … … … … 2,9 0,99813 0,99819 0,99825 0,99831 0,99836 0,99841 0,99846 0,99851 0,99856 0,99861 3,0 0,99865 0,99869 0,99874 0,99878 0,99882 0,99886 0,99889 0,99893 0,99896 0,99900 3,1 0,99903 0,99906 0,99910 0,99913 0,99916 0,99918 0,99921 0,99924 0,99926 0,99929 3,2 0,99931 0,99934 0,99936 0,99938 0,99940 0,99942 0,99944 0,99946 0,99948 0,99950 3,3 0,99952 0,99953 0,99955 0,99957 0,99958 0,99960 0,99961 0,99962 0,99964 0,99965 3,4 0,99966 0,99968 0,99969 0,99970 0,99971 0,99972 0,99973 0,99974 0,99975 0,99976 3,5 0,99977 0,99978 0,99978 0,99979 0,99980 0,99981 0,99981 0,99982 0,99983 0,99983 3,6 0,99984 0,99985 0,99985 0,99986 0,99986 0,99987 0,99987 0,99988 0,99988 0,99989 3,7 0,99989 0,99990 0,99990 0,99990 0,99991 0,99991 0,99992 0,99992 0,99992 0,99992 3,8 0,99993 0,99993 0,99993 0,99994 0,99994 0,99994 0,99994 0,99995 0,99995 0,99995 3,9 0,99995 0,99995 0,99996 0,99996 0,99996 0,99996 0,99996 0,99996 0,99997 0,99997 Je7eli z jest liczb9 ujemn9, to F ( z ) = 1 F ( z ) F ( z) = P(Z z) Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 24 Dystrybuanta rozk4adu N(0; 1) — 7 ( z ) = 1 26 z /e 1 2 t 2 dt z z 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,1 0,0 0,00798 0,01596 0,02393 0,03191 0,03988 0,04784 0,05581 0,06376 0,07171 0,07966 0,1 0,08759 0,09552 0,10343 0,11134 0,11924 0,12712 0,13499 0,14285 0,15069 0,15852 0,2 0,16633 0,17413 0,18191 0,18967 0,19741 0,20514 0,21284 0,22052 0,22818 0,23582 0,3 0,24344 0,25103 0,25860 0,26614 0,27366 0,28115 0,28862 0,29605 0,30346 0,31084 0,4 0,31819 0,32551 0,33280 0,34006 0,34729 0,35448 0,36164 0,36877 0,37587 0,38292 0,5 0,38995 0,39694 0,40389 0,41080 0,41768 0,42452 0,43132 0,43809 0,44481 0,45149 0,6 0,45814 0,46474 0,47131 0,47783 0,48431 0,49075 0,49714 0,50350 0,50981 0,51607 0,7 0,52230 0,52848 0,53461 0,54070 0,54675 0,55275 0,55870 0,56461 0,57047 0,57629 0,8 0,58206 0,58778 0,59346 0,59909 0,60468 0,61021 0,61570 0,62114 0,62653 0,63188 0,9 0,63718 0,64243 0,64763 0,65278 0,65789 0,66294 0,66795 0,67291 0,67783 0,68269 1,0 0,68750 0,69227 0,69699 0,70166 0,70628 0,71086 0,71538 0,71986 0,72429 0,72867 1,1 0,73300 0,73729 0,74152 0,74571 0,74986 0,75395 0,75800 0,76200 0,76595 0,76986 … … … … … … … … … … … 1,9 0,94387 0,94514 0,94639 0,94762 0,94882 0,95000 0,95116 0,95230 0,95341 0,95450 2,0 0,95557 0,95662 0,95764 0,95865 0,95964 0,96060 0,96155 0,96247 0,96338 0,96427 2,1 0,96514 0,96599 0,96683 0,96765 0,96844 0,96923 0,96999 0,97074 0,97148 0,97219 2,2 0,97289 0,97358 0,97425 0,97491 0,97555 0,97618 0,97679 0,97739 0,97798 0,97855 … … … … … … … … … … … 2,9 0,99639 0,99650 0,99661 0,99672 0,99682 0,99692 0,99702 0,99712 0,99721 0,99730 3,0 0,99739 0,99747 0,99755 0,99763 0,99771 0,99779 0,99786 0,99793 0,99800 0,99806 3,1 0,99813 0,99819 0,99825 0,99831 0,99837 0,99842 0,99848 0,99853 0,99858 0,99863 3,2 0,99867 0,99872 0,99876 0,99880 0,99885 0,99889 0,99892 0,99896 0,99900 0,99903 3,3 0,99907 0,99910 0,99913 0,99916 0,99919 0,99922 0,99925 0,99928 0,99930 0,99933 3,4 0,99935 0,99937 0,99940 0,99942 0,99944 0,99946 0,99948 0,99950 0,99952 0,99953 3,5 0,99955 0,99957 0,99958 0,99960 0,99961 0,99963 0,99964 0,99966 0,99967 0,99968 3,6 0,99969 0,99971 0,99972 0,99973 0,99974 0,99975 0,99976 0,99977 0,99978 0,99978 3,7 0,99979 0,99980 0,99981 0,99982 0,99982 0,99983 0,99984 0,99984 0,99985 0,99986 3,8 0,99986 0,99987 0,99987 0,99988 0,99988 0,99989 0,99989 0,99990 0,99990 0,99990 3,9 0,99991 0,99991 0,99992 0,99992 0,99992 0,99993 0,99993 0,99993 0,99993 0,99994 7(z) = F (z) (1 7(z) = P( z Z F ( z )) = 2 F ( z ) 1 z) Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 25 2.2.3. Rozk:ad empiryczny a rozk ad normalny Wiele zjawisk w naszym otoczeniu zachowuje si; „normalnie”. Plon pszenicy ozimej 80 60 40 20 Std. Dev = 11,78 Mean = 38,7 N = 574,00 0 7,5 17,5 12,5 27,5 22,5 37,5 32,5 47,5 42,5 57,5 52,5 67,5 62,5 77,5 72,5 87,5 82,5 Plon_z_pola_dt/ha Rozk7ad empiryczny plonów buraka cukrowego a rozk7ad normalny 30 20 10 Std. Dev = 103,90 Mean = 393,7 N = 191,00 0 125,0 175,0 225,0 275,0 325,0 375,0 425,0 475,0 525,0 575,0 625,0 Plony buraka cukrowego z 1 ha Wykresy „s4upkowe” (histogram) przedstawiaj9 rozk*ad empiryczny (warto:ci obserwowane) badanej cechy (plon) na tle rozk4adu teoretycznego ( tutaj — normalnego). Z. Lauda ski, D. R. Ma kowski 26 PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 3. ESTYMACJA PUNKTOWA I PRZEDZIA OWA PARAMETRÓW POPULACJI JEDNOWYMIAROWYCH, HIPOTEZY STATYSTYCZNE Statystyka matematyczna zajmuje si; zasadami i metodami uogólniania wyników otrzymanych z próby losowej na ca49 populacj+ (zbiorowo:K z której zosta4a pobrana). To post;powanie nosi nazw; wnioskowania statystycznego (indukcyjnego) dla którego wyró7nia si; dwa dzia4y: 1. estymacj+, czyli szacowanie warto:ci parametrów lub postaci rozk4adu zmiennej losowej w populacji na podstawie rozk4adu empirycznego dla próby, 2. weryfikacj+ (testowanie) hipotez statystycznych, czyli sprawdzanie okre:lonych przypuszcze, (za4o7e,) wysuni;tych w stosunku do parametrów lub rozk4adu populacji generalnej na podstawie próby. 3.1. Statystyczna próba losowa Wnioskowanie o populacji generalnej jest zasadne, gdy próba jest reprezentatywna, tzn. gdy jej struktura ze wzgl;du na interesuj9ce nas cechy statystyczne jest zbli7ona do struktury populacji. A jest reprezentacyjna, gdy: 1. elementy populacji s9 pobierane do próby w sposób losowy, 2. próba jest dostatecznie liczna. Wyró7niamy ró7ne schematy losowania elementów populacji: 1. losowanie zale,ne (bez zwracania elementów populacji) i niezale,ne (ze zwracaniem tych7e elementów), 2. losowanie indywidualne (losuje si; pojedyncze elementy) i zespo*owe (losowanie grupy elementów), 3. losowanie jednostopniowe (losuje si; od razu element populacji) i wielostopniowe (podzia4 populacji na grupy które dzielimy na podgrupy kolejnego stopnia i losujemy kolejno grupy i podgrupy, by w ostatniej losowaK pojedyncze elementy), 4. losowanie ograniczone (warstwowe — z cz;:ci populacji) i nieograniczone (z ca4ej populacji). Losowanie indywidualne, nieograniczone i niezale,ne nazywamy losowaniem prostym, a otrzyman9 prób; okre:lamy mianem próby losowej prostej. We wszystkich dalszych rozwa7aniach u7ywaj9c s4owa: próba lub próba losowa b;dziemy mieK na my:li prób+ losow1 prost1. 3.1.1. Parametry próby Prób; n-elementow9 mo7na scharakteryzowaK pewnymi jej parametrami, zwanymi statystykami. Statystyk1 z próby nazywamy zmienn9 losow9 b;d9c9 funkcj9 obserwowanych w próbie zmiennych losowych. Je:li oznaczymy statystyk; przez 8, a obserwowane zmienne losowe przez X 1 , X 2 ,…, X n , to mo7emy zapisaK jako funkcj; postaci: 8 = f ( X 1 , X 2 ,… , X n ) . Niech x1 , x2 ,… , xn oznacza ci9g pomiarów, to warto%- %redni1 tych pomiarów liczymy wed4ug wzoru: x= 1 n n x i =1 i . Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 27 Zauwa7amy dla tak obliczanych warto:ci x w4asno:K pewnej regularno:ci statystycznej, tzn. o ile poszczególne pomiary xi mog9 wykazywaK brak jakiejkolwiek regularno:ci wzgl;dem siebie, to ich warto%ci %rednie dla du7ych n wykazuj9 uderzaj9c9 regularno:K. Dok4adno:K tej oceny wyra7amy przez odchylenie standardowe, które okre:lane jest jako: n i =1 sx = ( xi x) 2 . n 1 Dla du7ych n warto:ci sx wykazuj9 regularno:K. Mo7na stwierdziK, 7e gdy liczba n do:wiadcze, ro:nie, to zarówno warto%- x jak i sx d979 asymptotycznie do sta4ych wielko:ci, które s9 niezale7ne od n. (MNK) — Ka7dy pomiar xi , mo7emy zapisaK xi = m + i , dla i=1, 2, …, n, co mo7na traktowaK jako uk4ad n – równa, z (n+1) niewiadomymi. Gauss na prze4omie XVIII i XIX wieku zaproponowa4 procedur; estymacji znanej jako metoda najmniejszych kwadratów (MNK), polegaj9c9 na poszukiwaniu takiego rozwi9zania niniejszego uk4adu równa, aby suma kwadratów odchyle, i by4a jak najmniejsza. ZapisaK ten warunek mo7emy nast;puj9co: n 2 i =1 i co oznacza, n i =1 ( xi mˆ )i 2 7e n i =1 istnieje ( xi n = i =1 ( xi m )i = min! , 2 warto:K spe4niaj9ca m̂ nierówno:K postaci: m )i , dla ka7dej innej warto:ci m . 2 Warunek ten praktycznie sprowadza si; do n+1 równania postaci W ten sposób uzyskujemy rozwi9zania naszego uk4adu równa, xi = m + mˆ = x = 1 n n x i =1 i , ˆ = xi i 2 n i =1 ( xi m) = 0 . : mˆ , dla i=1,...,n, a :redni b49d pomiarów w próbie: n i =1 S x( p ) = ( xi x) 2 n . Tak uzyskiwane ˆi posiadaj9 w4asno:K n ˆ i =1 i = n i =1 ( xi x)= n x i =1 i n x =0. Fakt ten mo7na potraktowaK jako „gr+ z przyrod1” o sumie zerowej, tzn. „wygrane” (np. ˆi > 0 ) i „przegrane” ( ˆi < 0 ) bilansuj9 si;. Podstawowe statystyki z próby mo7emy wi;c zapisaK: %rednia: x= Z. Lauda ski, D. R. Ma kowski 1 n n x , i =1 i PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 28 wariancja: S p2 = 1 n n i =1 2 ( xi x) = var x , gdzie var x = n n i =1 2 ( xi x) , odchylenie standardowe: 1 n S p = S p2 = n i =1 ( xi 2 x) , oraz wspó*czynnik zmienno%ci: CV = Sp 100% . x Dla konkretnych prób okre:lone statystyki przyjmuj9 na ogó4 ró7ne warto:ci. Np. z pewnej 35 + 37 + 40 + 38 + 40 = 38 , :rednia na populacji pobrano prób; (35, 37, 40, 38, 40), wtedy x = 5 podstawie innej próby z tej samej populacji, np. (37, 38, 45, 42, 43), wynosi x = 41 . Jest to oczywiste, gdy7 ka7da statystyka jako funkcja zmiennych losowych jest zmienn9 losow9, tzn. posiada pewien rozk4ad. W zastosowaniach praktycznych statystyki najcz;:ciej wykorzystywane s9 rozk4ady %redniej arytmetycznej, wariancji i odchylenia standardowego. Np. dla cechy X — populacji normalnej o warto:ci :redniej m oraz wariancji 2 — N ( m; 2 ) , mamy: 1 n E(X ) = E D2 ( X ) = D2 1 n n i =1 n Xi = X = i =1 i 1 n 1 n2 n i =1 E ( Xi ) = 1 n m = m, n D2 ( X i ) = i =1 n 1 n n2 2 = 2 n , tym samym mamy, 7e D( X ) = 2 n . 3.2. PojAcie estymatora (estymacja punktowa) Estymator jest to wielko:K wyznaczona na podstawie próby losowej (a wi;c statystyka) s4u79ca do oceny warto:ci nieznanych parametrów populacji. Nale7y zauwa7yK, 7e nie ka,da statystyka obliczona z elementów próby mo7e byK estymatorem okre:lonego parametru populacji. Istniej9 lepsze lub gorsze estymatory z uwagi na pope4nianie b4;du szacowania parametru populacji. Dlatego w celu uzyskania dobrego szacowania parametrów populacji na podstawie próby wprowadza si; pewne w4asno:ci jakie musi spe4niaK dobry estymator. S9 to m.in.: nieobci1,ono%-, zgodno%-, efektywno%- i dostateczno%-. ˆ 8 — estymator parametru 8 jest estymatorem nieobci1,onym je7eli posiada w4asno:K postaci: E (8ˆ ) = 8 , 8ˆ — estymator parametru 8 jest estymatorem zgodnym je7eli posiada w4asno:K postaci: dla ka7dego, dowolnie ma4ego { > 0 , zachodzi lim P 8ˆn 8 n ' } =1, Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 29 8ˆ — estymator parametru 8 jest estymatorem efektywnym je7eli zdefiniujemy efektywno:K oceny 8ˆ2 wzgl;dem 8ˆ1 parametru 8 wzorem postaci: E (8ˆ2 8 ) D 28ˆ , a dla estymatorów nieobci97onych: ef = 2 2 , D 8ˆ1 E (8ˆ1 8 ) to estymator 8ˆ2 jest efektywniejszy od estymatora 8ˆ1 je:li ef < 1 . W ten sposób estymator o najmniejszej warto:ci ef wzgl;dem pewnego 8 0 , w danej klasie estymatorów jest najefektywniejszym. Praktycznie jest sens mówiK o estymatorach najefektywniejszych w klasie estymatorów nieobci97onych. Warto:ci estymatora najefektywniejszego wykazuj9 si; najmniejszym rozrzutem wokó4 prawdziwej warto:ci parametru. Zatem ocena parametru 8 , uzyskana za pomoc9 estymatora najefektywniejszego, ma najmniejszy b49d standardowy (inaczej, jest obarczona najmniejszym b4;dem). ˆ 8 — estymator parametru 8 jest estymatorem dostatecznym je7eli zawiera wszystkie informacje o parametrze 8 istniej9ce w próbie. Na przyk4ad estymator :redniej populacji m dany wzorem postaci: 1 n 1 x= x , i =1 i n 1 jest nieobci1,ony i zgodny, ale nie jest dostateczny, jak równie7 jest nieefektywny ef = Natomiast %rednia arytmetyczna x = 1 n n x spe4nia wszystkie te wymienione warunki, i =1 i 2 1 n ( xi x ) jest estymatorem obci1,onym prawdziwej wariancji. Estymatorem i =1 n nieobci97onym wariancji populacji jest wielko:K: za: S p2 = s2 = n n 1 S p2 = 1 n i =1 n 1 ( xi x) = 2 var x n 1 Do wnioskowania statystycznego w populacjach normalnych cz;sto wykorzystujemy standaryzacj; zmiennej losowej X postaci: Z= X m = X m n n Je7eli odchylenie standardowe populacji nie jest znane to nie mo7na pos4ugiwaK si; w przypadku ma4ych prób rozk4adem normalnym. Dokonujemy wtedy przekszta4cenia zwanego studentyzacj1 t= X m X m = n, s s n gdzie s = s 2 = 1 n 1 n i =1 ( xi x) . 2 Statystyka t tak okre:lona jest niezale7na od 2 i ma rozk4ad t Studenta o n–1 stopniach swobody (liczba mo7liwych zwi9zków z n zmiennymi próby — jeden to zwi9zek :redniej arytmetycznej). Przy n ' rozk4ad ten jest zbie7ny do rozk4adu normalnego N ( m = 0; 2 = 1) . Inne rozk4ady warto:ci empirycznych: rozk*ad 2 Pearsona oraz rozk*ad F Fishera s9 rozk4adami warto:ci z których b;dziemy praktycznie korzystaK. Warto:ci tych rozk4adów do celów praktycznych s9 dost;pne w postaci odpowiednich tablic. Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 30 Podsumujmy wi;c: %rednia: x= 1 n n x , i =1 i wariancja: s2 = 1 n 1 n i =1 2 ( xi x) = var x , gdzie var x = n 1 n i =1 ( xi 2 x) , odchylenie standardowe: s = s2 = 1 n n 1 i =1 ( xi 2 x) , oraz wspó*czynnik zmienno%ci: CV = s 100% . x 3.3. Estymacja przedzia:owa Estymacja przedzia4owa polega na konstruowaniu przedzia4u liczbowego, który z okre:lonym z góry (bliskim jedno:ci) prawdopodobie,stwem b;dzie zawiera4 nieznan9 warto:K szacowanego parametru. Przedzia4 ten nosi nazw; przedzia*u ufno%ci, i jest postaci: P { g1 8 g2} = 1 . Twórc9 metody estymacji przedzia*owej by4 statystyk polskiego pochodzenia Jerzy Sp*awaNeyman (1894 – 1981). W tym uj;ciu parametr 8 jest wielko:ci9 sta49 (nielosow9), za: ko,ce przedzia4u: dolna — g1 i górna — g 2 , s9 zmiennymi losowymi zale7nymi od prawdopodobie,stwa (1 ), nazywanego poziomem ufno%ci, natomiast istotno%ci. Poprawnym jest wi;c stwierdzenie, 7e „z prawdopodobie stwem (1 ufno%ci obejmuje szacowany parametr 8 ”. — poziomem ) przedzia* Nale7y pami;taK, 7e to nie szacowany parametr trafia do przedzia*u ufno%ci — gdy7 parametr ten jest wielko:ci9 sta49, wi;c jego warto:K nie mo7e „trafiK” do przedzia4u ufno:ci! 3.3.1. Przedzia: ufnoBci dla wartoBci Bredniej Przedzia4 ufno:ci dla :redniej populacji m mo7emy napisaK w postaci: P{ t gdzie t = ,n 1 t t ,n 1 } =1 , x m x m = n , st9d te7 otrzymujemy, 7e: s s n # P $x t & gdzie wielko:K sx = s dla poziomu istotno%ci s ,n 1 n m x +t ,n 1 nazywamy b*+dem %redniej, t n oraz liczby swobody równej n–1. s 9 : =1 n; ,n 1 , jest warto:ci9 rozk4adu t Studenta Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 31 Przyk*ad: Czas potrzebny na wykonanie pewnego urz9dzenia ma rozk4ad normalny. W celu oszacowania :redniego czasu pracy potrzebnego na t; czynno:K, zmierzono czasy wykonania dla 21 pracowników wylosowanych losowo i otrzymano wyniki w godzinach: 4,00; 3,35; 3,18; 2,89; 3,60; 3,05; 3,71; 3,30; 3,42; 2,96; 3,56; 2,97; 2,78; 2,39; 3,16; 3,04; 2,54; 2,59; 3,62; 3,28; 2,76. ZbudowaK przedzia4 ufno:ci dla :redniej czasu wykonania, przyjmuj9c poziom ufno:ci (1 ) = 0,95 . (odp. 2,96 m 3,34) 21 21 2 i =1 i x = 66,15 , x = 211,8639 , min = 2,39 , max = 4, 00 , x = 3,15 , M e = 3,16 , i =1 i 3, 4914 0, 41782 = 0,17457 , s = 0, 41782 , V = = 0,1326 = 13, 26% , 20 3,15 s 0, 41782 sx = = = 0,09117 , t = 0,05;20 = 2,086 , 21 4,58258 ( 3,15 2,086 0,09117; 3,15 + 2,086 0,09117 ) = ( 2,96; 3,34 ) . var x = 3, 4914 , s 2 = Na poziomie ufno:ci 0,95 mo7emy stwierdziK, 7e :redni czas wykonania tego urz9dzenia przez wszystkich pracowników jest nie mniejszy ni7 2,96 i nie wi;kszy ni7 3,34 godziny. 3.3.2. Przedzia: ufnoBci dla róCnicy Brednich P {( x1 x2 ) t ,v sr m1 m2 ( x1 x2 ) + t ,v sr } = 1 , gdzie: n1, n2 — liczebno:K próby z pierwszej i drugiej populacji, m1, m2 — warto:ci :rednie populacji o jednakowych wariancjach, tzn. 2 1 = se2 = 2 2 , gdzie: sr = se2 1 1 + n1 n2 — b*1d ró,nicy %rednich, przy czym mamy, 7e: ( n 1) s12 + ( n2 1) s22 — wariancja wspólna, var x1 + var x2 = 1 n1 + n2 2 ( n1 1) + ( n2 1) (dlatego te7 powinna zachodziK równo:K wariancji w rozpatrywanych populacjach), t warto:K statystyki t Studenta, za: v = n1 + n2 ,v – 2 — liczba stopni swobody wspólnej wariancji. Przyk*ad: Badano próby sera dojrzewaj9cego w pewnej wytwórni latem (populacja A) i zim9 (populacja B). Wytwórnia deklaruje jednakow9 zawarto:K t4uszczu w danym gatunku sera tak w produkcji w lato jak i w produkcji zim9. Z prób 20 elementowych uzyskano odpowiednio: xA = 54,26 , s A2 = 23,13 , xB = 56,18 , sB2 = 13, 27 . (1 Czy deklaracj; producenta mo7na uznaK za zasadn9, przy prawdopodobie,stwie ) = 0,95 ? se2 = Z. Lauda ski, D. R. Ma kowski 19 23,13 + 19 13, 27 23,13 + 13, 27 = = 18, 20 , 19 + 19 2 PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 32 1 1 + = 18, 2 0,1 = 1,35 , 20 20 sr = 18, 2 t ( 54, 26 sr = 2,023 1,35 = 2,731 , = 0,05;38 56,18 2,73; 54,26 56,18 + 2,73) = ( 4,65; 0,81) . Ró7nica mi;dzy :rednimi zawarto:ciami t4uszczu latem i zim9 jest nie mniejsza ni7 (– 4,65%) ale nie wi;ksza ni7 0,81%. Dopuszczamy wi;c tak7e mo7liwo:K „zera” dla tej ró7nicy, st9d te7 dopuszczamy równo:K tych :rednich zawarto:ci t4uszczu ) = 0,95 = 1 0,05 . z prawdopodobie,stwem ufno:ci (1 Zauwa7my, 7e je7eli zachodzi relacja postaci: xB > t xA ;v sr = NIR ( ), to dopuszczamy zró7nicowanie faktycznych :rednich w populacjach. 3.3.3. Przedzia: ufnoBci dla wariancji Podobnie mo7na skonstruowaK przedzia4 ufno:ci dla wariancji populacji. Jest on postaci: # % P $ var x % & 2 2 2 var x ,n 1 2 1 2 ,n 9 % : =1 1% ; . Okre:la on granice losowego przedzia4u obejmuj9cego nieznan9 warto:K wariancji populacji. Odpowiednio przedzia4 ufno:ci dla odchylenia standardowego: # % var x P$ % & var x 2 2 ,n 1 2 1 2 ,n 9 % : =1 1 % ; . Dla populacji maj9cej rozk*ad dwupunktowy (zerojedynkowy), tzn. zak4adamy, 7e elementy populacji podzielone s9 na dwie klasy, przy czym frakcja elementów wyró7nionych wynosi p i nie jest ma4ym u4amkiem ( p > 0, 05 ). Z populacji wylosowano du79 liczb; elementów próby ( n > 100 ), wtedy przedzia4 ufno:ci dla wskaSnika struktury p populacji generalnej jest okre:lony przybli7onym wzorem: # % %m P$ %n %& z m m 1 n n n p m +z n m m 9 1 % n n % : 1 n % %; gdzie m jest elementów wyró7nionych i znalezionych w próbie, z , jest warto:ci9 odczytan9 z tablic rozk4adu normalnego N ( 0;1) w taki sposób, by P { z Z z } =1 ustalonego . Z. Lauda ski, D. R. Ma kowski dla PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 33 Przyk*ad: Spo:ród partii 7arówek wyprodukowanych w fabryce wylosowano 100 szt. i sprawdzono ich jako:K. 16 7arówek okaza4o si; z4ych. Przyjmuj9c poziom ufno:ci 0,99 oszacowaK procent braków w wyprodukowanej partii 7arówek. 0,16 (1 0,16 ) 0,16 2,576 100 0,16 2,576 0,03666 0,16 0,095 0,065 0,16 (1 0,16 ) p 0,16 + 2,576 , 100 p 0,16 + 2,576 0,03666 , p 0,16 + 0,095 , p 0, 255 . Tak wi;c poziom z4ych 7arówek w danej partii zawiera si; w przedziale: 6,5% a 25,5%. ZwróKmy uwag;, 7e gdyby by4o 160 wadliwych 7arówek na 1000 sprawdzanych, wtedy zamiast 0,095 by4oby 0,0299, czyli mieliby:my przedzia4 ufno:ci: 0,13 p 0,19 . Dlaczego? 3.3.4. Przedzia: ufnoBci dla róCnicy dwóch frakcji Niech badana cecha X w dwóch populacjach A i B ma rozk4ad dwupunktowy z parametrami p A i pB . W celu oszacowania przedzia4em ufno:ci ró7nicy tych prawdopodobie,stw, wylosowano dwie próby proste o liczebno:ci n A 100 i nB 100 m m jednostek. Niech A oraz B oznaczaj9 wskaSniki struktury odpowiednio z pierwszej nA nB m + mB jest frakcj9 wyró7nionych elementów i drugiej próby, natomiast p = A nA + nB jednocze:nie w obu próbach ( m A i mB — s9 to liczby wyró7nionych elementów spo:ród n A 100 i nB 100 populacji A oraz B ), za: b49d ró7nicy tych parametrów jest równy: p (1 p ) SPr = gdzie n = 1 1 + = n A nB p (1 p ) n , n A nB . nA + nB W efekcie wzór na przedzia4 ufno:ci dla ró7nicy frakcji, gdzie z — warto:K zmiennej normalnej dla poziomu istotno:ci , jest postaci: #% m P$ A &% nA mB nB z SPr pA pB mA nA mB +z nB 9% SPr : 1 ;% . Przyk*ad: Spo:ród wylosowanych 500 m;7czyzn i 600 kobiet by4o odpowiednio 200 i 252 osoby pal9ce. ZbudowaK przedzia4 dla ró7nicy frakcji palaczy papierosów w:ród m;7czyzn i w:ród kobiet przyjmuj9c poziom ufno:ci = 0,95 ( z0,05 = 1,96 ). Obliczenia: mA 200 m 252 = = 0, 4 ; B = = 0, 42 ; nA 500 nB 600 Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 34 p= mA + mB 452 n n 500 600 = = 0,411 , n = A B = = 272,73 ; nA + nB 1100 nA + nB 500 + 600 SPr = p (1 p ) n 0 = 0, 411 0,589 = 0,0298 , czyli 272,73 7,84% pA pB +3,84% 3.4. Hipotezy statystyczne i ich weryfikacja, testy statystyczne Drugim obok estymacji (szacowania warto%ci parametrów lub postaci rozk*adu zmiennej losowej w populacji na podstawie rozk*adu empirycznego dla próby) podstawowym rodzajem wnioskowania statystycznego (indukcyjnego) jest weryfikacja (testowanie) hipotez statystycznych, czyli sprawdzanie okre:lonych przypuszcze, (za4o7e,) wysuni;tych w stosunku do parametrów lub rozk4adu populacji generalnej na podstawie próby. Hipotezy statystyczne s9 odpowiednio sformu4owanymi przypuszczeniami dotycz9cymi rozk*adu populacji. Mog9 one mieK ró7n9 postaK w zale7no:ci od hipotez badawczych, wysuwanych przez specjalistów ró7nych dziedzin, którym statystyka s4u7y swymi metodami. Hipotezy parametryczne, precyzuj9ce warto:ci parametrów w rozk4adzie populacji, nale79 do najcz;:ciej sprawdzanych hipotez statystycznych. Weryfikacja hipotezy statystycznej odbywa si; przez zastosowanie specjalnego narz;dzia, zwanego testem statystycznym. Jest to regu4a post;powania, która ka7dej mo7liwej próbie losowej przyporz9dkowuje decyzj+ przyj+cia lub odrzucenia sprawdzanej hipotezy. Istota ka7dego testu polega na tym, aby uchroniK si; przed pope4nieniem b*+du pierwszego rodzaju ( ) – polegaj9cym na odrzuceniu hipotezy prawdziwej, jak i przed pope4nieniem b*+du drugiego rodzaju (<), polegaj9cym na przyj;ciu hipotezy fa*szywej. Hipoteza H0 prawdziwa fa szywa odrzucona przyj;ta 1– 1–< < W teorii weryfikacji hipotez statystycznych wi;ksze znaczenie przypisywane jest b*+dowi I-go rodzaju. Z tego powodu od testu statystycznego wymaga si; by szansa (prawdopodobie stwo) pope4nienia tego b4;du by4a ma4a, a prawdopodobie stwo ( ) jego pope4nienia nazywamy poziomem istotno%ci. Wybór poziomu istotno%ci — jest spraw9 arbitraln9. Okre:la on stopie, naszej pewno:ci co do odrzucenia hipotezy H0, tzn. je7eli test odrzuci* weryfikowan1 hipotez+, to im na mniejszym poziomie to zrobi4, tym bardziej mo7emy byK „pewniejsi”, 7e rzeczywi:cie nasza hipoteza jest nieprawdziwa. Przyj;cie lub odrzucenie hipotezy przy pomocy testu nie jest równoznaczne z logicznym udowodnieniem jej prawdziwo:ci lub fa4szywo:ci. Nale7y bowiem pami;taK, 7e w te:cie statystycznym sprawdzaj9cym dan9 hipotez; na podstawie danych z próby, mamy szans+ co najwy7ej (poziom istotno%ci) na prawdziwo:K tej hipotezy, i dlatego j9 odrzucamy. Testy statystyczne, które na podstawie wyników próby losowej pozwalaj9 podejmowaK jedynie decyzj; odrzucenia hipotezy lub stwierdzenia braku podstaw do jej odrzucenia, nazywamy testami istotno%ci. S9 one w wi;kszo:ci przypadków zupe4nie wystarczaj9ce dla Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 35 potrzeb praktyki. Jest tak dlatego, 7e najcz;:ciej hipotez+ badawcz1 (merytoryczn1) któr9 chcemy sprawdziK, daje si; zamieniK na hipotez+ statystyczn1, jak gdyby „odwrotn9” do badawczej. W konsekwencji zale7y wi;c nam na odrzuceniu hipotezy statystycznej a nie na jej przyj+ciu, gdy7 odrzucenie hipotezy statystycznej praktycznie prowadzi do przyj+cia naszej hipotezy badawczej, jako odwrotnej do statystycznej. Zilustrujmy to przyk*adem. Przypu:Kmy, 7e hodowca wykreowa4 now9 odmian; (A) o prawdopodobnie wy7szym plonowaniu ni7 dotychczas uprawiane. Przeprowadzono eksperyment z now9 odmian9 — A oraz z najlepsz9 z dotychczas uprawianych (B), by na podstawie wyników liczbowych (uzyskanych plonów) wykazaK przeci;tne wy7sze plonowanie odmiany A od odmiany B. Do udowodnienia tej hipotezy badawczej wystarczy zastosowaK test istotno%ci dla hipotezy statystycznej sformu4owanej nast;puj9co: %rednie plonowanie odmiany A i B jest takie same. Formalne zapisujemy to w postaci hipotezy zerowej H 0 : m A = mB , wobec hipotezy alternatywnej H1 : m A > mB , gdzie mA i mB oznaczaj9 :rednie plony odpowiednio odmiany A i B. Je7eli zastosowany test istotno:ci dla hipotezy H0 doprowadzi do jej odrzucenia, to wy7szo:K nowej odmiany zosta4a udowodniona (a o to chodzi*o) z odpowiednio ma4ym ryzykiem b4;du (poziomem istotno%ci). Je7eli natomiast zastosowany test istotno%ci da odpowiedS, 7e nie ma podstaw do odrzucenia hipotezy H0, to oznacza to, 7e wyniki eksperymentu maj9ce :wiadczyK o wy7szo:ci nowej odmiany, s9 zbyt s4abym argumentem i nie udowadniaj9 tej wy7szo:ci. Taka odpowiedS przysparza hodowcy w wystarczaj9cym stopniu zmartwie,, by zale7a4o mu na przyj;ciu hipotezy H0, bo to oznacza4oby, 7e marnowa4 czas na tworzeniem odmiany o nie wy7szym pod wzgl;dem przeci;tnego plonowania od dotychczasowych odmian. Przyk*ad ten %wiadczy o wystarczalno%ci dla praktycznego wykorzystywania testów istotno%ci, które polegaj1 na konstruowaniu pewnej statystyki S z wyników próby i wyznaczaniu jej rozk*adu przy za*o,eniu s*uszno%ci hipotezy zerowej H0. W rozk4adzie tym wybiera si; taki obszar Q statystki S, by spe4niona by4a równo:K: P {S Q} = , gdzie jest arbitralnie ustalonym dowolnie ma4ym prawdopodobie,stwem. Obszar Q nazywa si; obszarem krytycznym testu, gdy7 ilekroK warto:K statystyki S z próby znajdzie si; w nim, to podejmuje si; decyzj; odrzucenia hipotezy H0 na korzy:K hipotezy alternatywnej H1. Natomiast, gdy otrzymana statystyka S nie nale7y do obszaru krytycznego Q, to nie ma podstaw do odrzucenia H0 i nie jest to równoznaczne z jej przyj+ciem. Obszar krytyczny Q zostaje tak wyznaczony, 7e przy prawdziwo:ci hipotezy H0 prawdopodobie,stwo otrzymania z próby warto:ci statystyki S jest znane i bardzo ma4e. Takie zdarzenie losowe nie powinno si; zrealizowaK w jednym do:wiadczeniu. Je7eli jednak naprawd; zrealizowa4o si;, to musia4o mieK wi;ksze prawdopodobie,stwo ni7 to wynika z za4o7enia prawdziwo:ci hipotezy H0, wi;c jeste:my sk4onni uznaK t; hipotez; za fa4szyw9 i odrzucamy j9. Mo7emy pomyliK si; i odrzuciK hipotez; w gruncie rzeczy prawdziw1 (b*1d I-szego rodzaju), jednak7e prawdopodobie,stwo takiej pomy4ki jest bardzo ma4e, równe obranej dowolnie liczbie (poziom istotno%ci). Je7eli natomiast warto:K statystyki S z próby znalaz4a si; poza obszarem krytycznym, tzn. (gdy7 P {S Q} = ), czyli prawdopodobie,stwo tego7 mo7na zapisaK, 7e P {S = Q} = 1 zdarzenia jest bliskie 1. Zasz4o zatem zdarzenie, które powinno przy prawdziwo:ci hipotezy H0 zaj:K, bo mia4o du7e prawdopodobie,stwo zaj:cia, wi;c nie ma podstaw do odrzucenia hipotezy H0. Jako poziom istotno%ci wybiera si+ najcz+%ciej liczby: 0,10; 0,05; 0,01; 0,001, co nie oznacza, ,e nie mo,na przyj1- np. 0,02 lub 0,07. Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 36 3.4.1. Hipoteza porównania wartoBci Bredniej z norm@ Hipoteza o redniej populacji — H 0 : m = m0 Zak4adamy, 7e populacja generalna ma rozk*ad normalny N ( m; 2 ) , przy czym m oraz 2 populacji nie s9 znane. W oparciu o wyniki n-elementowej próby losowej nale7y zweryfikowaK hipotez; zerow9: H 0 : m = m0 > H 0 : m m0 = 0 , wobec hipotezy alternatywnej H1 : m m0 > H1 : m m0 0. Dla weryfikacji tej hipotezy zerowej wyliczmy warto:K statystyki t-Studenta wed4ug wzoru: x m0 , temp = sx 1 n arytmetycznej. gdzie: x= n s = s2 = x , i =1 i 1 n 1 n i =1 ( xi x ) , za: 2 s n sx = — b*1d %redniej Statystyka ta ma przy za4o7eniu s4uszno:ci hipotezy H0 rozk4ad Studenta o (n–1) stopniach swobody. Z tablic tego rozk4adu, dla ustalonego poziomu istotno:ci i dla (n–1) stopni swobody, odczytuje si; tak9 warto:K t , 7e P { t t } = . Nierówno:K t t okre:la obszar krytyczny (dwustronny) w tym te:cie. Wystarczy wi;c porównaK warto:K temp z warto:ci9 krytyczn9 t . Je7eli zajdzie nierówno:K temp t , to hipotez; H 0 nale7y odrzuciK na korzy:K hipotezy H1 . Natomiast gdy zajdzie nierówno:K przeciwna, tzn. temp < t , to nie ma podstaw do odrzucenia hipotezy H 0 . v liczba stopni swobody P( t t ,v ) =1 v v2 t ,v t ,v Przyk*ad: Badano próby sera dojrzewaj9cego w pewnej wytwórni latem (populacja A) i zim9 (populacja B). Wytwórnia deklaruje 55% zawarto:ci t4uszczu w danym gatunku sera. Z prób 20 elementowej uzyskano odpowiednio: xA = 54,26 , s A2 = 23,13 , xB = 56,18 , sB2 = 13, 27 . Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 37 Tutaj mo7emy zweryfikowaK dwie hipotezy: 1-sza — czy deklarowana zawarto:K t4uszczu w serze produkowanym w okresie letnim jest zgodna z faktyczn9, tzn. H 0 A : mA = 55% , 2-ga — to samo, ale w stosunku do okresu zimowego, tzn. H 0 B : mB = 55% . H 0 A : mA = 55% , sx = temp = 23,13 = 1,1565 = 1, 07541 , 20 54,26 55,00 = 0,688 < 2, 093 = t0,05;19 ; 1, 07541 13, 27 = 0,6636 = 0,81456 , 20 H 0 B : mB = 55% , sx = temp = 56,18 55,00 = 1, 449 < 2,093 = t0,05;19 , 0,81456 W obu przypadkach hipoteza zerowa nie zosta4a odrzucona na poziomie istotno:ci 0,05. Oznacza to, 7e deklaracja wytwórni ma pokrycie w faktach. Cecha X populacji ma rozk4ad N ( m; Hipoteza alternatywna H1 : m > m0 ) , postaK hipotezy zerowej: H 0 : m = m0 Warto:K funkcji testowej x m0 temp = sx H1 : m < m0 temp = H1 : m temp = m0 2 x Obszar krytyczny Q (*t2 m0 ( sx x m0 sx ( '; t ,n 1 ; +' ) temp > t2 )+ temp < t2 '; t2 ,n 1 )+ H 0 odrzucamy, je7eli: ,n 1 (*t ,n 1 ; +' ) temp > t ,n 1 ,n 1 ,n 1 3.4.2. Hipoteza porównania frakcji z norm@ Hipoteza zerowa dla frakcji — H 0 : p = p0 Dla populacji maj9cej rozk*ad dwupunktowy, tzn. zak4adamy, 7e elementy populacji podzielone s9 na dwie klasy, przy czym frakcja elementów wyró7nionych wynosi p i nie jest ma4ym u4amkiem ( p > 0,05 ). Z populacji wylosowano du79 liczb; elementów próby ( n > 100 ), m p ma rozk*ad asymptotycznie normalny wtedy zmienna losowa: Z = n p (1 p ) n N p; p (1 p ) n , gdzie m jest liczb9 elementów wyró7nionych i znalezionych w próbie n – elementowej, natomiast p jest parametrem rozk*adu zero-jedynkowego. Naszym zadaniem jest weryfikacja hipotezy, 7e warto:K tego parametru p w populacji jest równa p0 ( H 0 : p = p0 ). Je:li prawdziwa jest hipoteza zerowa, to wskaSnik struktury z próby ma asymptotyczny rozk4ad N p0 ; Z. Lauda ski, D. R. Ma kowski p0 (1 p0 ) n , PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 38 a statystyka Z = m n p0 (1 p0 ) , rozk4ad asymptotycznie normalny N ( 0;1) . n p0 Przyk*ad: Spo:ród partii 7arówek, wylosowano 100 sztuk i sprawdzono ich jako:K. 15 okaza4o si; z4ych. Przyjmuj9c poziom istotno:ci = 0,05 , zweryfikowaK hipotez; o brakach na poziomie 20% ( H 0 : p = 0, 2 ). zemp = 0,15 0, 20 0, 2 (1 0, 2 ) 100 = 0,05 = 1, 25 < 1,96 = z0,05 . 0,04 Z powy7szej relacji wynika 7e naszej hipotezy zerowej postaci H 0 : p = 0, 2 nie mo7emy odrzuciK (zachodzi brak podstaw do jej odrzucenia) przy poziomie istotno:ci = 0,05 , = 0, 23 jako, 7e natomiast mogliby:my t; hipotez; odrzuciK przy poziomie istotno:ci z0,23 1, 2 . Tak du7y poziom ryzyka odrzucenia prawdy jest nie do przyj;cia. Dlatego te7 t; hipotez; by:my przyj;li. ZwróKmy uwag;, 7e gdyby w próbie 1000 elementowej, 150 7arówek okaza4o si; wadliwych, wtedy nasz9 hipotez; H 0 : p = 0, 2 z racji uzyskanej warto:ci odpowiedniej statystyki: zemp = 0,15 0, 20 0, 2 (1 0, 2 ) 1000 = 0,05 = 3,953 < 1,96 = z0,05 , 0,01265 nale7a4oby odrzuciK, i to nie tylko na poziomie istotno:ci = 0,001 jako, 7e: = 0,05 , ale tak7e na poziomie z0,001 = 3, 291 < 3,953 = zemp . Cecha X populacji ma rozk4ad zero-jedynkowy, tzn. P ( X = 1) = p , P ( X = 0 ) = 1 p , hipoteza zerowa jest tutaj postaci: H 0 : p = p0 . Hipoteza (H1) alternatywna mo7e tutaj przyjmowaK jedn9 z trzech postaci: H1 alternatywna H1 : p > p0 H1 : p < p0 H1 : p p0 zemp – warto:K f. testowej m p0 n p0 (1 p0 ) n m p0 n p0 (1 p0 ) n m p0 n p0 (1 p0 ) n Obszar krytyczny Q [ z2 ; +' ) , gdzie F ( z2 ) = 1 ( gdzie 2 ], F ( z2 ) = = 1 F ( z2 ) zemp > z2 '; z2 ] [ z ; +' ) , gdzie 7 ( z ) = 1 ( H 0 odrzucamy, je7eli: '; z zemp < z2 zemp > z Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 39 Wielko:K z jest warto:ci9 odczytan9 z tablic rozk4adu normalnego N ( 0;1) w taki sposób, by dla ustalonego zachodzi4a równo:K: P{ z Z z } =1 . 3.4.3. Hipoteza porównania dwóch wariancji Hipoteza zerowa o równo:ci wariancji dwóch populacji ma postaK H 0 : H1 : 2 1 > 2 1 = 2 2 , za: 2 2 Gdy badanie statystyczne ze wzgl;du na pewn9 cech; mierzaln9 prowadzimy w dwóch populacjach, mo7e zaj:K potrzeba sprawdzenia hipotezy o równo:ci wariancji badanej cechy w obu populacjach. Rozk4adem, którym b;dziemy si; pos4ugiwaK w omawianym te:cie, jest rozk*ad F-Fishera. Dost;pne tablice warto:ci tego rozk4adu s9 sporz9dzone tak, i7 podaj9 tak9 warto:K F dla której zachodzi P {F F } = , tzn. dla niniejszego testu obszar krytyczny jest prawostronny. Przy stosowaniu tego testu nale7y oznaczenia populacji numerami 1 i 2 przyj9K tak, by w ilorazie dwu wariancji wyznaczonych na podstawie prób licznik by4 zawsze wi;kszy od mianownika. Warto:K statystyki testowej wyznaczamy wed4ug wzoru: Femp = s12 , s22 która przy za4o7eniu prawdziwo:ci hipotezy H 0 ma rozk4ad F-Fishera z ( n1 1) stopniami swobody licznika i ( n2 1) stopniami swobody mianownika (gdzie: n1 , n2 — liczebno:K prób losowych). Przyk*ad: Badano próby sera dojrzewaj9cego w pewnej wytwórni latem (populacja A) i zim9 (populacja B). Wytwórnia deklaruje 55% zawarto:ci t4uszczu w danym gatunku sera. Z prób 20 elementowych uzyskano odpowiednio: x A = 54,26 , s A2 = 23,13 , xB = 56,18 , sB2 = 13, 27 . Dla tego przyk4adu liczbowego mamy: Femp = 23,13 = 1,743 < 2,17 = F0,05;19;19 13, 27 zatem hipotez; o równo:ci wariancji zawarto:ci t4uszczu w produkcji zimowej i letniej, tzn. H0 : 2 1 = 2 2 – przyjmujemy na poziomie istotno:ci Z. Lauda ski, D. R. Ma kowski = 0,05. PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 40 3.4.4. Hipoteza porównania dwóch wartoBci Brednich H 0 — o warto ci oczekiwanych dwóch populacji W praktycznych zastosowaniach statystyki matematycznej niejednokrotnie zachodzi potrzeba porównania :rednich m A i mB dwóch populacji. Weryfikuj; si; wówczas hipotez; zerow9 postaci: H 0 : m A = mB wobec odpowiedniej hipotezy alternatywnej: H1 : m A mB , H1 : m A > mB lub H1 : m A < mB . ( Niech analizowane populacje generalne maj9 rozk4ady normalne N m A ; 2 A ) i N (m ; ) , B 2 B przy czym parametry tych populacji s9 nieznane, ale wariancje s9 jednakowe, tzn. A2 = B2 (mo7na sprawdziK s4uszno:K takiego za4o7enia dla konkretnej sytuacji, wykorzystuj9c test Fishera weryfikuj9cy hipotez; H 0 : A2 = B2 ). W celu weryfikacji tej hipotezy zerowej ( H 0 : m A = mB ) wykorzystujemy test postaci: t= xA xB sr , gdzie: sr = se2 1 1 + n A nB — b*1d ró,nicy %rednich, nA 1) s A2 + ( nB 1) sB2 ( var x A + var xB — wariancja wspólna (wynika z za4o7enia = = n A + nB 2 ( nA 1) + ( nB 1) równo:ci wariancji w populacjach). se2 Przy czym zak4adamy, wylosowanie dwóch prób z rozpatrywanych populacji o liczebno:ci odpowiednio: n A i nB , :rednich: x A i xB oraz wariancjach s 2A i sB2 . Otó7 tak okre:lona statystyka t = ( x A xB ) sr , przy za4o7eniu s4uszno:ci hipotezy zerowej H 0 : m A = mB , ma rozk4ad Studenta o n A + nB 2 stopniach swobody. Dlatego te7 warto:K x xB — wyznaczona na podstawie prób z dwóch populacji jest porównywana temp = A sr z warto:ci9 krytyczn9 t ,v z tablic rozk4adu Studenta. Je:li mi;dzy tymi wielko:ciami uzyskamy relacj; temp > t ;v ( v = n A + nB alternatywnej postaci: H1 : m A 2 ) , wtedy hipotez+ zerow1 odrzucamy na rzecz hipotezy mB (tzw. test obustronny). Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 41 v liczba stopni swobody P( t t ,v ) =1 v v2 t t ,v Natomiast relacja przeciwna, tzn. temp t ;v ,v nie daje nam podstaw do odrzucenia hipotezy zerowej, a wi;c w tej sytuacji przyjmujemy j9. Zauwa7my przy tym, 7e H0 odrzucamy, gdy x xB temp = A > t ,v , czyli je:li zachodzi nierówno:K postaci: x A xB > t ,v sr = NIR . sr Wielko:K t ,v sr = NIR nazywamy Najmniejsz9 Istotn9 Ró7nic9 Przyk*ad: Badano próby sera dojrzewaj9cego w pewnej wytwórni latem (populacja A) i zim9 (populacja B). Wytwórnia deklaruje jednakow9 zawarto:K t4uszczu w danym gatunku sera w produkcji latem i zim9, tzn. H 0 : m A = mB . Z dwóch prób 20 elementowych uzyskano odpowiednio: x A = 54,26 , s A2 = 23,13 , xB = 56,18 , sB2 = 13, 27 . St9d: se2 = czyli sr = 18, 2 19 23,13 + 19 13, 27 23,13 + 13,27 = = 18, 20 , 19 + 19 2 1 1 + = 18, 2 0,1 = 1,35 , a wi;c w tej sytuacji, z racji i7 warto:K: 20 20 temp = 54, 26 56,18 1,35 = 1,92 = 1, 422 < 2,023 = t0,05;38 1,35 naszej hipotezy H 0 : mA = mB nie mo7emy odrzuciK, czyli nasz9 hipotez; zerow9 (o braku ró7nic mi;dzy :redni9 zawarto:ci9 t4uszczu w serach produkowanych latem i zim9). Zauwa7my, 7e Najmniejsza Istotna Ró7nica jest tutaj równa: NIR ( )=t = 0,05;38 sr = 2,023 1,35 = 2,731 . Ró7nica mi;dzy dwiema naszymi :rednimi z prób jest równa 1,422 nie przewy7sza wielko:ci NIR, a wi;c wniosek, 7e :rednie tych populacji nie ró7ni9 si; mi;dzy sob9 w stopniu istotnym. Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 42 Zauwa7my tak7e, 7e podobny wniosek uzyskali:my po analizie tych7e danych wg przedzia4u ufno:ci dla ró7nicy :rednich – w uzyskanym przedziale zawiera si; warto:K zerowa, tzn. dopuszczamy ró7nic; zerow9 mi;dzy porównywanymi :rednimi. 4,65 m A mB 0,81 0 ( Populacji A ma rozk4ad N m A , 2 ) , za: populacji B — N ( m B, 2 ). Hipoteza zerowa: H 0 : m A = mB Hipoteza alternatywna Funkcja testowa H 1 : m A > mB temp = H1 : m A < mB temp = H1 : m A temp = sr = se2 se2 = ( nA mB 1 1 + n A nB xB (t 2 * sr xA xB sr xA ( '; t2 ( '; t xB sr , nA + nB 2 ; +' lub (*t ) temp > t2 ) temp < t2 , n A + nB 2 + ) , n A + nB 2 + , n A + nB H 0 odrzucamy, je7eli: 2 ; +' ) temp > t , n A + nB 2 , n A + nB 2 , n A + nB 2 — b*1d ró,nicy %rednich, 1) s A2 + ( nB 1) sB2 n A + nB xA Obszar krytyczny Q 2 — wariancja wspólna. ( W przypadku gdy analizowane populacje generalne maj9 rozk4ady normalne N mA ; ( i N mB ; tzn. 2 A 2 B 2 A ) ) , przy czym parametry tych populacji s9 nieznane, a wariancje nie s9 jednakowe, 2 B (mo7na sprawdziK s4uszno:K takiego za4o7enia dla konkretnej sytuacji, wykorzystuj9c test Fishera weryfikuj9cy hipotez; H 0 : 2 A = 2 B ). W celu weryfikacji tej hipotezy zerowej ( H 0 : mA = mB ) wykorzystujemy tak zwany test Behrensa-Fishera w postaci: t'= xA s 2A nA xB + sB2 nB Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 43 Otó7 tak okre:lona statystyka t ' , przy za4o7eniu s4uszno:ci hipotezy zerowej H 0 : m A = mB , ma rozk4ad Studenta o v s A2 sB2 + n A nB 2 2 2 s A2 sB2 nA n + B n A 1 nB 1 stopniach swobody (tzw. metoda Satterthwaite’a). Dlatego te7 warto:K t 'emp — wyznaczona na podstawie prób z dwóch populacji jest porównywana z warto:ci9 krytyczn9 t z tablic ,v rozk4adu Studenta. Je:li mi;dzy tymi wielko:ciami uzyskamy relacj; temp > t ;v , wtedy hipotez+ zerow1 odrzucamy na rzecz hipotezy alternatywnej. H 0 — o warto ci oczekiwanych dwóch populacji zale<nych Niekiedy zachodzi potrzeba porównania :redniego poziomu pewnej cechy przed i po pewnym dodatkowym dzia4aniu na elementach tej samej populacji. Z populacji tej pobieramy losowo n elementow9 prób; i dla ka7dego elementu dysponujemy par9 wyników: xi , yi ( i = 1, 2,… , n ) . Takich par wyników nie nale7y traktowaK jako dwu ró7nych prób prostych, gdy7 mog9 one byK ze sob9 skorelowane (powi9zane). Przyk4adem mo7e byK badanie wagi cia4a przed kuracj9 odchudzaj9ca i po zako,czeniu takiej kuracji. Mamy tutaj do czynienia z sytuacj9, gdy :rednie s9 zale7ne (poszczególne pary s9 zale7ne). Sprawdzan9 hipotez9 jest tutaj hipoteza zerowa postaci H 0 : mz = 0 i jej równowa7na postaK: H 0 : mx m y = 0 , wobec hipotezy alternatywnej H1 : mz 0 , H1 : mz < 0 lub H1 : mz > 0 . Warto:K mz jest :rednia warto:ci9 obliczon9 z przyrostów par wyników: zi = xi yi . Hipotez9 zerow9 mo7na zweryfikowaK testem Studenta, zast;puj9c tam statystyki odpowiednimi warto:ciami wyliczonymi z przyrostów zi , tzn.: temp = z sz , gdzie: sz = sz — b*1d %redniej, n za: z = 1 n n z i =1 i = 1 n n i =1 ( xi yi ) , sz = sz2 = 1 n 1 n i =1 ( zi z) . 2 Warto:K temp wyznaczona z konkretnej próby, jest warto:ci9 zmiennej losowej t = przy za4o7eniu prawdziwo:ci H 0 , ma rozk4ad Studenta z (n–1) st. swobody. Z. Lauda ski, D. R. Ma kowski z sz , która PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 44 3.4.4. Hipoteza porównania dwóch frakcji Niech badana cecha X w dwóch populacjach A i B ma rozk4ad dwupunktowy z parametrami p A i pB . Wysuwamy hipotez;, 7e oba te parametry s9 identyczne. Hipotez1 zerow1 jest wi;c tutaj H 0 : p A = pB , a hipotezami alternatywnymi mog9 byK hipotezy: H1 : p A pB , H1 : p A > pB lub H1 : p A < pB . W celu weryfikacji tej hipotezy zerowej wylosowano dwie próby proste o liczebno:ci nA mA mB i nB 100 jednostek. Niech oraz oznaczaj9 wskaSniki struktury odpowiednio nA nB m + mB z pierwszej i drugiej próby, natomiast p = A jest frakcj9 wyró7nionych elementów n A + nB jednocze:nie w obu próbach (mA i mB — s9 to liczby wyró7nionych elementów spo:ród odpowiednio nA i nB z populacji A oraz B). H 0 : p A = pB , to statystyka: jest hipoteza zerowa mA mB n nB = A ma rozk4ad asymptotycznie normalny N ( 0;1) , gdzie p (1 p ) p (1 p ) p (1 p ) + nA nB n Je:li Z= p= prawdziwa m A mB n A nB mA + mB , n A + nB n= n A nB , n A + nB jest równy: Wielko:ci te wyst;puj9 w przedziale ufno:ci dla ró7nicy frakcji, gdzie z zmiennej normalnej dla prawdopodobie,stwa : — warto:K p (1 p ) 1 1 + = n A nB %# m P$ A &% n A mB nB natomiast p (1 p ) n z SPr mianownik = SPr . pA pB mA nA mB +z nB %9 SPr : 1 ;% . W praktyce oznacza to, 7e je7eli warto:K zmiennej Z wyznaczona na podstawie wyników m A mB z prób losowych, tzn. zemp = nA nB jest wi;ksza od warto:ci krytycznej zmiennej p (1 p ) n ( zemp > z ), wtedy hipotez; zerow9 normalnej — z , dla ustalonego poziomu istotno:ci postaci: H 0 : p A = pB — odrzucamy na rzecz hipotezy alternatywnej. Je:li uzyskamy relacj; zemp z — wtedy mówimy o braku podstaw do odrzucenia hipotezy zerowej, a wi;c hipotez; zerow9 przyjmujemy. Przyk*ad: Na poziomie istotno:ci = 0,05 zweryfikowaK przypuszczenie, 7e palacze papierosów stanowi9 jednakowy odsetek w:ród m;7czyzn i w:ród kobiet na podstawie wyników: spo:ród wylosowanych 500 m;7czyzn by4o 200 palaczy, a spo:ród wylosowanych 600 kobiet by4o 252 pal9cych. Z uwagi na to, 7e brak jest sugestii która p4eK ma wi;kszy (lub mniejszy) odsetek palaczy, przyjmujemy obustronny obszar krytyczny. Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 45 Stawiamy wi;c hipotez; zerow9 postaci: H 0 : p A = pB (jednakowe odsetki palaczy) wobec hipotezy alternatywnej: H1 : p A pB . Wykonujemy odpowiednie obliczenia wg poznanych wzorów: mA 200 m m + mB 452 252 = = 0, 4 ; B = = 0, 42 ; p = A = = 0, 411 , nA + nB 1100 nA 500 nB 600 n= n A nB 500 600 = = 272,73 ; n A + nB 500 + 600 p (1 p ) SPr = n czyli zemp = 0, 411 0,589 = 0,0298 , 272,73 = 0,4 0, 42 = 0,671 . 0,0298 Mamy wi;c relacj; z0,05 = 1,96 > 0,671 = zemp , z której wnioskujemy o braku mo7liwo:ci odrzucenia hipotezy zerowej, a wi;c nasz9 hipotez; o jednakowym wyst;powaniu palaczy papierosów w:ród m;7czyzn i kobiet przyjmujemy. Przypomnijmy nasz przedzia4 ufno:ci dla ró7nicy prawdopodobie,stw i wynikaj9cy z niego wniosek: 0 pA 7,84% pB +3,84% Cecha X populacji A i B ma rozk4ad zerojedynkowy, tzn. P ( X = 1) = p , P ( X = 0 ) = 1 p . Hipoteza zerowa: H 0 : p A = pB , gdzie p = H1 alternatywna H1 : p A > p B H1 : p A < p B H1 : p A pB Warto:K funkcji testowej m A mB n nB zemp = A p (1 p ) n m A mB n nB zemp = A p (1 p ) n zemp = Z. Lauda ski, D. R. Ma kowski mA nA mB nB p (1 p ) n mA + mB n n , n= A B . n A + nB n A + nB Obszar krytyczny [ z2 ( ( '; z ; +' ) zemp > z2 ] zemp < z2 lub [ z ; +' ) zemp > z '; z2 ] H 0 odrzucamy je7eli PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 46 3.5. WiAcej niC dwie Brednie — test analizy wariancji Analiza wariancji dla klasyfikacji pojedynczej Testy analizy wariancji s9 podstawowym narz;dziem statystyki eksperymentalnej, tj. szeroko rozbudowanej statystycznej metody planowania i oceny wyników eksperymentów naukowych dla potrzeb do:wiadczalnictwa rolniczego, medycznego, itp. Testy te pozwalaj9 na sprawdzenie, czy pewne czynniki, które mo7na dowolnie regulowaK w toku do:wiadczenia, wywieraj9 wp4yw. Je:li tak, to w jakim stopniu oddzia4ywaj9 na kszta4towanie si; :rednich warto:ci cech mierzalnych. Istot9 metody analizy wariancji jest rozbicie na addytywne sk4adniki sumy kwadratów wariancji ca4ego zbioru wyników, i których liczba wynika z potrzeb eksperymentu. Test analizy wariancji zwykle przeprowadza si; wed4ug ustalonego schematu, uj;tego w postaci tzw. tabeli analizy wariancji. Nale7y tutaj zauwa7yK, 7e testy analizy wariancji maj9 bardzo liczne zastosowania mi;dzy innymi w analizie regresji. dród4o zmienno:ci Stopnie swobody Suma kwadratów eredni kwadrat Test F Najprostszym przypadkiem jest analiza wariancji tzw. jednokierunkowego uk4adu danych do:wiadczalnych, cz;sto okre:lany jako jednoczynnikowy uk*ad ca*kowicie losowy. ( Danych jest k populacji, ka7da o rozk4adzie normalnym N mi ; 2 i ) ( i = 1, 2,… , k ) lub o rozk4adzie zbli7onym do normalnego. Zak4ada si; przy tym, 7e wariancje tych k populacji s9 jednakowe (metoda jest nie jest odporna na nierówne wariancje — mo7na sprawdziK to za4o7enie np. przy pomocy testu Bartletta). Z ka7dej z tych k populacji wylosowano niezale7nie próby o ni elementach. Oznaczaj9c wyniki prób przez xij mo7emy napisaK model obserwacji dla i = 1, 2,… , k oraz j = 1, 2,…, ni , k n i =1 i za: =n: xij = mi + eij = m + ai + eij , gdzie: mi — jest nieznan9 :redni9 w i-tej populacji, eij — jest warto:ci9 zmiennej losowej (sk*adnikiem losowym) o rozk4adzie normalnym ( N 0; 2 ), m — jest tutaj nieznan9 :redni9 wszystkich populacji, ai = mi m — jest efektem i-tej populacji. Na podstawie wyników xij nale7y zweryfikowaK hipotez; H 0 : m1 = m2 = = mk > H 0 : k a2 i =1 i =0 wobec hipotezy alternatywnej H1 — nie wszystkie %rednie badanych populacji s1 równe (przynajmniej dwie s9 ró7ne). Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH dród4o zmienno:ci Stopnie swobody Suma kwadratów Populacje Wewn9trz populacji Ca4kowita 47 eredni kwadrat k 1 var A s 2A = var A k 1 n k var E se2 = var E n k n 1 var x Test F Femp = s A2 se2 gdzie: k n i =1 i var A = ( xi. var x = za: xi. = x ) , var E = 2 k ni i =1 j =1 1 ni ni ( xij x j =1 ij x ) , x= 2 k ni i =1 j =1 ( xij xi. ) 2 , = var A + var E , 1 n k ni x j =1 ij i =1 . Obliczon9 w tablicy warto:K Femp porównujemy z warto:ci9 krytyczn9 F odczytan9 i dla odpowiedniej liczby z tablic rozk4adu Fishera dla ustalonego z góry poziomu istotno:ci k 1 oraz n k stopni swobody. Je7eli zachodzi Femp F ;k 1;n k , to hipotez+ H 0 odrzucamy, natomiast gdy Femp < F ;k 1; n k , wtedy mówimy o braku podstaw do odrzucenia hipotezy H 0 . Przyk*ad: Do:wiadczenie wazonowe. Cecha badana — masa korzeni selera. Czynnik — pocz9tkowa liczba nicieni w ziemi. Liczba obiektów k = 7 , liczba powtórze, dla poszczególnych obiektów ni = r = 4 , czyli ogólna liczba obserwacji n = 7 4 = 28 . 0 Nr powt. 1 2 3 4 50 Masa korz. 6,8 8,2 6,9 7,0 Nr powt. 1 2 3 4 100 Masa korz. 6,4 6,3 6,3 5,6 Nr powt. 1 2 3 4 dród4o Zmienno:ci Obiekty B49d Ca4k. Masa korz. 6,0 6,1 6,2 6,3 St. sw. 6 21 27 Liczba nicieni 200 Nr Masa powt. korz. 1 5,8 2 4,8 3 6,0 4 5,4 Suma Kwd. 20,9071 4,8825 25,7896 400 Nr powt. 1 2 3 4 er. Kwd. 3,4846 0,2325 L_nicieni erednia Grupa 0 7,225 a 50 6,150 ab 100 6,150 ab 200 5,500 bc 400 5,075 bc 800 5,075 bc 1600 4,400 c 1,109 Nir0,05 Z. Lauda ski, D. R. Ma kowski 800 Masa korz. 5,5 4,9 4,7 5,2 Nr powt. 1 2 3 4 Masa korz. 5,8 4,8 4,6 5,1 Femp 14,99 1600 Nr Masa powt. korz. 1 4,7 2 5,1 3 3,8 4 4,0 PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 48 Dla naszej analizy: F0,05;6;21 = 2,573 , F0,01;6;21 = 3,812 , F0,001;6;21 = 5,881 , Tak wi;c nasz9 hipotez; zerow9 o braku wp4ywu pocz9tkowej liczby nicieni na mas; korzeni selera odrzucamy na poziomie istotno:ci = 0,001 . Wyznaczona warto:K Pvalue = 0,0000013 okre:la nam poziom istotno:ci przy którym nasza hipoteza mo7e byK odrzucona. Test Bartletta równo:ci wariancji w populacjach: 2 emp = 6,34 Pvalue = 0,386 . 3.5.1. Procedury porówna1 wielokrotnych W przypadku odrzucenia hipotezy zerowej H 0 : m1 = m2 = = mk w te:cie analizy wariancji, stwierdza si;, i7 nie wszystkie %rednie badanych populacji s1 równe, czyli, 7e co najmniej jedna :rednia obiektowa ró7ni si; od pozosta4ych w sposób istotny. Analiza wariancji nie daje jednak odpowiedzi, które :rednie obiektowe ró7ni9 si; od pozosta4ych, nie mówi równie7 o charakterze tych ró7nic. W celu zbadania ró7nic pomi;dzy :rednimi obiektowymi wykorzystuje si; tak zwane procedury porówna, wielokrotnych. Procedury te pozwalaj9 na wyodr;bnienie grup jednorodnych. Grupa jednorodna obiektów, w ramach zbioru :rednich obiektowych, stanowi roz49czny z innymi grupami jednorodnymi podzbiór obiektów, które nie ró7ni9 si; mi;dzy sob9 ze wzgl;du na warto:ci :rednie. Cz;:K procedur porówna, wielokrotnych opiera si; na warto:ci zwanej NIR, czyli na Najmniejszej Istotnej Ró7nicy. Je7eli ró7nica pomi;dzy dwoma :rednimi obiektowymi jest mniejsza od NIR, to uznaje si;, 7e :rednie te nie ró7ni9 si; mi;dzy sob9 w sposób istotny. Opracowano szereg procedur porówna, wielokrotnych i innych metod wyznaczania grup jednorodnych. Poni7ej przedstawiono wyniki analizy wariancji do:wiadczenia jednoczynnikowego porównuj9cego plonowanie 20 odmian kapusty oraz podzia4 na grupy jednorodne ró7nymi metodami. dród4o zmienno:ci Odmiana B49d Ca4kowita Stopnie swobody 19 60 79 Suma kwadratów odchyle, 48579,1375 61314,2500 109893,3875 eredni kwadrat odchyle, 2556,7967 1021,9042 Femp 2,50 p-value 0,0037 Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 49 Procedura Duncana Procedura StudentaNewmanaKeulsa Procedura Gabriela Procedura Sidaka Procedura Bonfferoniego Procedura Sheffego Metoda kontrastów 193,75 176,25 173,75 173,75 170,00 162,50 158,75 156,75 153,75 151,25 151,25 150,00 141,25 140,00 135,00 122,50 122,50 115,00 107,50 96,25 Procedura Tukeya erednia Agora Atena Edyta Ovation Rigoletto Alka Ambra Marius Bona Juventa Sunny Michalinka Sonata Marioliers Ewelina Sande Charlena Fulmara Charan Malika NIR Liczba grup Procedura Studenta Odmiana Wyznaczone grupy jednorodne 45,215 6 83,774 2 — 5 — 2 87,019 2 87,504 2 87,680 2 130,81 1 — 2 W praktycznym do:wiadczalnictwie rolniczym najprzydatniejszymi metodami wyznaczani grup jednorodnych s9 procedury porówna, wielokrotnych Duncana, Tukeya (Tukeya-Kramera), test Dunneta porównania z wzorcem oraz metod; opart9 na kontrastach. Procedura porówna wielokrotnych Duncana Procedura Duncana ma zastosowanie tylko w przypadku gdy w ramach wszystkich poziomów badanego czynnika liczba obserwacji jest jednakowa ( n1 = n2 = … = nk = n ). Po uporz9dkowaniu :rednich obiektowych w kolejno:ci rosn9cej, porównuje si; ró7nic; pomi;dzy :redni9 obiektow9 na pozycji k i :redni9 obiektow9 na pozycji k 1 z warto:ci9 NIR, wraz z kolejnymi krokami do porówna, bierze si; kolejne :rednie obiektowe. NIR Duncana ma postaK: NIRD = t D ( , k ', v ) 2 Se 2 n gdzie: n — liczba obserwacji w ramach jednego poziomu czynnika, v — liczba stopni swobody dla b4;du losowego (z analizy wariancji), k ' — liczba aktualnie porównywanych poziomów czynnika, Se2 — :redni kwadrat odchyle, (wariancja) dla b4;du losowego (z analizy wariancji), tD ( , k ', v ) — warto:K krytyczna wielokrotnego testu Duncana. Z. Lauda ski, D. R. Ma kowski 50 PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH Procedura porówna wielokrotnych Tukeya Przypadku uk4adu gdy w ramach wszystkich poziomów badanego czynnika liczba obserwacji jest jednakowa ( n1 = n2 = … = nk = n ) warto:K NIR Tukeya ma postaK: NIRT = q ( ; k 1, v ) Se 2 n gdzie: n — liczba obserwacji w ramach jednego poziomu czynnika, k — liczba poziomów czynnika, v — liczba stopni swobody dla b4;du losowego (z analizy wariancji), Se2 — :redni kwadrat odchyle, (wariancja) dla b4;du losowego (z analizy wariancji), q ( ; k 1, v ) — warto:K krytyczna studentyzowanego rozst;pu. Gdy liczba obserwacji w ramach poziomów badanego czynnika nie jest jednakowa ( n1 n2 … nk ) warto:K NIR Tukeya wyznacza si; oddzielnie dla ka7dej porównywanej pary :rednich :rodowiskowych wg wzoru (tzw. procedura Tukeya-Kramera): NIRT ( µ1 µ2 ) = q ( , k 1, v ) Se2 1 2 1 1 + n1 n2 gdzie: n1 , n2 — liczba obserwacji w ramach porównywanych poziomów czynnika, k — liczba poziomów czynnika, v — liczba stopni swobody dla b4;du losowego (z analizy wariancji), Se2 — :redni kwadrat odchyle, (wariancja) dla b4;du losowego (z analizy wariancji), q ( ; k 1, v ) — warto:K krytyczna studentyzowanego rozst;pu. Test Dunneta porównania rednich obiektowych z wzorcem Test Dunneta ma zastosowanie, gdy w ramach poziomów badanego czynnika wyst;puje jeden poziom, który mo7na okre:liK jako wzorzec. Wówczas mo7na sprawdziK, za pomoc9 tego testu, które :rednie obiektowe ró7ni9 si; istotnie od :redniej dla wzorca. Test Dunneta ma postaK: td = xi xC 2 Se2 nh gdzie: xi — i-ta :rednia obiektowa, xC — warto:K :rednia dla wzorca, Se2 — :redni kwadrat odchyle, (wariancja) dla b4;du losowego (z analizy wariancji), nh — :rednia harmoniczna liczby obserwacji dla danego poziomu czynnika i dla wzorca. Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH II. ANALIZA STATYSTYCZNA DANYCH DO 51 WIADCZALNYCH 1. WPROWADZENIE Dane empiryczne, b;d9ce przedmiotem bada, statystycznych powstaj9 zazwyczaj w wyniku pomiaru okre:lonych cech mierzalnych pewnych populacji zwierz9t, ro:lin, próbek gleby, produktów przemys4u, itp. Cechy te podlegaj9 naturalnej zmienno:ci, któr9 bez trudu mo7emy zaobserwowaK chocia7by na populacji ludzkiej, a która wyst;puje w ka7dej zbiorowo:ci przyrodniczej, oboj;tnie, czy wytworzonej przez cz4owieka czy te7 naturalnie istniej9cej. Zmienno:K ta w populacjach 7ywych spowodowana jest zarówno przyczynami genetycznymi jak i p4ywami zmiennych warunków :rodowiska w procesie wzrostu i dojrzewania organizmów. W populacjach sztucznych, wytworzonych przez cz4owieka, wyst;puje zmienno:K spowodowana niedok4adno:ci9 przyrz9dów, maszyn czy niejednorodno:ci surowca, z którego wykonujemy elementy badanej zbiorowo:ci. Dokonuj9c odpowiednio dok4adnych pomiarów, mo7emy wykryK nawet drobne ró7nice istniej9ce mi;dzy badanymi przedmiotami. Oprócz wymienionych Sróde4 zmienno:ci danych empirycznych wyst;puje jeszcze czysto techniczne Sród4o, zwi9zane z dokonywaniem pomiaru. Celem bada, (analiz) statystycznych jest uchwycenie prawid4owo:ci wyst;puj9cych w zmiennym materiale liczbowym oraz wyodr;bnienie ró7nic istotnych w:ród losowych, przypadkowych, wyst;puj9cych w zbiorowo:ci, która a priori uznajemy za jednorodn9. Cel ten osi9ga si; w trzech etapach statystycznego opracowania danych empirycznych: opis, analiza i wnioskowanie. Do%wiadczalnictwo jest aktywnym zbieraniem danych statystycznych, polegaj9cym na zastosowaniu do materia4u eksperymentalnego okre:lonych zabiegów i obserwacji ich efektów. Podstawowym postulatem wymaganym od schematu gromadzenia danych empirycznych jest mo7liwo:K sensownej ich interpretacji. Dla uzyskania niniejszego celu potrzebne jest w4a:ciwe planowanie do:wiadczenia i zastosowanie w4a:ciwych metod analizy statystycznej. Planuj1c jakiekolwiek do:wiadczenie, chcemy uzyskaK dane niezb;dne do charakterystyki i opisu nowego zjawiska, b9dS te7 rozstrzygni;cia pewnych nowych hipotez, albo potwierdzenia hipotez stawianych przez innych badaczy, w odmiennych, specyficznych warunkach. Na przyk4ad w do:wiadczeniach odmianowych z ro:linami uprawianymi w Polsce, prowadzonych permanentnie przez wyspecjalizowane stacje do:wiadczalne oceny odmian, zbiera si; dane eksperymentalne dotycz9ce zarówno najwa7niejszych cech u7ytkowych ro:lin, takich jak wysoko:K plonu nasion, korzenia czy bulw, oraz okre:laj9cych warto:K technologiczn9 b9dS konsumpcyjn9 plonów, jak równie7 cech pobocznych charakteryzuj9cych ro:liny, ich odporno:K na choroby. Dane te pozwalaj9 na rozpoznanie kszta4towania si; cech nowych odmian w ró7nych rejonach kraju, s4u79 rejonizacji nowych odmian oraz kontroli nad wyradzaniem si; odmian b;d9cych w uprawie od wielu lat. Dokonuj9c opisu danych empirycznych, który w gruncie rzeczy jest ich redukcj9 od pewnych wskaSników (parametrów), musimy u:wiadomiK sobie — czego ten opis dotyczy, a w4a:ciwie — co b;dzie podmiotem wniosków formu4owanych w oparciu o ten opis. Na przyk4ad, dokonujemy obserwacji dynamiki przyrostów masy oraz powierzchni poszczególnych elementów ro:lin zbo7owych w do:wiadczeniu wazonowym. Uzyskane pomiary s9 reprezentacj9 populacji tych wielko:ci u ro:lin zbo7a danego gatunku i danej odmiany oraz przy ustalonych warunkach glebowych, poziomu nawo7enia, itp. Mamy wi;c tutaj zbiorowo:K danych uzyskanych bezpo:rednio z pomiarów oraz zbiorowo:K drug9, któr9 te dane reprezentuj9. Pierwsza z nich nazywamy prób1, natomiast drug9 — populacj1 generaln1. Tak wi;c pod okre:leniem: populacja – rozumiemy zbiorowo:K wszystkich mo7liwych warto:ci rozpatrywanej cechy pewnej populacji przedmiotowej ro:lin uprawnych, drzew, zwierz9t czy ludzi, oraz próba – jako reprezentacja populacji generalnej. Z. Lauda ski, D. R. Ma kowski 52 PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH Ka7de do%wiadczenie jest ci9giem ustalonych wcze:niej czynno:ci prowadz9cych do uzyskania mo7liwie najbardziej wiarygodnych informacji o interesuj9cym nas zjawisku. W :cis4ych do:wiadczeniach naukowych zwykle bada si; wp4yw konkretnych czynników kontrolowanych na wyst;powanie lub nat;7enie zjawisk b;d9cych przedmiotem bada,, z mo7liwym wy49czeniem innych, nieinteresuj9cych czynników, mog9cych zak4óciK zbierane informacje. W do%wiadczeniu jednoczynnikowym, najprostszym mo7liwym typem eksperymentu naukowego porównawczego, tylko jeden czynnik podlega zmianom zgodnie z intencjami eksperymentatora, inne za: s9 utrzymywane na sta4ym poziomie lub s9 nieobecne. W zagadnieniach biologicznych na ogó4 wyst;puj9 jednak nie daj9ce si; kontrolowaK wp4ywy zró7nicowanego materia4u do:wiadczalnego, zewn;trznych warunków przyrodniczych (klimat, :rodowisko), czy nawet samej techniki obserwacji. Wszystkie te dodatkowe elementy s9 przyczyna tego, 7e wyniki dwóch eksperymentów identycznie zaplanowanych i przeprowadzonych ró7ni9 si; mi;dzy sob9. To niekontrolowane zró7nicowanie towarzysz9ce w4a:ciwemu do:wiadczeniu musi byK akceptowane przez eksperymentatora jako b*1d do%wiadczenia. Wynika st9d wniosek, 7e aby do:wiadczenie pozwala4o na ocen; interesuj9cego nas zjawiska, konieczne jest rozdzielenie zmienno:ci spowodowanej wp4ywem badanego czynnika i zmienno:ci losowej. Rozdzia4 tych dwu ró7nych zmienno:ci w do:wiadczeniu jest wykonalny, je7eli badania b;d9 powtarzane w niezmienionych warunkach, przy ustalonych poziomach kontrolowanych czynników. Uk4ad do:wiadczenia musi zatem spe4niaK pewne warunki formalne, aby mo7na by4o korzystaK z metod analizy statystycznej danych empirycznych. Celem ka7dego do:wiadczenia jest potwierdzenie lub zaprzeczenie pewnej hipotezie odno:nie badanego zjawiska. Hipotez; te nazywamy hipotez1 merytoryczn1. Formu4uje si; ja przyst;puj9c do bada,, w momencie planowania do:wiadczenia. Mo7e to byK np. hipoteza, 7e nowa odmiana (lub odmiany) pod wzgl;dem pewnych cech przewy7szaj9 dotychczas uprawiane, 7e jaki: zabieg na przedmiocie eksperymentu przyniesie nowe efekty mierzalne lub jako:ciowe, 7e wyniki osi9gane w innym miejscu lub czasie potwierdz9 si; w zmienionych warunkach. Jest zrozumia4e, 7e sformu4owanie hipotezy merytorycznej powinno nast9piK po zapoznaniu si; z aktualnym stanem wiedzy w danej dziedzinie. Jasne i konkretne sformu4owanie hipotezy merytorycznej u4atwia zaplanowanie do:wiadczenia i w4a:ciwy wybór modelu w póSniejszym opracowaniu jego wyników. Powinno si; unikaK dla formu4owania dla jednego do:wiadczenia zbyt z4o7onych hipotez dla uzyskiwania jednoznaczno:ci wyniku jej weryfikacji oraz z faktu, 7e hipoteza statystyczna musi byK jednoznacznym odwzorowaniem hipotezy merytorycznej – by wnioski statystyczne mog4y byK bez zastrze7e, i w9tpliwo:ci transponowane na wnioski merytoryczne. Czasami, ze wzgl;du na wymóg testowania hipotez prostych, hipoteza statystyczna jest zaprzeczeniem hipotezy merytorycznej. Na przyk4ad dla wykazania wy7szego plonowania nowej odmiany od wybranej odmiany starej, sprawdzamy hipotez+ zerow1, 7e :rednie z populacji generalnej obu odmian s9 jednakowe. Odrzucenie lub przyj;cie hipotezy zerowej prowadzi do jednoznacznych wniosków o relacji mi;dzy plonowaniem porównywanych odmian. Du7e znaczenie w do:wiadczalnictwie odgrywaj9 modele liniowe, prowadz9ce do analizy wariancji lub analizy regresji wyników eksperymentu. Mo7na stwierdziK, 7e matematyczne modele liniowe, zwane tak7e hipotezami liniowymi, s9 adekwatnymi modelami wielkiej klasy hipotez merytorycznych, sprawdzanych do:wiadczalnie. Zachodzi to w tych eksperymentach, w których badamy wp4yw czynnika lub czynników kontrolowanych na cechy mierzalne jednostek do:wiadczalnych, przy czym ka7dy z tych czynników wyst;puje co najmniej w dwóch poziomach. Czynniki mog9 byK jako%ciowe, jak np. odmiany ro:lin, rasy zwierz9t, itp., b9dS ilo%ciowe, jak temperatura, terminy siewu lub zbioru, dawki nawozu, itd. Hipoteza merytoryczna w do:wiadczeniach czynnikowych dotyczy zró7nicowanego oddzia4ywania ich poziomów na okre:lone cechy jednostek zbiorowo:ci b;d9cej przedmiotem bada,. Znajduje ona odzwierciedlenie w hipotezie liniowej w postaci sk4adników warto:ci oczekiwanej ka7dej obserwacji. Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 53 2. ZASADY STATYSTYCZNE PLANOWANIA EKSPERYMENTÓW Okre:lenie jednostki do%wiadczalnej jako elementarnego Sród4a obserwacji sk4adaj9cych si; na dane empiryczne z regu4y nie budzi w9tpliwo:ci w badaniach prowadzonych na populacjach biologicznych z4o7onych z osobników. W do:wiadczeniach rolniczych z regu4y jednostkami do:wiadczalnymi nie s9 poszczególne ro:liny, ale ich gromady rosn9ce na poletkach do:wiadczalnych czy wazonach. Przyj;cie poletka do:wiadczalnego jako podstawowej jednostki sprawia k4opoty z okre:leniem jej wielko:ci i kszta4tu, a tak7e inne w9tpliwo:ci wynikaj9ce z wyst;puj9cej tu pewnej dowolno:ci. Tych w9tpliwo:ci nie b;dzie, je7eli wyraSnie okre:limy, b9dS u:wiadomimy sobie, co stanowi populacj+ generaln1, dla której s9 formu4owane wnioski z danych empirycznych, a w4a:ciwie – czego dotyczy hipoteza merytoryczna. Natomiast obserwacje ilo:ciowe uzyskiwane z jednostki do:wiadczalnej mo7emy zapisaK w postaci ogólnego modelu liniowego o addytywnych sk4adnikach: yi = m + a + ei gdzie i jest numerem jednostki do:wiadczalnej, m — jest :redni9 ogóln9 w populacji, poziomem odniesienia badanej wielko:ci. Sk4adnik a reprezentuje w tym modelu efekty spowodowane zmiennymi czynnikami kontrolowanymi w eksperymencie (odmiany, zabiegi, itp.), za: ei jest specyficznym efektem przyczyn losowych, nie poddaj9cych si; kontroli eksperymentatora, nazywanym b*+dem losowym. Sk4adnik a mo7e byK rozdzielony na cz;:ci, gdy w do:wiadczeniu bada si; równocze:nie zmiany kilku czynników, tzn. kontrolowanych Sróde4 zmienno:ci obserwacji. Równie7 sk4adnik ei mo7e ulec dekompozycji na losowe wprawdzie, ale daj9ce si; wyodr;bniK Sród4a zmienno:ci. Warto:K oczekiwana obserwacji yi jest równa m + a , za: wariancja obserwacji jest równa wariancji b4;du losowego, tzn. D 2 ( yi ) = D 2 ( ei ) = e2 . Eksperymenty porównawcze stosowano cz;sto w ró7nych dziedzinach nauki ju7 od XIX wieku. Takie badania s9 obci97one b4;dami, je7eli poszczególne grupy jednostek do:wiadczalnych nie b;d9 równowa7ne na pocz9tku do:wiadczenia. R. A. Fisher zauwa7y4, 7e je%li jednostki do%wiadczalne (poletka) b+d1 przyporz1dkowane do grup losowo, to równowa,no%- grup b+dzie zapewniona przynajmniej co do %redniej. Jego schematy do:wiadcze, przewiduj9 wi;c zarówno porównania jak i randomizacj;. Randomizacja oczywi:cie eliminuje nieu:wiadomion9 stronniczo:K eksperymentatora. Losowy dobór gwarantuje bezstronno:K wobec ka7dego czynnika, nawet takiego, którego znaczenie nie jest znane eksperymentatorowi. Randomizacja ma tak7e inn9 zalet;, mo7na nawet powiedzieK, 7e jeszcze wa7niejsz9 od eliminacji obci97e,. Dzi;ki niej wyniki do:wiadcze, s9 bezpo:rednio dost;pne dla matematycznych rozwa7a,. Losowe przyporz9dkowanie obiektów do:wiadczalnych prowadzi do zjawisk podobnych do tych, jakie wyst;puj9 w grach losowych: chocia, nie mo,na przewidzie- pojedynczego wyniku, to w wielu przypadkach wyst+puje charakterystyczna stabilno%- uk*adów wyników. Istnienie probabilistycznego opisu procesu zbierania danych poprzez do:wiadczenie jest podstaw9 wnioskowania statystycznego. Fisher nie zapocz9tkowa4 zastosowa, prawdopodobie,stwa do wnioskowania statystycznego, lecz tylko zastosowania te rozwin94, a postulowana przez niego randomizacja dostarcza danych, do których teoria prawdopodobie,stwa mo7e byK poprawnie stosowana. Podej%cie Fishera do wnioskowania statystycznego przez prawdopodobie stwo polega na ocenie istotno%ci zaobserwowanej zmienno%ci obiektowej przez porównanie jej ze zmienno%ci1 spowodowan1 niekontrolowanymi czynnikami. Przypu:Kmy wi;c, 7e ka7da z dwu odmian 7yta A i B zosta4a wysiana na pewnej, jednakowej liczbie poletek przyporz9dkowanych losowo. Plony na ró7nych poletkach s9 ró7ne, ale przyjmijmy, 7e :redni plon odmiany A przewy7sza :redni plon odmiany B. Zró7nicowanie plonów na poletkach obsianych t9 sam9 odmian9 pozwala oszacowaK nieuniknion9 zmienno:K spowodowan9 wszystkimi innymi czynnikami maj9cymi wp4yw na plon ro:lin. Tak wi;c Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 54 ró7nic; o jak9 :rednio odmiana A przewy7sza odmian; B (zmienno%- odmian) porównuj; si; z ró7nicami wewn9trz odmian (zmienno%ci1 wewn+trzn1). Poniewa7 poletka pod zasiew odmian przydzielano losowo, teoria prawdopodobie,stwa pozwala obliczyK jaka jest szansa powstania zaobserwowanej wy7szo:ci odmiany A jedynie w wyniku przyporz9dkowania losowego ró7nym poletkom. Je7eli wi;c :redni plon odmiany A przewy7sza :redni plon odmiany B o wielko:K tak du79 (w porównaniu ze zmienno:ci9 wewn9trz odmian), 7e w wyniku przypadku mog4oby to si; zdarzyK, powiedzmy tylko raz na 100 do:wiadcze, (przy wielokrotnym powtarzaniu eksperymentu), to jest to silny argument za tym, 7e co: wi;cej ni7 przypadek faworyzuje odmian; A. To „co% wi+cej”, je:li do:wiadczenie zosta4o starannie przeprowadzone, musi byK w4a:nie wynikiem wy7szej plenno:ci odmiany A. Technika takiego porównania tych dwóch zmienno:ci zaproponowana przez Fishera znana jest pod nazw9 analizy wariancji. Stosunek wariancji uczestnicz9cych w takim porównaniu zosta4 póSniej nazwany statystyk1 F dla uczczenia zas4ug R. A. Fishera. Dost;pno:K formalnej dyskusji matematycznej wniosków z do:wiadczenia przeprowadzonego wed4ug schematu Fishera umo7liwia badanie sytuacji zbyt skomplikowanych dla niewspomaganej intuicji eksperymentatora. Dobrze dobrany model matematyczny obserwacji do:wiadczalnych pozwala eksperymentatorowi badaK jednocze:nie wp4yw wielu czynników i interakcji mi;dzy nimi. Pozwala tak,e wybra- schematy do%wiadczalne (opisywane modelami matematycznymi) zapewniaj1ce efektywne wykorzystanie informacji o dzia*aniu badanych czynników. W my:l koncepcji Fishera rozwa7my najprostsze do:wiadczenie jakim jest do:wiadczenie jednoczynnikowe wed4ug uk4adu ca4kowicie losowego, tzn. ka7da obserwacja z takiego do:wiadczenia opisywana jest modelem postaci (zob. rozdzia4 analiza wariancji dla klasyfikacji pojedynczej): yij = m + ai + eij dla i = 1, 2,… , k ; eij ( N 0; 2 e ). j = 1, 2,…, ni ; n = k i =1 ni , zak4adamy przy tym, 7e yij ( N m + ai ; 2 e ), 2.1. Metodyka i technika doBwiadcze1 rolniczych Do%wiadczenie (eksperyment) jest to metoda dzia4a, na obiektach materialnych, pozwalaj9ca obserwowaK okre:lone reakcje i zjawiska w warunkach kontrolowanych. Eksperymenty wykonuje si; w celu potwierdzenia lub negacji okre%lonej teorii, która z jednej strony okre:la :ci:le warunki eksperymentu, za: z drugiej nadaje sens uzyskanej w wyniku eksperymentu obserwacji. W4a:nie weryfikowana przez do:wiadczenie teoria decyduje, co w danym eksperymencie jest w4a:ciw9 obserwacj9, a co tylko nieistotnym jego zak4óceniem. Nauki przyrodnicze, które nale79 do obszaru naszych zainteresowa,, rozwijaj9 si; g4ównie poprzez :wiadome eksperymenty realizowane w znanych i kontrolowanych warunkach. Je7eli za kryterium podzia4u do:wiadcze, przyjmiemy warunki ich zak4adania i prowadzenia, to mo7na je podzieliK na eksperymenty w warunkach sztucznych (laboratoryjnych) oraz eksperymenty w naturalnych warunkach polowych. Spora cz;:K wiedzy wszelkich nauk pochodzi te7 z bezpo:rednich obserwacji zjawisk zachodz9cych w otaczaj9cym nas :wiecie. Eksperyment bowiem, jest swojego rodzaju pytaniem jakie teoria zadaje naturze. Tak wi;c np. ankietyzacja w ograniczeniu do pewnego obszaru bada, te7 jest eksperymentem. Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 55 Do%wiadczenia wazonowe, zak4adane i prowadzone przede wszystkim w hali wegetacyjnej, jak równie7 w szklarniach, fitotronach i komorach klimatyzacyjnych, stanowi9 wst;pny etap bada, rolniczych np. w zakresie nawo7enia czy ochrony ro:lin. Mog9 cz;sto stanowiK uzupe4nienie do:wiadcze, polowych, w których trudno ujednoliciK czy kontrolowaK warunki zewn;trzne. Do%wiadczenia szklarniowe, mog9 byK prowadzone w warunkach ca4kowicie kontrolowanych lub cz;:ciowo zbli7onych do naturalnych. W nowoczesnych szklarniach temperatura, wilgotno:K i temperatura powietrza s9 pod :cis49 kontrol9 przez ca4y rok. A wi;c s9 tam warunki dla prowadzenia ró7nego typu do:wiadcze, o charakterze poznawczym i aplikacyjnym przez ca4y rok. Zak4adamy je najcz;:ciej w wazonach, specjalnych skrzyniach lub wr;cz na naturalnym, odpowiednio przygotowanym pod4o7u glebowym. Do%wiadczenia w namiotach foliowych, najcz;:ciej s9 to do:wiadczenia z wczesn9 upraw9 ro:lin o wi;kszych wymaganiach cieplnych i nawozowych. Gleba pod namiotem mo7e stanowiK w4a:ciwe pod4o7e lub te7 byK ca4kowicie wymieniona do okre:lonej g4;boko:ci lub tylko na powierzchni, na której s9 rozstawione wazony czy specjalne skrzynie, podobnie jak w szklarni. W do:wiadczeniach hodowlanych i fizjologicznych namioty s9 cz;sto stosowane, gdy7 umo7liwiaj9 na izolacj; ro:lin czy stworzenie warunków prowokacyjnych (np. suszy) w okre:lonych fazach wzrostu i rozwoju ro:lin. Do%wiadczenia polowe, maj9 na celu porównawcze badanie ilo:ci i jako:ci plonu ro:lin uprawnych. Stanowi9 podstawow9 metod; prowadzenia bada, naukowych w zakresie uprawy, nawo,enia, hodowli i ochrony ro%lin. Stanow9 jedn9 z metod upowszechniania i wdra7ania osi9gni;K naukowych do praktyki rolniczej. Aby do:wiadczenia te mog4y spe4niaK te zadania, musz9 byK zak4adane i prowadzone wg w4a:ciwej metodyki i techniki. Podstawow9 jednostk1 w tych do:wiadczeniach jest poletko z którego obserwujemy interesuj9cy nas wynik (najcz;:ciej liczbowy). Kolejnym elementem do:wiadczenia jest czynnik do%wiadczalny. Jeden czynnik w do:wiadczeniu prostym (np. odmiany, nawo7enie, terminy, itp.) lub dwa, trzy, itd. czynniki w do%wiadczeniu wieloczynnikowym. W obr;bie badanego czynnika porównywane s9 obiekty czynnika (poziomy, warianty, kombinacje) w liczbie co najmniej dwóch. Natomiast na ogó4 w praktyce nie stosuje wi;kszej liczby czynników ni7 trzy (za wyj9tkiem bardzo specyficznych, np. do:wiadczenia o wielu czynnikach i ka7dy rozpatrywany tylko na dwóch poziomach). W celu zapewnienia odpowiedniej wiarygodno:ci i dok4adno:ci wyników oraz w4a:ciwej oceny b*+du do%wiadczalnego (miernika wp4ywu czynników niekontrolowanych na zró7nicowanie wyników obiektowych), ka7dy z obiektów nale7y powtórzyK kilkakrotnie (na ogó4 co najmniej trzykrotnie). Analizowane obiekty w do:wiadczeniu s9 rozmieszczane na poletkach wg okre:lonej metody, zwanej uk*adem do%wiadczalnym. W do%wiadczeniach polowych du7e znaczenie ma zjawisko nierównomierno:ci glebowej, która mo7e wyst;powaK na polu i która jest przyczyn9 nierównomierno:ci w plonowaniu ro:lin. Taka zmienno:K glebowa wynika z przyczyn naturalnych i sztucznych. Mo7e ona wyst;powaK losowo jak i systematycznie. Zmienno:K losowa (fluktuacyjna), wyst;puj9ca na polu losowo, na ogó4 tylko nieznacznie wp4ywa na wypaczenie wyników do:wiadczenia. Przed t9 zmienno:ci9 zabezpieczamy si; losowym przydzia*em obiektów do poletek. Natomiast wyst;powanie zmienno:ci systematycznej jest bardziej niebezpieczne dla do:wiadczenia. Ten rodzaj zmienno:ci wyra7a si; systematyczn9 zmian9 (wzrost lub spadek) urodzajno:ci gleby w jednym kierunku pola. Dlatego te7 stosuje si; blokowanie poletek, tzn. fragmenty pola rozlokowane wzd4u7 kierunku zmienno:ci systematycznej, zawieraj9ce poletka charakteryzuj9ce si; tylko zmienno:ci9 losow9. Ogólnie mo7na stwierdziK, 7e podzia4 do:wiadczenia na bloki ma na celu wyodr;bnienie Sróde4 niejednorodno:ci w eksperymencie. Z. Lauda ski, D. R. Ma kowski 56 PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 2.1.1. DoBwiadczenie jednoczynnikowe — uk:ad ca:kowicie losowy Model liniowy: yij = m + a j + eij Poziomy Czynnika A w czterech powtórzeniach np. wazony Plan do:wiadczenia (nr obiektu, nr powtórzenia) 4,1 1,1 5,1 4,2 3,1 2,2 2,4 5,3 1,2 4,3 1,4 3,3 2,3 5,2 5,4 1,3 3,4 3,2 4,4 2,1 Tabela z danymi Czynnik A – liczba nicieni w 100 ml ziemi Cecha y – masa korzeni selera (gramy z wazonu) 1 0 6,8 8,2 6,9 7,0 2 50 6,4 6,3 6,3 5,6 Czynnik_A 3 100 6,0 6,1 6,2 6,3 4 200 5,8 4,8 6,0 5,4 5 400 5,5 4,9 4,7 5,2 Tabela danych do oblicze, komputerowych Obiekt Czynnik_A y – cecha 1 0 6,8 1 0 8,2 1 0 6,9 1 0 7,0 2 50 6,4 2 50 6,3 2 50 6,3 2 50 5,6 3 100 6,0 3 100 6,1 3 100 6,2 3 100 6,3 4 200 5,8 4 200 4,8 4 200 6,0 4 200 5,4 5 400 5,5 5 400 4,9 5 400 4,7 5 400 5,2 Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 2.1.2. DoBwiadczenie jednoczynnikowe w losowanych blokach Model liniowy: yij = m + g j + ai + eij Plan do:wiadczenia dla 5 odmian cykorii Bloki 1 2 ~~~~ 3 ~~~~ 4 4 1 ~~ 5 ~~ 4 3 2 ~~ 2 ~~ 5 Czynnik_A 1 4 ~~ 1 ~~ 3 2 5 ~~ 3 ~~ 1 5 3 ~~ 4 ~~ 2 Tabela z danymi Odmiany cykorii jako poziomy czynnika A Bloki 1 2 3 4 1 96,2 91,4 97,3 92,3 2 86,1 78,0 89,3 79,6 Czynnik A 3 4 97,3 82,1 99,9 81,0 91,7 84,4 90,3 78,7 5 90,9 86,3 84,0 88,9 Tabela danych do oblicze, komputerowych Bloki Czynnik_A y – cecha 1 1 96,2 1 2 86,1 1 3 97,3 1 4 82,1 1 5 90,9 2 1 91,4 2 2 78,0 2 3 99,9 2 4 81,0 2 5 86,3 3 1 97,3 3 2 89,3 3 3 91,7 3 4 84,4 3 5 84,0 4 1 92,3 4 2 79,6 4 3 90,3 4 4 78,7 4 5 88,9 Z. Lauda ski, D. R. Ma kowski 57 PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 58 2.1.3. Dwuczynnikowe doBwiadczenie w uk:adzie niezaleCnym Model liniowy: yijk = m + rk + ai + b j + abij + eijk Bloki _R 1 2 3 4 (3,1) (2,4) (3,4) (1,5) (2,2) (1,3) (3,2) (1,3) (1,4) (1,4) (2,3) (3,5) (i,j) Kombinacje czynników A&B (3,3) (2,2) (1,5) (3,2) (1,3) (2,1) (1,1) (2,5) (1,2) (1,2) (2,1) (2,3) (2,4) (1,1) (3,3) (1,4) (3,5) (3,1) (2,1) (1,5) (3,4) (1,2) (2,4) (3,5) (1,1) (2,5) (2,2) (1,3) (1,2) (2,1) (3,4) (3,1) (2,2) (3,3) (3,2) (2,4) (1,4) (3,5) (2,3) (3,4) (2,5) (3,2) (2,3) (3,1) (3,3) (2,5) (1,5) (1,1) Wyszczególniamy bloki (tutaj 4), niekoniecznie obok siebie, które nast;pnie dzielimy na poletka w liczbie kombinacji ka7dego z ka7dym (tzw. uk*ad krzy,owy) poziomów (3×5=15) dla rozlosowania kombinacji czynników A i B. yijk — obserwacja cechy z poletka, m — efekt g4ówny do:wiadczenia, rk — efekt k – tego bloku, ai — efekt i – tego poziomu czynnika A, b j — efekt j – tego poziomu czynnika B, abij — efekt wspó4dzia4ania poziomu i – tego z j – tym, eijk — efekt b4;du losowego. 2.1.4. Dwuczynnikowe doBwiadczenie w uk:adzie „split-plot” (2) Model liniowy: yijk = m + rk + ai + eik(1) + b j + abij + eijk Bloki _R 1 2 3 4 Czynnik_A 3 2 1 1 3 2 3 2 1 2 1 3 1 4 4 5 2 3 2 3 4 4 3 5 3 2 1 2 4 4 1 2 1 3 4 3 Czynnik_B 2 3 5 1 1 5 5 4 5 2 1 2 5 1 2 3 3 1 4 5 2 1 2 4 4 5 3 4 5 2 3 1 3 5 5 1 Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 59 Wyszczególniamy bloki (4), które dzielimy na podbloki dla rozlosowania poziomów czynnika A (3), a nast;pnie dzielimy je na poletka (5) dla rozlosowania poziomów czynnika B. yijk – obserwacja cechy z poletka, m – efekt g4ówny do:wiadczenia, rk – efekt k – tego bloku, ai – efekt i – tego poziomu czynnika A, eik(1) – efekt b4;du pierwszego, b j – efekt j – tego poziomu czynnika B, abij – efekt wspó4dzia4ania poziomu i – tego z j – tym, (2) eijk – efekt b4;du drugiego. 2.1.5. Dwuczynnikowe doBwiadczenie w uk:adzie „split-blocks” (3) Model liniowy: yijk = m + rk + ai + eik(1) + b j + e(2) jk + abij + eijk Blok 1 Czynnik A 1 4 3 5 2 Blok 2 Czynnik A 4 1 3 2 5 Blok 3 Czynnik A 5 3 1 4 2 Czynnik B 2 1 1 3 4 3 4 3 2 4 1 2 Czynnik B Czynnik B Ka7dy zdefiniowany blok (tutaj 3) jest dzielony na pasy w kierunku poziomym np. dla rozlosowania obiektów czynnika A (tutaj 5), oraz w kierunku pionowym np. dla rozlosowania poziomów czynnika B (tutaj 4). Na przeci;ciu pasów otrzymujemy poletko dla kombinacji odpowiednich poziomów badanych czynników Ai B j . W literaturze przedmiotu uk4ad ten cz;sto nazywany jest uk*adem pasów prostok1tnych lub uk*adem rozszczepionych bloków. Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 60 2.1.6. Kwadrat aci1ski m m Model liniowy: yij( ) = wi + k j + am + eij( ) wiersz 1 2 3 4 1 1 (a) 2 (b) 4 (d) 3 (c) kolumna 2 3 4 (d) 2 (b) 3 (c) 4 (d) 1 (a) 3 (c) 2 (b) 1 (a) 4 3 (c) 1 (a) 2 (b) 4 (d) Wiersz Kolumna Czynnik_A y – cecha 1 1 a 82 1 2 d 88 1 3 b 138 1 4 c 74 2 1 b 106 2 2 c 118 2 3 d 65 2 4 a 86 3 1 d 74 3 2 a 91 3 3 c 92 3 4 b 107 4 1 c 115 4 2 b 107 4 3 a 86 4 4 d 105 Badana cecha (y) – plon w dkg/poletko (3,6 m2) 4 biotypów 4ubinu. 2.1.7. DoBwiadczenie dwuczynnikowe — wspó:dzia:anie czynników Przyk*ad: Badano plon handlowy w zale7no:ci od pi;ciu preparatów chwastobójczych i dwóch terminów ich stosowania. Tak wi;c mamy: czynnik A — preparaty chwastobójcze o 5 poziomach (obiektach), czyli badano p = 5 ró7nych preparatów; czynnik B — terminy o q = 2 poziomach (obiektach), odpowiednio (1) — po posadzeniu czosnku, (2) — po ukorzenieniu si; ro:lin. Do:wiadczenie przeprowadzono w polu w sze:ciu powtórzeniach (blokach). Wielko:K poletka wynosi4a 7,2 m2. Wyniki do:wiadczenia zestawione s9 w poni7szej tabeli: Czynniki A B 1 1 1 2 2 1 2 2 3 1 3 2 4 1 4 2 5 1 5 2 1 2,67 2,92 2,10 2,75 2,48 3,36 2,45 2,26 2,12 1,37 2 2,86 2,10 2,36 2,25 2,62 2,00 2,47 1,68 1,92 1,90 Powtórzenia — Bloki 3 4 2,34 2,47 2,17 2,08 2,29 2,15 2,01 2,26 2,20 2,28 2,82 2,26 1,34 2,05 3,25 2,77 3,25 2,30 2,83 1,82 5 2,52 1,81 1,68 1,71 1,68 1,93 1,65 1,74 1,77 1,27 6 2,18 1,74 1,63 2,34 1,70 2,54 1,19 2,06 1,40 1,35 Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 61 Jest to do:wiadczenie dwuczynnikowe za4o7one w uk4adzie niezale7nym, tzn. kombinacje poziomów czynników s9 przyporz9dkowywane do poszczególnych poletek (jednostki do:wiadczalne) w bloku równorz;dnie i niezale7nie w ka7dym z bloków, tzn. wtedy m.in. istniej9 techniczne mo7liwo:ci wykonania wszelkich zabiegów niezale7nie na poszczególnych poletkach. Dla przeanalizowania przedstawionych danych do:wiadczalnych zastosowaK metod; analizy wariancji. Model liniowy obserwacji z tego do:wiadczenia jest postaci: yijk = m + rk + ai + b j + abij + eijk . Na podstawie wyników yijk mamy do zweryfikowania trzy hipotezy: H0 A : 5 a2 i =1 i =0, H0B : 2 = 0, H 0 AB : b2 j =1 j 5 2 i =1 j =1 abij2 = 0 . Hipotezy te mówi9 o braku addytywnego dzia4ania i wspó4dzia4ania na wynik do:wiadczenia czynników poddanych badaniu (wszystkie efekty s9 zerami), wobec hipotez alternatywnych H1 A ; H1B ; H1 AB — nie wszystkie efekty s1 równe zeru. Analiza wariancji dród4o zmienno:ci Bloki Preparaty Terminy Wspó4dzia4anie B49d Ca4kowita Stopnie swobody 5 4 1 4 45 59 Suma eredni kwadrat kwadratów 4,43697 0,887394 1,29132 0,322831 0,0260417 0,0260417 1,77522 0,443804 7,16315 0,159181 14,6927 × Test F 5,57 2,03 0,16 2,79 × × P_value 0,0004 0,1065 0,6878 0,0375 × × Z powy7szej tabeli wynika, 7e istotny wp4yw na ko,cowe wyniki eksperymentalne ma tylko wspó4dzia4anie — wspólne oddzia4ywanie badanych czynników ( = 0,05 > 0,0375 ), natomiast ich samodzielnego oddzia4ywania nie stwierdzamy (dla preparatów mamy relacj;: = 0,05 < 0,1065 , podobnie dla terminów: = 0,05 < 0, 6878 ). Istotno:K dla bloków potwierdza nam, 7e w4a:ciwym wyborem by4 uk4ad losowanych bloków. Mo7emy tutaj zaniechaK szczegó4owego analizowania :rednich dla poszczególnych poziomów badanych czynników, a zaj9K si; tylko :rednimi interakcji czynników. Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 62 Interpretacji wspó7dzia7ania (interakcji) Porównania rednich (B) Terminy 1 2 erednie 1 2,507 2,137 2,322 2 2,035 2,220 2,128 (A) Preparaty 3 2,160 2,485 2,323 4 1,858 2,293 2,076 erednie 5 2,127 1,760 1,943 2,137 2,179 2,158 NIRT (0,05)(Terminy) = 0,2075 (liczba terminów q = 2 ); NIRT (0,05)(Preparaty) = 0,4628 (liczba preparatów p = 5 ); NIRT (0,05)(Terminy/Preparaty) = NIRT (0,05)(T) × p = 0,464; NIRT (0,05)(Preparaty/Terminy) = NIRT (0,05)(P) × q = 0,655. WprowadSmy poj;cie precyzji do:wiadczenia, której ocena jest równa se y naszego do:wiadczenia mamy: 1 100% . Dla se 0,159181 100% = 100% 18,5% , y 2,15817 co oznacza niew4a:ciw9 precyzj; (>15%). Prawdopodobnie niezbyt starannie do:wiadczenie zosta4o wykonane. Mo7na oczywi:cie graficznie inaczej przedstawiK nasze :rednie interakcji. Na poni7szym rysunku bardziej widoczna jest ró7na reakcja :rednich plonów na zmiany poziomów badanych czynników. Widoczna jest podobna reakcja preparatów nr 1 i 5, oba powoduj9 gorsze plony przy stosowaniu w drugim terminie. Natomiast pozosta4e preparaty dzia4aj9 inaczej. Stosowanie ich w drugim terminie powoduje zwy7k; plonów wzgl;dem pierwszego terminu, chocia7 ka7dy z preparatów w ró7nym stopniu. Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 63 Przyk*ad analizy innego do:wiadczenia dwuczynnikowego Dane pochodz9 z do:wiadczenia z kukurydz9, w którym jednym czynnikiem by4y odmiany (8 odmian), drugim za: sposób ich traktowania, tzn. wyst;powa4a ochrona fungicydami przed Kabatiell1 — zgorzel podstawy 4odygi oraz brak tej ochrony — czyli naturalna infekcja. dr. zmienno:ci Bloki Odmiany (A) Traktowanie (B) Wspó4. A*B B49d St. sw. 2 7 1 7 30 Sum. kwd. 40,786 3121,358 1522,127 933,022 1040,461 er. kwd. 20,393 445,908 1522,127 133,289 34,682 Femp P-stwo 0,588 12,857 43,888 3,843 <0,000005 <0,000005 0,00426 2.1.8. Uk:ady bloków niekompletnych zrównowaConych W do:wiadczeniach przeprowadzanych w uk4adzie losowanych bloków z ró7nych przyczyn mo7e wynikaK brak kompletu obiektów w bloku. Braki te mog9 byK niezamierzone przez eksperymentatora, ale tak7e i celowo przez niego planowane. Planowanie do:wiadcze, w uk4adzie losowanych bloków niekompletnych wynika z potrzeby przebadania wi;kszej liczby obiektów, a zastosowanie uk4adu losowanych bloków kompletnych jest z ró7nych wzgl;dów niewskazane lub niemo7liwe do wykonania. Czym charakteryzuje si; taki uk4ad zrównowa7ony o niekompletnych blokach? Otó7, je7eli ka7dy blok zawiera t; sam9 liczb; badanych obiektów i s9 one ustawione w ten sposób, 7e ka7da para obiektów wyst;puje razem w jednakowej liczbie bloków, to uk4ad taki nazywamy zrównowa,onym. Wychodz9c z powy7szej charakterystyki i oznaczaj9c przez p — ogóln9 liczb; obiektów, q — liczb; bloków, k — liczb; obiektów w bloku (k < p), r — liczb; powtórze, (replikacji) ka7dego obiektu, a przez - — liczb; bloków w których wyst;puje jednocze:nie ka7da para obiektów, to mamy dwie równo:ci: p r = q k = n, - (p 1) = r ( k 1) , przy czym pierwsza okre:la ogóln9 liczb; obserwacji, druga — ogóln9 liczb; spotka, ka7dego obiektu z pozosta4ymi obiektami. Liczby — ( p, q, r , k , - ) oraz przedstawione powy7ej relacje mi;dzy nimi, charakteryzuj9 uk*ad zrównowa,ony o blokach niekompletnych. Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 64 Jednym ze sposobów takiego grupowania jest 7mudne, bezpo:rednie przyporz9dkowanie obiektów do poszczególnych bloków. S9 oczywi:cie 4atwiejsze sposoby, np. taki uk4ad mo7na otrzymaK przez wybór okre:lonej liczby wierszy lub kolumn kwadratu *aci skiego (tzw. uk*ad Youdena). Uk*ad Youdena: p = q = 7, r = k = 4, - = 2 bl. 1 bl. 2 bl. 3 bl. 4 bl. 5 bl. 6 bl. 7 1 2 3 1 2 1 1 2 3 4 4 5 3 2 3 4 5 5 6 6 4 5 6 7 6 7 7 7 Jeszcze innym sposobem zapewnienia zrównowa7enia uk4adu bloków niekompletnych dla testowania p = k 2 obiektów mo7e byK uk4ad powsta4y z k + 1 krat kwadratowych. Na przyk4ad dla liczby obiektów p = k 2 = 32 = 9 przyk4adowe ich rozmieszczenie przy zastosowaniu uk4adu kratowego typu k 2 jest postaci: bl.1 1 2 3 I krata bl.2 4 5 6 bl.3 7 8 9 bl.4 1 4 7 II krata bl.5 2 5 8 bl.6 3 6 9 bl.7 1 5 9 III krata bl.8 bl.9 2 3 6 4 7 8 bl.10 1 6 8 IV krata bl.11 bl.12 2 3 4 5 9 7 W ten sposób otrzymali:my uk4ad q = k ( k + 1) bloków o k — obiektach w ka7dym z bloków. Liczba powtórze, ka7dego obiektu wynosi r = k + 1 i jest równa liczbie krat, a liczba spotka, pary obiektów jest równa jedno:ci ( p = 9, q = 12, r = 4, k = 3, - = 1, n = 36 ) . Zauwa7my, 7e je7eli potraktujemy kraty jako bloki, wtedy mamy uk4ad czterech bloków kompletnych. Przyk*ad: Badano wp4yw 9 kombinacji nawo7enia mineralnego na wielko:K plonu bulw pewnej odmiany ziemniaka. Wyniki z do:wiadczenia, jak w poni7szej tabeli: ob.1 ob.2 ob.3 ob.4 ob.5 ob.6 ob.7 ob.8 ob.9 bl.1 269 278 320 — — — — — — bl.2 — — — 248 332 353 — — — bl.3 — — — — — — 367 379 352 bl.4 249 — — 256 — — 311 — — bl.5 — 244 — — 359 — — 342 — bl.6 — — 339 — — 330 — — 342 bl.7 281 — — — 316 — — — 372 bl.8 — 290 — — — 332 353 — — bl.9 bl.10 bl.11 bl.12 — 251 — — — — 267 — 329 — — 304 272 — 276 — — — — 350 — 301 — — — — — 339 362 351 — — — — 360 — Powy7sze dane mo7na analizowaK jako dane w uk4adzie kompletnym (bloki = kraty) lub w uk4adzie 12-stu bloków niekompletnych. Jak lepiej dla konkretnego przypadku? Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 65 Efektywno:K w ocenie ró7nic mi;dzy :rednimi obiektowymi uk4adu niekompletnego wzgl;dem kompletnego wynosi: p se2( kompl ) k ( k + 1) se2( niekompl ) 100% . Dla naszego przyk4adu mamy odpowiadaj9c9 warto:K: 9 287,313 100% = 70% , 12 307,833 która wskazuje na ma49 skuteczno:K zastosowania uk4adu bloków niekompletnych. Wynika to zapewne z faktu ma4ej zmienno:ci glebowej (dla: krat P value = 0,171 , bloków P value = 0, 456 ), natomiast stracili:my do:K du7o stopni swobody dla b4;du (24 do 16). Nale7y s9dziK, 7e przy wi;kszej zmienno:ci glebowej uk4ad bloków niekompletnych by4by skuteczniejszy w zastosowaniach. WeSmy przyk*adowe wyniki innego do:wiadczenia polowego z ziemniakiem, zrealizowanego w identycznym uk4adzie kratowym bloków niekompletnych o analizowanej cesze reprezentowanej tak7e przez plon bulw: ob.1 ob.2 ob.3 ob.4 ob.5 ob.6 ob.7 ob.8 ob.9 bl.1 bl.2 bl.3 bl.4 bl.5 bl.6 bl.7 bl.8 bl.9 bl.10 bl.11 bl.12 43 — — 48 — — 50 — — 45 — — 44 — — — 52 — — 46 — — 50 — 42 — — — — 49 — — 46 — — 48 — 46 — 40 — — — — 44 — 46 — — 45 — — 49 — 41 — — — — 47 — 52 — — — 53 — 42 — 42 — — — — 57 55 — — — 50 — — — 61 — — 56 — 57 — — — 55 47 — — — — 56 — — 63 56 — — — 59 — WskaSnik efektywno:ci bloków niekompletnych wzgl;dem kompletnych wynosi tutaj: 9 14,5972 100% = 824,3% . 12 2,36111 Zró7nicowanie bloków okaza4o si; tutaj wysoce istotne — dla krat Pvalue = 0,188 , natomiast dla bloków Pvalue < 0,00005 . Wybór uk4adu niekompletnego tutaj okaza4 si; w4a:ciwy. Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 66 2.1.9. Uk:ady bloków niekompletnych czABciowo zrównowaConych Uk4ad kratowy zrównowa7ony, realizowany tylko w pewnym fragmencie staje si; uk4adem cz;:ciowo zrównowa7onym. To znaczy takim uk4adem, w którym cz;:K obiektów badanych spotyka si; jednocze:nie w tym samym bloku niekompletnym, ale b;d9 takie, które nie spotykaj9 si; ani razu w którymkolwiek bloku. Na przyk4ad uk4ad opisany schematem: bl.1 1 2 3 4 I krata bl.2 bl.3 5 9 6 10 7 11 8 12 bl.4 13 14 15 16 II krata bl.6 bl.7 2 3 6 7 10 11 14 15 bl.5 1 5 9 13 bl.8 4 8 12 16 III krata bl.10 bl.11 2 3 5 8 12 9 15 14 bl.9 1 6 11 16 bl.12 4 7 10 13 Uk4ad ten stanowi9 trzy wybrane kraty z 5 krat uk4adu zrównowa7onego, przy pomocy którego mo7na przeprowadziK eksperyment porównawczy z 16 obiektami. Efektywno:K tego uk4adu niekompletnego w ocenie ró7nic mi;dzy :rednimi obiektowymi wzgl;dem uk4adu kompletnego dla obiektów spotykaj1cych si; ze sob9 (ten wi;kszy, lepszy) wyra7a si; wzorem: p ( k 1) se2( kompl ) k (p 1) se2( niekompl ) 100% . Kolejnym przyk4adem uk4adów niekompletnych cz;:ciowo zrównowa7onych s9 tzw. kraty prostok1tne. Liczba porównywanych obiektów jest iloczynem dwóch kolejnych liczb ca4kowitych, tzn. jest okre:lona wzorem: p = k ( k + 1) , gdzie pierwszy czynnik ( k ) okre:la liczb; obiektów w bloku, drugi za: ( k + 1 ) — liczb; bloków w powtórzeniu. W kratach prostok9tnych nie mo7na uzyskaK pe4nego zbalansowania (zrównowa7enia) obiektów. Mo7liwe s9 tylko cz;:ciowo zrównowa7one, pojedyncze lub wielokrotne kraty prostok9tne. Przyk*ad kraty prostok9tnej czterokrotnie powtórzonej z 12 obiektami: Krata 1 2 3 4 Blok 1 2 5 6 9 10 13 14 1 2 1 2 1 2 1 2 Obiekty 5 6 6 5 7 8 8 7 9 10 11 12 12 11 10 9 Blok 3 4 7 8 11 12 15 16 3 4 3 4 3 4 3 4 Obiekty 7 8 8 7 5 6 6 5 11 12 9 10 10 9 12 11 Nietrudno zauwa7yK, 7e w ka7dym bloku niekompletnym mamy po trzy obiekty a ka7da krata (powtórzenie) zawiera cztery bloki. m9cznie wi;c mamy tutaj 16 bloków, a ka7dy obiekt jest powtórzony 4 razy. Przyk*ad analizy do:wiadczenia z zastosowaniem kraty prostok9tnej. W do:wiadczeniu z 7ytem badano 17 rodów na tle 3 odmian. Do:wiadczenie wykonano w uk4adzie 20 bloków niekompletnych (krata prostok1tna czterokrotnie powtórzona, tzn. cztery Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 67 obiekty w bloku, pi+- bloków w kracie — 49cznie p = k ( k + 1) = 4 5 = 20 obiektów w czterech powtórzeniach, 80 wyników obserwacji). Badan9 cech9 jest plon z poletka (10m2). dród4o zmienno:ci Bloki Obiekty Reszta St. sw. 19 19 41 Suma kwd. 11,6468 17,5452 28,4613 er. kwd. 0,6130 0,9234 0,6942 Femp P-stwo 0,8830 1,3303 0,2175 Analiza wariancji nie wykazuje ró7nic mi;dzy warto:ciami :rednich plonów z poletka badanych obiektów ( = 0, 2175 ). Precyzja (b49d) do:wiadczenia w ocenie ró7niK mi;dzy warto:ciami :rednimi analizowanych obiektów zawiera4a si; w przedziale <8,26% – 9,48%>, tzn. :rednia precyzja wynosi4a 8,92%. Warto:ci te wskazuj9, 7e do:wiadczenie by4o przeprowadzone prawid4owo. Najprawdopodobniej te obiekty ze wzgl;du na warto:ci :rednie jednak nie by4y zró7nicowane. 2.1.10. DoBwiadczenia wielokrotne Terminem do%wiadczenia wielokrotne okre:lamy do:wiadczenia powtarzane w pe4nym uk4adzie w ró7nych warunkach przyrodniczych. W przypadku do:wiadcze, rolniczych s9 to przewa7nie do:wiadczenia z ró7nymi odmianami ro:lin uprawnych, tzw. odmianowe, powtarzane w miejscowo:ciach i latach. Zmienne warunki przyrodnicze, reprezentowane przez miejscowo:ci czy laboratoria, czy te7 zespól warunków klimatycznych, okre:lanych umownie lata, stanowi9 kierunki klasyfikacji o charakterze losowym danych empirycznych uzyskiwanych z do:wiadcze, wielokrotnych. Dlatego modele matematyczne stosowane w ich opracowaniach b;d9 z regu4y modelami mieszanymi. Nie mniej jednak cz;sto czynnik lat lub miejscowo%ci przyjmuje si; jako maj9ce charakter sta4y (ustalone lata, ustalone miejscowo:ci). Obliczenia prowadz9ce do analizy wariancji wyników do:wiadczenia wielokrotnego poka7emy na przyk4adzie eksperymentu w losowanych blokach z pi;cioma odmianami truskawek, przeprowadzonego w dwóch kolejnych latach i potraktowanego jako uk4ad split-plot. dród4o zmienno:ci Bloki Lata (A) B49d I Odmiany(B) Interakcja: A×B B49d II St. sw. 3 1 3 4 4 24 Suma kwd. 27747,6 6029,48 1855,84 1196,36 1683,75 3355,59 er. kwd. 9249,21 6029,48 618,615 299,089 420,938 139,816 Femp 14,95 9,75 P-stwo 0,0261 0,0524 2,14 3,01 0,1070 0,0381 Na podstawie powy7szej analizy stwierdzamy istotnie ró7n9 reakcj; odmian truskawki na warunki klimatyczne uwzgl;dnionych lat. Dobrze jest tutaj zauwa7yK, 7e wzi;ta tutaj do analiza liczba lat jest stanowczo za ma4a. Na ogó4 minimalna liczba analizowanych lat powinna wynosiK trzy. Oczywi:cie, analiza jednorocznego czy dwuletniego do:wiadczenia mo7e byK zawsze traktowana jako analiza do:wiadczenia pilota7owego. Tak traktuj9c nasz9 analiz; mo7emy zauwa7yK, 7e zachodz9 du7e szanse na to, by badane odmiany podejrzewaK o wzajemne zró7nicowanie w :rednich plonach. Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 68 3. POJLCIE KONTRASTU W analizie wariancji danych podlegaj9cych klasyfikacji weryfikuje si; tzw. globalne hipotezy zerowe o braku wp4ywu danego kryterium klasyfikacji na analizowan9 cech;. Odrzucenie takiej hipotezy globalnej nie oznacza wyst;powania ró7nic mi;dzy wszystkimi :rednimi podklas wynikaj9cych z przyj;tej klasyfikacji. Przeciwnie, cz;sto pewne podgrupy :rednich (czy efektów) nie s9 istotnie zró7nicowane, zw4aszcza gdy liczba podklas jest liczna. Badacza za: cz;sto interesuj9 konkretne szczegó*owe porównania par :rednich lub wybranych podgrup. Temu celowi s4u79 testy porówna, wielokrotnych oparte na najmniejszych istotnych ró,nicach (NIR) mi;dzy :rednimi lub testy istotno:ci tzw. kontrastów. Testy te znajduj9 zastosowanie zarówno w klasyfikacji pojedynczej jak i wielokrotnej. Poj;cie kontrastu zdefiniujemy na przyk4adzie klasyfikacji pojedynczej. Niech yi = y + aˆi ( i = 1,2,… , p ) b;dzie zbiorem porównywanych :rednich. Kontrastem nazywamy liniowa funkcj; tych :rednich: L= p i =1 tak9, 7e p c i =1 i ci yi = p ci i =1 ( y + aˆi ) = p i =1 ci aˆi , = 0 . Jest to porównanie cz;:ci :rednich opatrzonych wspó4czynnikami dodatnimi z inn9 cz;:ci9 ze wspó4czynnikami ujemnymi. Widzimy te7, 7e kontrast mi;dzy :rednimi jest równowa7ny kontrastowi mi;dzy ocenami efektów klasyfikacji. Szczegó4owym przypadkiem kontrastu jest porównanie wybranej pary :rednich. Wtedy jeden ze wspó4czynników ci jest (przy jednej :redniej) jest równy 1, a inny (przy drugiej :redniej) jest równy –1, pozosta4e s9 zerami. Ocena b4;du dla takiego kontrastu jest równa: sL = gdzie p c2 i =1 i se2 r , jest liczb9 sk4adników z których oblicza si; :redni9 yi . St9d funkcj9 testow9 dla hipotezy, 7e ustalony kontrast L ma warto:K oczekiwan9 równ9 zero, tzn. hipotezy H 0 : E ( L ) = 0 , jest statystyka p temp L = = sL i =1 p ci yi sL = i =1 ci aˆi , sL o rozk4adzie t Studenta. Porównuj9c jej warto:K z warto:ci9 krytyczn9 t ;v , weryfikujemy nasz9 hipotez; zerow9 H 0 : E ( L ) = 0 . Test t Studenta mo7e tu byK zast9piony testem F, bo statystyka 2 temp = Femp = r L2 se2 p c2 i =1 i , ma rozk4ad F z 1 i v stopniami swobody. Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 69 Test ten mo7emy stosowaK do sprawdzenia serii niezale7nych kontrastów. Taki uk4ad niezale7nych kontrastów stanowi9 kontrasty wzajemnie ortogonalne, tzn. L1 i L2 s9 ortogonalne, gdy p c i =1 1i c2i = 0 . Je:li porównujemy p :rednich, to istnieje p 1 kontrastów ortogonalnych, przy czym p 1 r L2j j =1 p c2 i =1 ji =r p i =1 ( yi y ) = var A . 2 WróKmy do wyników do:wiadczenia z liczb9 nicieni. erednie yi dla poszczególnych poziomów przedstawia poni7sza tabela: L_nicieni 0 50 100 200 400 800 1600 yi 7,225 6,150 6,150 5,500 5,075 5,075 4,400 Jeste:my zainteresowani kontrastem przypadków o liczbie nicieni do 100 oraz powy7ej tej liczby. Wektor naszych wspó4czynników ci spe4niaj9cy warunek p c i =1 i = 0 mo7e byK postaci 4 4 4 , , , 1, 1, 1, 1 . 3 3 3 St9d wyliczona warto:K L = 17,95 wynika z poni7szych oblicze,: 3 4 ( 7, 225 + 6,15 + 6,15) 1 ( 5,5 + 5,075 + 5,075 + 4, 4 ) 3 natomiast b49d kontrastu: sL = p c2 i =1 i se2 r = 0,2325 28 = 0,5458 = 0,73655 , 4 3 wobec tego odpowiednia statystyka jest równa: temp = 17,95 = 8,124 , 3 0,73655 która to wielko:K porównujemy ze statystyk9 t ;v = 21 , a to oznacza wysoce ( Pvalue < 0,00005 ) istotne zró7nicowanie :redniej trzech pierwszych poziomów wzgl;dem :redniej pozosta4ych czterech poziomów badanego czynnika. Istnieje wiele ró7nych testów dla porówna, wielokrotnych opartych o najmniejsz9 istotn9 ró7nic; mi;dzy :rednimi (NIR). We wszystkich przypadkach warto:K NIR obliczana jest wed4ug tej samej zasady: jest ona iloczynem oceny b*+du ró,nicy %rednich sr przez wspó*czynnik T ; p;v zapewniaj9cy okre:lony poziom istotno:ci w porównaniach — prawdopodobie,stwo udowodnienia we wszystkich porównaniach wielokrotnych ( chocia7 raz ró7nicy, której nie ma). Wspó4czynnik ten zale7y nie tylko od , v — stopni swobody dla b4;du, ale i od liczby p porównywanych :rednich. Jest zatem: NIR = T ; p ;v sr . W zale7no:ci od sposobu dokonywanych porówna, wybieramy T ; p ;v wersje NIR. Gdy p = 2 , test NIR pokrywa si; ze zwyk4ym testem t Studenta. Z. Lauda ski, D. R. Ma kowski otrzymuj9c ró7ne 70 PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH Wyró7niamy m.in. NIR wed4ug Tukey’a, Newmana-Keulsa — oparte na stosowaniu studentyzowanego rozst+pu, Duncana — oparte na stosowaniu rozk4adu zaproponowanego przez autora, Dunnetta — do porówna, :rednich z których jedna jest traktowana jako kontrola, itd. Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 71 4. TRANSFORMACJE DANYCH EMPIRYCZNYCH Test F stosowany w analizie wariancji do sprawdzania hipotez zerowych wymaga za4o7e, o sk4adnikach losowych modelu liniowego, które formu4ujemy jako: — normalno:K rozk4adu sk4adników losowych, — niezale7no:K b4;dów losowych od efektów klasyfikacji — stabilno:K b4;dów. Poza tym w modelach z jedn9 obserwacj9 w podklasach, gdy interakcja najwy7szego rz;du jest uwik4ana (nierozdzielna) ze sk4adnikiem losowym, zak4ada si; brak tej interakcji, czyli addytywno:K pozosta4ych efektów (np. model do:wiadczenia jednoczynnikowego w uk4adzie losowanych bloków). Ocenami tych sk4adników losowych s9 ró7nice mi;dzy danymi empirycznymi a ocenami parametrów wyliczanych z tych danych. Na przyk4ad dla klasyfikacji pojedynczej s9 one równe: eˆij = yij mˆ aˆi = yij yi . Modele liniowe (np. dla klasyfikacji pojedynczej: yij = m + ai + eij ) s9 wygodnym narz;dziem modelowania matematycznego prowadz9cego do analizy statystycznej danych empirycznych. Jednak7e w wypadkach wielu cech analiza wariancji wed4ug modelu wynikaj9cego z uk4adu do:wiadczalnego nie mo7e byK stosowana ze wzgl;du na niespe4nienie za4o7e,. Trudno:K t; mo7na rozwi9zaK stosuj9c odpowiednio dobrane transformacje danych, przybli7aj9ce rozk4ad zmiennych transformowanych do normalnego, a przynajmniej stabilizuj9ce ich wariancj;. Nale7y pami;taK, 7e je7eli stosujemy transformacj; danych, wtedy wszelkie wnioskowanie ogólne i szczegó4owe dotyczy danych transformowanych. Wszelkie oceny :rednich wed4ug danych pocz9tkowych (przed transformacj9) mo7e mieK tylko sens opisowy dla analizowanego zjawiska. Zamiana procentów na stopnie k1towe (transformacja Blissa) jest wykonywania zgodnie ze wzorem: z = arcsin y , gdzie y procent osobników maj9cych (lub nie) badan9 cech;. Je7eli dane empiryczne dotycz9 takich procentów jak np. wilgotno:K gleby, procent cukru czy bia4ka, wtedy transformacja jest zb;dna. Natomiast je7eli w procentach wyrazimy nie pewn9 cech; ilo:ciowa, lecz liczb; osobników, które maj9 dan9 cech; (lub nie), np. owoc jest zdrowy lub pora7ony, nasiona uszkodzone lub nieuszkodzone, to mamy do czynienia z rozk4adem dwumianowym, a zatem nale7y zastosowaK to przekszta4cenie przed wykonaniem analizy wariancji. Je7eli liczb; osobników maj9cych (lub nie) badan9 cech; obliczono na podstawie du7ej liczby przypadków (powy7ej 100) a warto:ci empiryczne mieszcz9 si; mi;dzy 20 a 80%, to mo7na stosowaK analiz; wariancji bez transformacji danych. Dla warto:ci procentowych mniejszych ni7 20 oraz wi;kszych ni7 80 nale7y zawsze stosowaK transformacj; Blissa. Przekszta*cenia pierwiastkowe Je7eli dane empiryczne chcemy opracowaK metod9 analizy wariancji, maj9 rozk4ad Poissona, to przekszta4camy je wed4ug wzoru: z= y lub z = y + 0,5 . Zmienne y oznaczaK mo7e np. liczb; bakterii w polu widzenia, liczb; rozga4;zie, na krzewie ró7y, itp. Przekszta4canie danych wed4ug wzoru z = y + 0,5 stosujemy dla ma4ych warto:ci y < 10 , natomiast z = y dla warto:ci 10 y 50 . Dla przeprowadzaK obliczenia analizy wariancji bez przekszta4ce,. Z. Lauda ski, D. R. Ma kowski y > 50 mo7na 72 PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH Przekszta*cenia logarytmiczne Zamian; danych empirycznych przeprowadzamy wed4ug wzoru: z = log y lub z = log ( y + 1) – gdy wyst;puj9 warto:ci zerowe. Stosujemy to przekszta4cenie najcz;:ciej w do:wiadczeniach z ochrony ro:lin, np. gdy liczba szkodników wykazuje znaczne wahania mi;dzy poletkami, lub gdy wyst;puj9 dane o szerokim rozrzucie, tzn. jedno-, dwu- lub trzycyfrowe. Nie jest zatem spe4nione za4o7enie o jednakowych wariancjach porównywanych obiektów. Ponadto, je7eli stosunek odchylenia standardowego do :redniej (czyli wspó4czynnik zmienno:ci) jest sta4y u porównywanych obiektów, to równie7 nale7y stosowaK przekszta4cenia logarytmiczne. Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 5. ANALIZA WSPÓ 73 ZALENNO CI Dotychczas rozpatrywane by4y zbiorowo%ci statystyczne (populacje) ze wzgl;du na jedn1 cech+. W rzeczywisto:ci zjawiska nie s9 izolowane wzajemnie, lecz zachodz9 mi;dzy nimi mniej lub bardziej :cis4e zale7no:ci. Celem *1cznego badania zjawisk jest, czy mi+dzy nimi zachodz1 jakie% zale,no%ci, jaka jest ich si*a, kszta*t i kierunek. Zjawiska opisywane s9 w praktyce przez warto:ci pewnych zmiennych. Wspó4zale7no:K mi;dzy tymi zmiennymi mo7e byK dwojakiego rodzaju: funkcyjna i stochastyczna (probabilistyczna). Zale7no:ci funkcyjna: y = f ( x ) , np. warto:K utargu u = z p , gdzie z — liczba sprzedanych wyrobów po cenie p; pole kwadratu S = a 2 , gdzie mamy bezpo:redni9 zale7no:K pola od wielko:ci boku kwadratu. Zajmiemy si; szczególnym przypadkiem zale7no:ci stochastycznej, mianowicie zale,no%ci1 korelacyjn1. W najprostszym przypadku — populacji dwucechowej ( x, y ) mamy, 7e konkretnej warto:ci jednej zmiennej odpowiada pewna przeci+tna (:rednia) warto:K drugiej zmiennej. Wykrycie zwi1zku korelacyjnego i okre:lenie si4y tego zwi9zku przy pomocy wspó*czynnika korelacji — rxy , pozwala na g4;bsz9 analiz; przyczynow1-skutkow1 procesów gospodarczych czy zjawisk biologicznych. Tylko takie zjawiska mi;dzy którymi istnieje wi;S przyczynowoskutkowa jest sens rozpatrywaK. Zwi9zki takie mog9 byK jednostronne (np. nawo7enie a plon, czyli jednostronne oddzia4ywanie przyczyny na skutek) lub dwustronne — przyczyna i skutek mog9 zamieniaK si; miejscami, np. produkcja w sztukach (x) a cena jednostki (y) — poni7sza tabela, ale tak7e zwi9zki o korelacji pozornej, np. liczba zarejestrowanych odbiorników telewizyjnych — a liczba chorych umys4owo, liczba gniazd bocianich – a liczba urodzin. i x y Bxx Byy Bxy 1 800 18,2 640000 331,24 1450 2 950 16,8 902500 282,24 15960 3 4 5 6 7 8 1110 1200 1285 1525 1600 1850 16,5 15,5 13,8 12,7 12,0 10,8 1232100 1440000 1651225 2325625 2560000 3422500 272,25 240,25 190,44 161,29 144,00 116,64 18315 18600 17733 19367,5 19200 19980 Suma 10320 116,3 14173950 1738,35 143715,5 Zale,no%- korelacyjna polega na tym, 7e okre:lonym warto:ciom jednej zmiennej odpowiadaj9 :ci:le okre:lone %rednie warto%ci drugiej zmiennej. Mo7emy zatem ustaliK, jak zmieni si; warto%- %redniej zmiennej Y w zale7no:ci od zmiany warto:ci zmiennej niezale7nej X. W praktyce — np. sformu4owanie: zwi+kszone nawo,enie powoduje wy,sze plony — oznacza to, 7e zwi;kszaj9c nawo7enie w uprawie pewnej ro:liny nie zawsze uzyskamy zwi;kszone plony. B;d9 przypadki zwi;kszonego, takiego samego i ni7szego plonu, ale uzyskiwane %rednie plony przy wy,szym nawo,eniu b+d1 wy,sze od %rednich plonów uzyskiwanych przy ni,szym nawo,eniu. Nale7y stwierdziK, ,e je%li mi+dzy badanymi zmiennymi nie ma zwi1zku stochastycznego, to nie ma równie, mi+dzy nimi zwi1zku korelacyjnego. Natomiast stwierdzenie odwrotne nie jest prawdziwe. Wynika to z faktu, 7e okre:lonej liczbie identycznych wariantów zmiennej odpowiada zawsze ta sama %rednia, ale dan9 %redni1 mo7na uzyskaK z ró7nej kombinacji wariantów zmiennej. Np. wariantom (warto:ciom) cechy „plon” 62 i 68 odpowiada %rednia 65, ale %redni1 65 mo7na uzyskaK tak7e z wariantów, jak 60 i 70, 10 i 120, itd. W praktyce wi;c, badanie zwi9zków korelacyjnych ma sens jedynie wtedy, gdy mi;dzy zmiennymi istnieje wi+V przyczynowo-skutkowa, daj9ca si; logicznie wyt4umaczyK. Badania zale7no:ci typu korelacji pozornej (nawet istotnej statystycznie), raczej s9 pozbawione sensu. Analiza zwi9zków mi;dzy zjawiskami powinna wi;c byK jako%ciowa i ilo%ciowa. Najpierw na podstawie analizy merytorycznej nale7y uzasadniK logiczne wyst;powanie zwi9zku, a dopiero potem mo7na przyst9piK do okre:lania stopnia (si4y) kierunku zale7no:ci. Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 74 W zwi9zkach przyczynowo-skutkowych mo7na wyró7niK zwi9zki dwustronne (wzajemne oddzia4ywanie — przyczyny i skutki mo7na zamieniaK miejscami) i jednostronne (proste) — w których mamy wyraSnie okre:lon9 przyczyn+ oraz skutek, a badanie zwi1zku korelacyjnego jest mo7liwe tylko wtedy, gdy przynajmniej jedna cecha jest mierzalna. W celu okre:lenia stopnia zale7no:ci mi;dzy zmiennymi mo7na pos4u7yK si; wspó*czynnikiem korelacji Wspó*czynnik korelacji liniowej (Pearsona) mi;dzy cechami mierzalnymi – jednostkowym przyrostom jednej zmiennej (przyczyny) towarzyszy, :rednio bior9c, sta4y przyrost wielko:ci drugiej zmiennej (skutku). Wspó4czynnik korelacji: cov ( x, y ) rxy = var x var y , gdzie: n cov xy = i =1 ( xi n xy i =1 i i = var x = cov xx = n i =1 ( xi x )( yi y) = 1 n n x i =1 i x) = n y, i =1 i n x2 i =1 i 2 n x i =1 i x , var y = cov yy i mamy, 7e 1 rxy +1 . Dla warto:ci powtarzaj9cych si; mamy: cov xy = = gdzie: N = k n i =1 i k n i =1 i ( xi k nxy i =1 i i i x )( yi 1 N y) = k nx i =1 i i n ny i =1 i i , , za: var x = cov xx , var y = cov yy . W powy7szym przyk4adzie, mamy: cov xy = 143715,5 (10320 116,3) / 8 = = 143715,5 150027 = 6311,5 var x = 14173950 (10320 10320 ) / 8 = 861150 , var y = 1738,35 rxy = = (116,3 116,3) / 8 = 47,63875 6311,5 6311,5 = = 861150 47,63875 41024109,56 6311,5 = 0,9854; 6405,0066 D = 97,1% Mo7emy mówiK o korelacji liniowej ujemnej mi;dzy cechami — jedna cecha (zmienna) o warto:ciach rosn9cych (np. produkcja), druga natomiast o warto:ciach malej9cych (np. ceny). Wyrazem ujemnej zale,no%ci jest ujemna warto%- wspó*czynnika korelacji. Z korelacj9 liniow9 dodatni1 mamy do czynienia gdy zmianom rosn9cym jednej zmiennej towarzysz9 rosn9ce zmiany drugiej (jak w poni7szym przyk4adzie — dane z urz;du stanu cywilnego). Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH i y – Ona x – On Bxx Byy Bxy 1 18 19 324 361 342 2 19 21 361 441 399 var y = 5665 3 20 23 400 529 460 ( 235 4 21 21 441 441 441 5 23 20 529 400 460 7 26 26 676 676 676 235 ) / 10 = 142,5 ; var x = 5834 ( 235 cov xy = 5727 rxy = 6 24 23 576 529 552 8 27 25 729 625 675 ( 238 75 9 27 26 729 676 702 10 30 34 900 1156 1020 Suma 235 238 5665 5834 5727 238 ) / 10 = 169,6 ; 238 ) / 10 = 134,0 ; 134,0 134 134 = = = 0,862 . 142,5 169,6 24168 155, 4606 Mamy tutaj wysoki wspó4czynnik korelacji liniowej. Stopnie zale,no%ci korelacyjnej: — rxy = 0,0 — brak (nie wyst;puje), — 0,0 < rxy < 0,3 — s4aby stopie,, — 0,3 rxy < 0,5 — :redni stopie,, — 0,5 rxy < 0,7 — znaczny stopie,, — 0,7 rxy < 0,9 — wysoki stopie,, — 0,9 rxy < 1,0 — bardzo wysoki stopie,, — rxy = 1,0 — zale7no:K funkcyjna. Wspó4czynnik korelacji z próby w przypadku hipotezy o braku korelacji mi;dzy cechami (tzn. wspó4czynnik korelacji w populacji jest równy zero — H 0 : C = 0 ) mo7e byK wykorzystany do konstrukcji testu istotno:ci, tzn. dla H 0 : C = 0 , gdy7 zmienna postaci temp = remp 2 1 remp n 2, ma rozk4ad t Studenta o liczbie stopni swobody n 2 . Je7eli temp t ;n 2 , gdzie t ;n 2 jest warto:ci9 krytyczn9 testu t, to H 0 odrzucamy. Z postaci zmiennej temp mo7na okre:liK warto:K krytyczn9 wspó4czynnika korelacji, której przekroczenie przez warto:K remp :wiadczy o istotno:ci korelacji. Warto:K krytyczn9 r ;n 2 znajdujemy ze zwi9zku (st9d odpowiednie tablice) r ;n 2 = t ;n 2 n 2+t . ;n 2 Kwadrat wspó4czynnika korelacji, wyra7ony w procentach, nosi nazw; wspó*czynnika determinacji. Np. determinacja 50% odpowiada korelacji r = 0,707 , gdy7 r 2 = 0,5 . Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 76 Wspó*czynnik determinacji z ostatniego przyk4adu wynosi D = rxy2 × 100% = 74,3% , tzn. w 74,3% zmiany jednej cechy (y — wiek 7on) s9 uwarunkowane zmianami cechy drugiej (x — wiek m;7ów). Wspó*czynnik korelacji kolejno%ciowej (rang, rz+du wielko%ci) Spearmana tak,e mo,e s*u,ydo opisu si*y korelacji dwóch cech, zw4aszcza wtedy, gdy maj9 charakter jako:ciowy i mo7na obserwacje uporz9dkowaK, czyli nadaK odpowiednie rangi, jak na przyk4ad: y – Ona x – On ( y ) – rangi q q ( x) 18 19 1 19 21 2 20 23 3 21 21 4 23 20 5 24 23 6 26 26 7 27 25 8,5 27 26 8,5 30 34 10 235 238 55 – rangi 1 3,5 5,5 3,5 2 5,5 8,5 7 8,5 10 55 di 0 0 1,5 2,25 2,5 6,25 –0,5 0,25 –3 9 –0,5 0,25 1,5 2,25 –1,5 2,25 0 0 0 0 0 22,5 di2 x gdzie d i = qi( ) y qi( ) , za: wspó4czynnik korelacji Spearmana wyra7a si; wzorem: rS = 1 6 ( n n n d2 i =1 i 2 ) 1 =1 6 22,5 = 0,863636 . 10 99 Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 77 6. FUNKCJA REGRESJI Narz;dziem badania mechanizmu powi9za, mi;dzy zmiennymi (cechami) jest funkcja regresji. Jest to analityczna metoda przyporz9dkowania :rednich warto:ci zmiennej obja%nianej (zale7nej) konkretnym warto:ciom zmiennych obja%niaj1cych (niezale7nych). W najprostszym przypadku (dwie zmienne), funkcj1 regresji I-go rodzaju zmiennej losowej Y wzgl;dem zmiennej losowej X nazywamy: E (Y | X = xi ) = m1 ( xi ) dla i = 1, 2,… , n. Analogicznie mamy dla odwrotnej sytuacji E ( X | Y = yi ) = m2 ( yi ) dla i = 1,2,…, n. Analityczne postacie funkcji m1(xi) oraz m2(yi) s9 zwykle nieznane. Mo7na natomiast wyznaczyK empiryczn9 lini; regresji na podstawie danych, 49cz9c punkty o wspó4rz;dnych ( x , y ) . Taki wykres pozwala na postawienie hipotezy na temat typu funkcji matematycznej i xi (liniowa, wyk4adnicza, itp.) opisuj9cej mechanizm powi9za, mi;dzy badanymi cechami. Mówimy wtedy o funkcji regresji II-go rodzaju. Tak, wi;c jest ona aproksymant9 (przybli7eniem) funkcji regresji I-go rodzaju, opisuj9cej zale7no:K korelacyjn9 zmiennych na podstawie losowej próby. Wybór analitycznej postaci funkcji regresji II-go rodzaju nie jest spraw9 4atw9. Decyzj; o klasie funkcji nale7y podejmowaK nie tylko na podstawie wst;pnej analizy materia4u statystycznego, ale równie7 na podstawie Sróde4 pozastatystycznych. 6.1. Regresja liniowa dwu zmiennych Dane n par obserwacji (xi, yi) cech X i Y (zmienne losowe). Regresja I-go rodzaju opisuj9ca zale7no:K liniow9 zmiennej losowej Y od zmiennej X jest postaci E(Y|X = xi) = m(xi) = bxi + a. Model regresji II-go rodzaju (równanie) opisuj9ce powi9zanie (tutaj liniowe) mi;dzy parami obserwacji (xi, yi) yi = m(xi) + ei = bxi + a + ei, i = 1, 2, …, n, gdzie m(xi) s9 warto:ciami :rednimi cechy Y dla warto:ci „xi” cechy X, za: „ei = yi – bxi – a” s9 odchyleniami (losowymi, czyli statystycznie nieistotnymi). Szukamy takiej prostej by suma kwadratów warto:ci „ei” by4a jak najmniejsza (metoda najmniejszych kwadratów). yi ei bxi + a y = bx + a xi Z. Lauda ski, D. R. Ma kowski 78 PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH Zapiszmy, 7e S = S ( a,b ) = n i =1 ( yi bxi a ) (xi oraz yi s9 dane, a wi;c sta4e). S jest funkcj9 2 dwóch zmiennych a i b. Znalezienie minimum tej funkcji sprowadza si; do policzenia pochodnych cz9stkowych: n DS = 2 ( yi Da i =1 bxi a) , n DS = 2 xi ( yi Db i =1 a) , bxi i przyrównuj9c je do zera, znajdujemy ich jedyne miejsce zerowe – rozwi9zania ze wzgl;du na a i b, równe: cov ( x, y ) bˆ = — wspó*czynnik, â = y bx — sta*a regresji, varx gdzie b̂ okre:la oczekiwany przyrost warto:ci :redniej cechy Y, gdy cecha X wzro:nie o jednostk;. Gdyby:my w podobny sposób znaleSli równanie zale7no:ci cechy X wzgl;dem Y (np. x = cˆ + dˆ y ), wtedy okaza4oby si;, 7e wspó4czynnik korelacji mi;dzy tymi cechami jest równy ˆˆ . %redniej geometrycznej wspó4czynników regresji, tzn. rxy = bd 6.1.1. Badanie dok:adnoBci oszacowanej funkcji regresji Zauwa7amy w ten sposób, 7e wspó*czynnik korelacji jest „miernikiem” znalezionego zwi1zku regresyjnego, tzn. je7eli stwierdzamy istnienie korelacji, to tym samym stwierdzamy tak7e zale,no%- regresyjn1. Zauwa7my dalej, 7e wg naszego modelu danych yi = m(xi) + ei = bxi + a + ei, zmienno:K obserwacji yi jest sum9 zmienno:ci wynikaj9cej z warto:ci „bxi + a” oraz „ei”, tzn. dla wektora próby y mamy, 7e: ˆ + aˆ ) + var ê = var R + var E, var y = var ( bx czyli jest sum9 zmienno%ci wyja%nionej przez równanie regresji oraz zmienno%ci resztowej (nie wyja%nionej przy pomocy regresji). Mo7na wykazaK, 7e var R = b̂ cov ( x, y ) , tym samym var E = var y – var R, co pozwala zastosowaK iloraz Femp = varR varE ( n 2 ) varR sR2 : = 2 , = 1 n 2 varE s y.x jako funkcj; testow9 dla hipotezy H 0 : b = 0 jako, 7e ma ona rozk4ad F z 1 – st. swobody licznika i (n–2) st. swobody mianownika. Hipotez; zerow9 odrzucamy gdy wyliczona warto:K Femp przekracza odpowiedni9 warto:K krytyczn9 F ,1,n-2. Odrzucenie hipotezy zerowej oznacza istotno%- regresji cechy Y wzgl;dem cechy X. Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 79 Funkcj9 testow9 dla hipotezy H 0 : b = 0 mo7e byK zmienna postaci: ˆ temp = b sbˆ , gdzie sb̂ — b*1d wspó*czynnika regresji z próby jest dany wzorem 2 s y.x varE . sbˆ = = ( n 2 ) varx varx Gdy zachodzi relacja |temp| > t ,n-2, wtedy H0 — odrzucamy. 6.1.2. Krzywe (przedzia:y) ufnoBci W przypadku stwierdzenia istotno:ci regresji, mo7emy pos4ugiwaK si; znalezionym równaniem w celu prognozowania warto:ci Y na podstawie pojawiaj9cych si; pomiarów zmiennej X. B49d takiej prognozy, b;d9cy b4;dem warto:ci regresyjnej, jest równy smˆ ( x ) = s 2 y.x 1 (x x) + n varx 2 . Podstawiaj9c do powy7szego wzoru x = 0, otrzymujemy b49d sta4ej regresji. W ten sposób znajomo:K b4;dów estymatorów pozwala konstruowaK przedzia4y ufno:ci. Dla sta4ej regresji: aˆ t ,n 2 dla wspó4czynnika regresji: bˆ t ,n 2 dla warto:ci regresyjnej: mˆ ( x ) t gdzie t ,n 2 a aˆ + t saˆ ,n 2 sbˆ ,n 2 b bˆ + t smˆ ( x ) saˆ , ,n 2 sbˆ , m ( x ) mˆ ( x ) + t ,n 2 smˆ ( x ) , jest warto:ci9 krytyczn9 rozk4adu t Studenta przy stopniach swobody (n–2) i poziomie istotno:ci . Prosta regresji z przedzia4ami ufno:ci i predykcji Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 80 6.2. Korelacja i regresja wielu zmiennych Dotychczasowe rozwa7ania dotycz9ce wspó4zale7no:ci zjawisk masowych dotyczy4y badania zwi9zku mi;dzy dwiema cechami. Bardzo cz;sto jeste:my jednak zainteresowani wspó4zale7no:ci9 wielu zmiennych: Y — zm. zale7na i X1, X2, X3,…, Xk — zm. niezale7ne. Problem korelacji i regresji mo7na badaK: — wielorako — je:li uwzgl;dniamy oddzia4ywanie na zm. zale7n9 Y wszystkich zm. niezale7nych X1, X2,…, Xk. Tutaj oblicza si; wspó4czynnik korelacji wielorakiej i szacuje si; model regresji wielorakiej. — cz9stkowo — je:li badamy wspó4zale7no:ci tylko niektórych zmiennych, eliminuj9c wp4yw pozosta4ych. Tutaj oblicza si; wspó4czynniki korelacji cz9stkowej i wspó4czynniki regresji cz9stkowej. 6.2.1. Korelacja i regresja wieloraka (wielu zmiennych) Funkcj9 regresji I-go rodzaju zmiennej losowej Y (zmienna obja:niana, endogeniczna) wzgl;dem zmiennych niezale7nych typu X (zmienne obja:niaj9ce, egzogeniczne) nazywamy: E(Y|X1=x1i, X2=x2i,…, Xk=xki,) = m(x1i, x2i,…, xki,). Model regresji II-go rodzaju (równanie) opisuj9ce powi9zanie (tutaj liniowe) mi;dzy obserwacji (x1i, x2i,…, xki, yi) yi = m ( xi ) = m ( x1i ,x2i ,xki ) + ei = b0 + k j =1 b j x ji + ei , dla i =1, 2,…, n, gdzie m(x1i, x2i,…, xki,) s9 warto:ciami :rednimi cechy Y dla warto:ci „x1i, x2i,…, xki” cech typu X, za: „ei” s9 odchyleniami (losowymi, czyli statystycznie nieistotnymi). Szukamy takich b0, b1, b2,…, bk by suma kwadratów warto:ci „ei” ( n i =1 ei2 = min! ) by4a jak najmniejsza (MNK). Sformu4owanie problemu estymacji wspó4czynników regresji wielokrotnej jest podobne jak dla przypadku dwóch zmiennych, ale z racji wi;kszej liczby zmiennych, zagadnieniem jest bardziej z4o7onym numerycznie jak i w interpretacji wyników. Z MNK uzyskujemy uk4ad równa, normalnych: V bˆ = c , b0 = y bˆT x , gdzie x jest wektorem :rednich zmiennych obja:niaj9cych. V jest macierz9 sum kwadratów i iloczynów odchyle, zmiennych obja:niaj9cych [ cov ( x p , xq ) ], c — wektor kolumnowy sum iloczynów odchyle, zmiennych obja:niaj9cych i zmiennej obja:nianej [ cov ( x p , y ) ]. Elementy tej macierzy i tego wektora wyliczamy ze wzorów: cov ( x p , xq ) = i (x x p )( xqi pi xq ) , (p, q = 1,2, …, k), cov ( x p , y ) = i (x pi x p ) ( yi y). Macierz V ma postaK: ( var x1 cov ( x1 x2 ) 5 cov ( x x ) var x2 1 2 V =5 5 5*cov ( x1 xk ) cov ( x2 xk ) cov ( x1 xk ) ) cov ( x2 xk ) 4 4. 4 var xk 4+ Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 81 Jak wiadomo, macierz V jest macierz9 symetryczn9 o wyznaczniku nieujemnym, i je7eli jest nieosobliwa (wyznacznik dodatni), to istnieje macierz do niej odwrotna V 1 . Wtedy estymatory cz9stkowych wspó4czynników regresji, czyli wektor b̂ , znajdujemy ze zwi9zku: bˆ = V 1 c. Ka7dy cz9stkowy wspó4czynnik regresji interpretujemy nast;puj9co: okre:la on oczekiwany przyrost warto:ci :redniej cechy Y, gdy cecha Xp wzro:nie o jednostk;, a pozosta4e b;d9 ustalone. Nast;pnie definiujemy zmienno:K resztow9 b4;du: var E = n i =1 (y mˆ ( xi ) ) i 2 oraz zmienno:K regresji n var R = i =1 ( mˆ ( x ) 2 y ) = bˆT c . i Zachodzi zwi9zek: var R + var E = var y . Ta ostatnia równo:K pozwala zastosowaK iloraz Femp = ( n k 1) varR = sR2 . varR varE : = k n k 1 k varE s y2 x Je7eli hipoteza globalna H 0 : b = 0 zostanie odrzucona na poziomie istotno:ci , co zachodzi wtedy, gdy Femp > F ;k ;n k 1 , to mo7emy przyst9piK do sprawdzania hipotez szczegó4owych, 7e wybrany wspó4czynnik regresji bp jest zerem. Funkcja testowa ma postaK: ( p) temp = bˆp sbˆ , gdzie sbˆ = s 2y x v pp , p p przy czym v pp jest elementem diagonalnym macierzy V 1 . Hipotez; H 0 : bp = 0 odrzucamy, ( p) gdy temp >t ;n k 1 , gdzie t ;n k 1 jest warto:ci9 krytyczn9 rozk4adu t Studenta. ( p) <t Zwykle zmienne, dla których temp ;n k 1 , odrzucamy z modelu regresji jako nieistotne i powtarzamy analiz; wyliczaj9c ponownie wektor wspó4czynników regresji. Je:li równocze:nie kilka ró7nych zmiennych obja:niaj9cych oka7e si; nieistotnymi, to odrzucamy tylko jedn9 z nich o najmniejszej warto:ci funkcji testowej t i powtarzamy analiz;. Nale7y zauwa7yK, 7e test t pozwala na sprawdzenie istotno:ci wprowadzenia danej zmiennej do modelu, przy za4o7eniu, 7e pozosta4e s9 tam uwzgl;dnione. St9d te7 rola innych zmiennych mo7e si; znacznie zmieniK, gdy usuwamy któr9kolwiek ze zmiennych. B49d warto:ci regresyjnej obliczamy ze wzoru: (1 smˆ ( x ) = s y2 x 5 + ( x *n x) V T 1 (x Wspó4czynnik determinacji obliczamy ze wzoru: R2 % = Z. Lauda ski, D. R. Ma kowski bT c 100% , var y ) x )4 . + PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 82 natomiast wzór R = bˆT c okre:la wspó4czynnik korelacji. var y Warto:ci wspó4czynnika korelacji nale79 do przedzia4u [ 0,1] . Interpretacja wspó4czynnika korelacji i determinacji jest podobna jak dla przypadku dwuwymiarowego. Wspó4czynnik determinacji okre:la cz;:K zmienno:ci cechy Y zdeterminowan9, obja:nion9 zale7no:ci9 od zespo4u cech obja:niaj9cych. Natomiast im wspó4czynnik korelacji jest bli7szy jedno:ci, tym zale7no:K Y od X 1 ,… , X k jest silniejsza. Obliczenia w regresji wielokrotnej s9 bardzo pracoch4onne, przy czym pracoch4onno:K ro:nie bardzo szybko w miar; wzrostu liczby zmiennych obja:niaj9cych. Oczywi:cie w dobie komputerów oraz odpowiednich programów, nie jest to problem. Problemem jest natomiast dopracowanie si; „najlepszego modelu” zale7no:ci cechy Y wzgl;dem cech typu X. Dla uzyskania takiego celu proponowane s9 ró7ne procedury, np. regresj; kolejnych kroków (regresja krokowa, etapowa, ang. stepwise). Zastosowanie standaryzacji postaci z pi = x pi xp sx p wzgl;dem cechy Xp oraz vi = yi y sy wzgl;dem cechy Y i po opracowaniu poszukiwanego równania zale7no:ci regresyjnej Y wzgl;dem zbioru cech X, pozwala na wzajemne porównywanie uzyskanych cz9stkowych wspó4czynników regresji. Powsta4y one przecie7 ze standaryzowanych warto:ci (o :redniej zero i wariancji jeden), i s9 przy tym niemianowane. Ta postaK równania regresji jest wykorzystywana w porównawczej ocenie wp4ywu poszczególnych cech obja:niaj9cych na cech; obja:nian9. 6.3. Modele linearyzowalne, regresja krzywoliniowa W wielu dziedzinach, w których matematyka stosowana zajmuje poczesne miejsce, cz;sto w zastosowaniach teorii regresji pojawiaj9 si; modele nieliniowe. W tych modelach szczególne miejsce zajmuj9 modele linearyzowalne. S9 to modele daj9ce si; sprowadziK do modelu liniowego przez odpowiedni9 transformacj; zmiennych. Takimi modelami, cz;sto stosowanymi w praktyce s9 np. model pot;gowy y = a x b dla x > 0, y > 0, a > 0 , linearyzowalny po transformacji logarytmicznej zmiennych: ln y = ln a + b ln x , ( z = ln y, u = ln x ). Model wyk4adniczy: y = ea + bx , po transformacji postaci: ln y = a + bx, y >0. Model wielomianowy: y = b0 + b1 x + b2 x 2 + + bk x k , sprowadzaj9cy si; do modelu liniowego regresji wielokrotnej po prostym podstawieniu: z1 = x, z2 = x 2 , z3 = x3 , itd. Model ten jest najcz;:ciej stosowany w praktycznych zastosowaniach regresji krzywoliniowej ze wzgl;du na ogromn9 ró7norodno:K kszta4tu krzywych wielomianowych oraz fakt pozostawania zmiennej y bez transformacji w tym modelu. Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 83 Modele wielomianowe znajduj9 liczne zastosowania w zagadnienia biologicznych, np. w modelowaniu zwi9zków plonów ro:lin uprawnych z 7yzno:ci9 gleby wyra7on9 zawarto:ci9 ró7nych sk4adników pokarmowych czy wnoszonych do gleby dawek ró7nych nawozów. Modele wielomianowe sprawiaj9 k4opoty numeryczne, gdy7 kolejne pot;gi zmiennych egzogenicznych i ich iloczyny s9 silnie skorelowane, a ponadto ich warto:ci ró7ni9 si; czasami o kilka rz;dów wielko:ci, a kowariancje mi;dzy nimi ró7ni9 si; nawet o kilkana:cie rz;dów wielko:ci. Na przyk4ad dla modelu nawozowego z X 1 = N , X 2 = P y = b0,0 + b1,0 N + b0,1 P + b2,0 N 2 + b1,1 NP + b0,2 P 2 + b2,1 N 2 P + , gdy N i P przyjmuj9 warto:ci rz;du 102, to X 6 = N 2 P jest ju7 rz;du 106, a ich wariancje oraz odpowiednie kowariancje mog9 osi9gaK warto:ci rz;du 1012. Mo7e to daK efekt wspó4liniowo:ci kolumn macierzy kowariancji V , a tym samym macierz V b;dzie niemal osobliwa. Uzyskana funkcja regresji nieliniowej (np. jak wy7ej, tzw. powierzchnia efektywno:ci), mo7e byK wykorzystywana do wyznaczania cz9stkowych równa, regresji opisuj9cych zale7no:K jednego z nawozów przy ustalonym poziomie nawo7enia drugim, poszukiwania optymalnych dawek nawozów, optymalizacji efektywno:ci nawo7enia mineralnego, optymalizacji stosunku (tutaj N : P) czy ustalenia mineralnego nawo7enia, niezb;dnego do uzyskania okre:lonej wysoko:ci plonu. Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 84 7. REGRESJA W ANALIZIE WARIANCJI Cz;sto w uk4adach sklasyfikowanych czynnik klasyfikuj9cy jest typu ilo:ciowego, jak np. dawki nawozu mineralnego, terminy siewu, poziom pewnego sk4adnika w procesach technologicznych, itp. Wykorzystuj9c wyniki pomiarów cechy badanej przy okre:lonych poziomach czynnika, mo7na dokonaK oceny funkcji regresji opisuj9cej zale7no:K oczekiwanej warto:ci badanej cechy ( m + ai ) od warto:ci xi poziomu i-tego czynnika. Funkcja ta dla ka7dego i-tego poziomu ma postaK: m ( xi ) = m + ai . Je7eli znany jest a priori kszta4t funkcji m ( x ) , to zamiast szacowaK efekty ai , i tym samym warto:ci funkcji regresji w wybranych punktach, mo7na bezpo:rednio przyst9piK do estymacji parametrów funkcji regresji. W innych przypadkach, co najcz;:ciej wyst;puje, aproksymujemy (przybli7amy) t; funkcj; wielomianami. Dla funkcji regresji m ( x ) w przypadku badania p poziomów xi ( i = 1,2,…, p ) mo7na u7yK, co najwy7ej wielomianu stopnia p 1 postaci: m ( x ) = b0 + b1 x + b2 + … + b p 1 x p 1 . W praktycznych zastosowaniach poszukiwania wielomianu opisuj9cego zale7no:K regresyjn9 :rednich wzgl;dem warto:ci poziomów czynnika ilo:ciowego, nie przekraczaj9 stopnia 5-tego. Najcz;:ciej poszukiwania ko,czymy na stopniu 3-cim. Oczywi:cie, je7eli liczba poziomów p na to pozwala. Dla zademonstrowania niniejszego zagadnienia, wykorzystajmy wyniki do:wiadczenia z liczb9 nicieni, które to liczby ( xi ) stanowi9 kolejne poziomy badanego czynnika. Dla realizacji tego zadania wystarczaj9ce s9 dane przedstawione w poni7szej tabeli, tzn. warto:ci xi , :rednie yi oraz liczby obserwacji ni dla poszczególnych poziomów: Tabela danych xi yi ni 0 50 100 200 400 800 1600 7,225 6,150 6,150 5,500 5,075 5,075 4,400 4 4 4 4 4 4 4 Jeste:my zainteresowani sprawdzeniem istotno:ci regresji liniowej :rednich badanej cechy ( yi ) wzgl;dem liczby nicieni ( xi ). W tym celu mo7e byK wystarczaj9ce wykonanie oblicze, wynikaj9cych ze stosowania metody analizy regresji na :rednich obiektowych z wagami równymi liczbie obserwacji, z jakich powsta4a odpowiednia warto:K :rednia. W naszym wypadku suma kwadratów dla tak wyznaczonej regresji liniowej wynosi 14,1467, dla regresji kwadratowej – 17,047 oraz dla kubicznej (stopnia 3-go) – 19,9846. St9d mo7emy wyznaczyK sumy kwadratów dla testowania poszczególnych hipotez zerowych dotycz9cych istotno:ci regresji liniowej, kwadratowej (suma kwadratów regresji kwadratowej minus suma kwadratów regresji liniowej), kubicznej (suma kwadratów regresji kubicznej minus suma kwadratów regresji kwadratowej) oraz pozosta4ych regresji stopni wy7szych. dród4o zmienno:ci Obiekty W tym efekty: — Liniowy — Kwadratowy — Kubiczny Reszta B49d losowy Ca4kowita St. sw. Suma kwd. er. kwd. Femp P-stwo 6 20,9071 3,4845 14,987 0,00000126 1 1 1 3 21 27 14,1467 2,9003 2,9376 0,9225 4,8825 25,7896 14,1467 2,9003 2,9376 0,3075 0,2325 × 60,846 12,474 12,635 1,323 × × 0,00000012 0,00197792 0,00187455 0,26298467 × × Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 85 8. ANALIZA KOWARIANCJI Analiza wariancji pozwala porównaK obiekty pod wzgl;dem pewnej cechy, gdy podlega ona dla ka7dego obiektu tylko zmienno:ci przypadkowej (losowej) i nie jest równocze:nie uzale7niona od innych cech, których wp4yw mo7na okre:liK liczbowo. Cz;sto bywa tak, 7e badana cecha y uwarunkowana jest wp4ywem innych cech x1 , x2 ,… , xk daj9cych si; zmierzyK. Mog9 one przedstawiaK zmienne losowe lub rzeczywiste. S9 to zmienne towarzysz1ce cesze y i zak*ócaj1ce jej prawid4ow9 ocen;. Chodzi o to, by wyeliminowaK wp4yw tych zmiennych towarzysz9cych na ko,cow9 ocen; obiektów wed4ug badanej cechy. Tak9 metod9 oceny jest metoda analizy kowariancji. Wykorzystuje ona mi;dzy innymi analiz; regresji zmiennej y wzgl;dem zmiennych towarzysz9cych x1 , x2 ,… , xk . Zajmiemy si; takim przypadkiem o jednej zmiennej towarzysz9cej wzgl;dem której zak4adamy zale7no:K liniow9 naszej badanej cechy. Przyk*ad: Porównywano plon nasion wybranych trzech biotypów pewnego gatunku ro:liny. Do:wiadczenie za4o7ono metod9 losowanych bloków w 4 powtórzeniach. Rozstawa dla wszystkich biotypów by4a jednakowa, jednak zaobserwowano wypadni;cia ro:lin, które wp4yn;4y na warto:K plonu. Blok I Blok II Blok III Blok IV y x y x y x y x Bio-1 1,59 109 1,18 92 1,62 110 1,45 103 Bio-2 1,46 105 1,26 93 1,31 101 1,29 104 Bio-3 0,89 32 0,92 34 0,71 24 0,68 21 Model liniowy dla obserwacji z tego do:wiadczenia jest postaci: yij = m + g j + ai + < ( xij ) x + eij , i = 1, 2,3 ; j = 1, 2,3, 4 . Zauwa7my, 7e do modelu obserwacji z uk4adu losowanych bloków zosta4 do*1czony sk4adnik regresji cechy y wzgl;dem odchyle, warto:ci obserwowanych xij zmiennej towarzysz9cej od warto:ci :redniej. Wykonajmy dla tego do:wiadczenia analiz; wariancji oraz analiz; kowariancji – na czym polega ró7nica w ko,cowych wnioskach? Analiza wariancji dród4o zmienno:ci St. sw. Suma kwd. er. kwd. Femp P-stwo Bloki 3 0,0689333 0,0229778 1,14 0,4056 Biotypy 2 0,977867 0,488933 24,27 0,0013 B49d losowy 6 0,120867 0,0201444 × × Ca4kowita 11 1,16767 × × × Analiza kowariancji dród4o zmienno:ci St. sw. Regresja 1 Bloki 3 Biotypy 2 B49d losowy 5 Ca4kowita 11 Z. Lauda ski, D. R. Ma kowski Suma kwd. er. kwd. Femp 0,100647 0,100647 24,89 0,0049802 0,0016601 0,41 0,0560219 0,0280109 6,93 0,0202196 0,0040439 × 1,16767 × × P-stwo 0,0041 0,7528 0,0362 × × PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 86 Analiza szczegó4owa yi y1 y2 y3 y1 y1 y2 y2 y3 y3 1,46 1,33 0,80 0,13 0,66 0,53 Anova NIRTuk 0,05 × × × 0,308 0,308 0,308 Ancova NIRTuk 0,05 yi 0,96434 0,88643 1,73923 0,077909 –0,774884 –0,852793 × × × 0,3401 0,5960 0,3337 Analiza wariancji pozwala nam stwierdziK, 7e badane biotypy s9 ze sob9 zró7nicowane istotnie ( Pvalue = 0,0013 ). Podobny wniosek uzyskujemy na podstawie analizy kowariancji ( Pvalue = 0,0362 ), uwzgl;dniaj9cej liczb; ro:lin na poletku. Dopiero analiza szczegó4owa :rednich warto:ci dla biotypów pozwala oceniK, 7e to nie trzeci biotyp daje najni7szy :redni plon (anova), ale wprost przeciwnie (ancova). Warto:K :redniego plonu zosta4a tutaj poprawiona przez uwzgl;dnienie jednakowej liczby ro:lin dla badanych biotypów. Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 2 9. TESTY 9.1. Test zgodnoBci 87 2 Nieparametryczne testy istotno%ci, w których weryfikowana hipoteza dotycz9ca rozk4adu badanej cechy w populacji generalnej nie precyzuje warto:ci parametrów tego rozk4adu a jedynie zgodno%- z innymi rozk4adami (teoretycznymi lub rozk4adami innych populacji). Jednym z najstarszych testów istotno:ci, maj9cy tutaj zastosowanie jest test zgodno%ci 2. Nazwa ta pochodzi st9d, 7e statystyka testowa u7ywana przy weryfikacji hipotezy o zgodno%ci wyników próby z rozk4adem populacji, ma asymptotyczny rozk4ad 2. Test zgodno%ci 2 pozwala na sprawdzenie hipotezy, 7e populacja ma okre:lony typ rozk4adu (tj. okre:lon9 postaK funkcyjn9 dystrybuanty). Mo7e to byK typ rozk4adu skokowego lub ci9g4ego. Jedynym ograniczeniem w te%cie zgodno%ci 2 jest to, 7e n elementowa próba musi byK du7a, bo wyniki jej dzielimy na pewne klasy warto%ci (np. w liczbie k klas). Dla ka7dej klasy z rozk4adu hipotetycznego oblicza si; liczebno:ci teoretyczne ( npi ), które porównuje si; z empirycznymi ( ni ) za pomoc9 statystyki: 2 = k ( ni npi ) 2 npi i =1 , n= k i =1 ni , k i =1 pi = 1 . Gdy rozbie7no:ci mi;dzy liczebno:ciami teoretycznymi a empirycznymi s9 zbyt du7e, to hipoteza, 7e populacja ma ten w4a:nie rozk4ad teoretyczny, musi byK odrzucona. Na przyk4ad w rzucie monet9 uzyskano 40 razy or*a oraz 60 razy reszk+. Czy mo7na uznaK, 7e moneta jest symetryczna? NIE z prawdopodobie,stwem ryzyka 0,05 odrzucenia prawdziwej hipotezy zerowej, gdy7 2 Mamy tutaj relacj;, 7e ( 40 = 2 emp 50 ) 50 2 ( 60 + = 4 > 3,8415 = 50 ) 50 2 =2+2=4. 2 0,05;1 . 9.1.1. ZgodnoBO z rozk:adem normalnym Dla próby losowej o du7ej liczno:ci konstruujemy szeregi rozdzielcze — zestawienie wskazuj9ce na rozk4ad warto:ci badanej cechy w próbie, który jest przybli7eniem rozk*adu warto%ci cechy w populacji. Budowa szeregu rozdzielczego z indywidualnych obserwacji polega na utworzeniu odpowiednich klas (przedzia4ów), a nast;pnie zliczaniu liczby obserwacji w poszczególnych klasach. Liczb; klas okre:lamy na ogó4 arbitralnie, kieruj9c si; jednak „zdrowym rozs9dkiem” i znajomo:ci9 celu, któremu ma s4u7yK podzia4 zbiorowo:ci na klasy. Nale7y przy tym pami;taK aby granice przedzia4ów klasowych by4y liczbami „okr9g4ymi”. Spotyka si; równie7 konkretne wzory, za pomoc9 których mo7na orientacyjnie okre:liK liczb; klas w zale7no:ci od liczebno:ci zbiorowo:ci, np. k 5log n . Rozpatrzmy plony buraka cukrowego w dt/ha pochodz9ce bezpo:rednio z pól gospodarstw produkcyjnych. Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 88 pi( ) 1 0,524 0,00524 x 150 150<x 200 10 5,236 0,05236 200<x 250 5 2,618 0,02618 250<x 300 19 9,948 0,09948 300<x 350 29 15,183 0,15183 350<x 400 35 18,325 0,18325 400<x 450 34 17,801 0,17801 450<x 500 32 16,754 0,16754 500<x 550 15 7,853 0,07853 550<x 600 6 3,141 0,03141 600<x 5 2,618 0,02618 Ogó4em 191 100,000 1,00000 Klasy ni % emp Dane te pos4u79 nam do odpowiedzi na pytanie: „czy warto%ci plonów buraka maj1 rozk*ad normalny?”. Poni7szy histogram wielko:ci plonów buraka sugeruje du7e podobie,stwo mi;dzy rozk*adem empirycznych warto:ci plonów a rozk*adem normalnym. Liczba obserwacji Rozk ad empiryczny plonów buraka cukrowego 45 40 35 30 25 20 15 10 5 0 Oczekiwane Normalne 100 150 200 250 300 350 400 450 500 550 600 650 Dlaczego mamy tutaj 11 klas wielko:ci plonów? Otó7 orientacyjna liczba klas k spe4nia warunek k 5log n = 5log191 = 5 × 2, 281033 = 11, 40517 a liczba klas równa „11” daje nam zakres klasy równy „50” z jednoczesnym umiejscowieniem warto:ci :redniej w :rodkowym (6) przedziale klasowym. g1 g2 xmin n x 191 393,7 379,0 408,4 115 xmax R s 650 535 103,9 Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 89 Odpowiednio g1 i g 2 s9 granicami 95% przedzia4u ufno:ci dla warto:ci :redniej plonu buraka cukrowego, tzn. P { g1 # g2} = P $ X & m t0,05;190 S n S 9 : = 0,95 . n; X + t0,05;190 m Badanie zgodno%ci analizowanej populacji z rozk*adem normalnym jest cz;sto stosowane w praktyce jako, 7e szczególnie cz;sto zachodzi potrzeba sprawdzania tej7e hipotezy przed zastosowaniem innych testów. 2 emp Tabela obliczania statystyki testowej ( emp ) ni Klasy pi (t ) (t ) pi npi (t ) ni npi (n i (t ) npi n np ( ) ) ( ) np( ) t 2 i 2 i t i 1,815 4,133 9,967 19,148 29,309 35,746 34,737 26,898 16,594 8,157 4,496 –0,815 5,867 –4,967 –0,148 –0,309 –0,746 –0,737 5,102 –1,594 –2,157 0,504 Ogó4em n = 191 1,00000 1,00000 191,000 0,000 x 150 150<x 200 200<x 250 250<x 300 300<x 350 350<x 400 400<x 450 450<x 500 500<x 550 550<x 600 600<x 1 10 5 19 29 35 34 32 15 6 5 0,00524 0,00950 0,05236 0,02164 0,02618 0,05218 0,09948 0,10025 0,15183 0,15345 0,18325 0,18715 0,17801 0,18187 0,16754 0,14083 0,07853 0,08688 0,03141 0,04271 0,02618 0,02354 0,6634 34,4189 24,6706 0,0219 0,0956 0,5560 0,5424 26,0347 2,5423 4,6528 0,2537 0,3656 8,3273 2,4752 0,0011 0,0033 0,0156 0,0156 0,9679 0,1532 0,5704 0,0564 2 emp = 12,9516 Nale7y wyznaczyK elementy dla obliczenia warto:ci funkcji testowej 2 k = ( ni i =1 gdzie Z= X prawdopodobie,stwa m pi = P { xi 1 < X npi ) npi xi } , 2 , natomiast zmienna . Wi;c: p1 = P { X # 150} = P $ Z & 150 393,7 9 : = P {Z 103,9 ; 2,34552} = = 1 F ( 2,34552 ) = 1 0,99050 = 0, 00950 , p2 = P {150 < X 200} = P { 2,34552 < Z 1,86429} = = F ( 1,86429 ) F ( 2,34552 ) = 0,03114 0,00950 = 0,02164 , p3 = P {200 < X 250} = P { 1,86429 < Z 1,38306} = = F ( 1,38306 ) F ( 1,86429 ) = 0,08332 0,03114 = 0,05218 , itd. dla pozosta4ych przedzia4ów klasowych. Z. Lauda ski, D. R. Ma kowski standaryzowana PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 90 Dla zweryfikowania hipotezy (zerowej) postaci „populacja plonów buraka cukrowego ma 2 rozk*ad normalny”, tak obliczon9 warto:K statystyki emp porównujemy z warto%ci1 krytyczn1 testu 2 ;k u 1 , gdzie: — poziom istotno:ci (b*1d I-go rodzaju), k u 1 jest liczb9 stopni swobody ( k — liczba klas, u — liczba parametrów szacowanych z próby), i je:li zachodzi 2 2 emp ; k u 1 , to hipotez+ zerow1 ( H 0 : rozk*ady empiryczny i teoretyczny s1 zgodne) nale7y odrzuciK. W przeciwnym przypadku, tzn. gdy 2 emp < 2 ;k u 1 , to nie ma podstaw do odrzucenia hipotezy zerowej. Oczywi:cie nie oznacza to, 7e mo7emy j9 przyj9K, lecz test zbudowany, 7e im warto:K W naszym przyk4adzie 2 2 jest tak jest bli7sza zeru, tym hipoteza jest bardziej wiarygodna. 2 emp = 12,9516 < 15,5073 = 2 0,05;8 , gdzie k u 1 = 11 2 1 = 8 . Tak wi;c wnioskujemy, 7e rozk*ad warto%ci plonów buraka cukrowego jest rozk*adem normalnym. Potwierdzaj9 to tak7e inne testy (Ko4mogorowa-Smirnowa i Lillieforsa). Rozk ad empiryczny plonów buraka cukrowego Liczba obserwacji K-S d=,03539, p> .20;p Lillieforsa> .20 Chi-kwadrat(emp) = 12,9516 < 15,5073 = Chi-kwadrat(0,05;8) 45 40 35 30 25 20 15 10 5 0 Oczekiwane Normalne 100 150 200 250 300 350 400 450 500 550 600 650 9.2. Test niezaleCnoBci 2 Przy badaniu populacji generalnej jednocze:nie ze wzgl;du na dwie cechy cz;sto interesuje nas sprawdzenie hipotezy, czy cechy te s1 ze sob1 zwi1zane (zale,ne). Gdy obie cechy s9 mierzalne, pos4ugujemy si; wtedy najcz;:ciej poj;ciem korelacji i regresji. Gdy jednak przynajmniej jedna z dwu badanych cech jest niemierzalna (tzn. ma jedynie kategorie jako:ciowe), to badaj9c zwi9zek tych cech pos4ugujemy si; poj;ciem niezale,no%ci stochastycznej odpowiednich dwóch zmiennych losowych. Jak wiadomo z rachunku prawdopodobie,stwa, dwa zdarzenia losowe A i B s9 niezale,ne, je7eli zachodzi równo:K P ( A B ) = P ( A) P ( B ) . Podobna jest definicja niezale,no%ci dwu zmiennych losowych X i Y. Zmienne te s9 niezale,ne, gdy dla dystrybuant zachodzi równo:K F ( x, y ) = F1 ( x ) F2 ( y ) . Stosowanym w praktyce test niezale,no%ci 2 jest testem istotno%ci pozwalaj9cym na sprawdzenie, czy dwie badane cechy (niekoniecznie mierzalne) s9 niezale,ne. Test ten oparty 2 , z tym 7e hipotetycznymi jest na tej samej statystyce co test zgodno%ci prawdopodobie,stwami s9 oszacowane z próby prawdopodobie,stwa otrzymania równocze:nie okre:lonej warto:ci (czy kategorii jako:ciowej) cechy X oraz Y, przy za4o7eniu niezale,no%ci tych cech. Wymogiem tego testu jest du7a liczebno:K próby, której wyniki zosta4y rozdzielone Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 91 na odpowiednie grupy warto:ci (kategorie) ze wzgl;du na obie cechy. Sporz9dza si; zatem odpowiedni9 tablic;, zwan9 tablic1 kontyngencji (lub asocjacji), która po wype4nieniu daje macierz liczebno%ci empirycznych. Nak4ada si; na ni9 macierz liczebno%ci teoretycznych, obliczonych przy za4o7eniu niezale7no:ci badanych cech. Porównanie elementów obu macierzy, czego dokonuje si; przez zastosowanie statystyki , daje odpowiedS, czy mo7na odrzuciK hipotez+ o niezale,no%ci cech na skutek wyst9pienia zbyt du7ych ró7nic liczebno:ci empirycznych i teoretycznych. 2 Macierz liczebno:ci empirycznych Y1 Y2 n11 n12 … … nk1 nk 2 Kategorie X \ Y X1 … Xk ni j p. j Liczebno:ci brzegowe: ni i = Y n1 … nkr … … … … ni1 ni 2 … ni pi1 pi 2 … pi r r n j =1 ij , ni j = ni i . pi i n1i p1i … … nk i pk i nii 1 k n i =1 ij , przy czym zachodzi ni j ni i , pi j = . nii nii Z za4o7enia o niezale,no%ci cech ( H 0 : cechy X i Y s1 niezale,ne jest prawdziwa) wynika, 7e ni i ni j ni i ni j , czyli wielko:K nii pij = jest liczebno%ci1 teoretyczn1 podklasy ( i, j ) . pi i pi j = pij = nii nii nii nii = r n j =1 i j = k n i =1 i i , a prawdopodobie,stwa brzegowe s9 równe: pi i = Macierz liczebno:ci teoretycznych Y1 Kategorie X \ Y X1 X2 … Xk Y2 nii p11 nii p12 nii p21 nii p22 nii pk1 nii pk 2 … Y … nii p1 … nii p2 … … … nii pk Z elementów macierzy liczebno%ci empirycznych nij oraz elementów macierzy liczebno%ci teoretycznych — nii pij , konstruujemy statystyk;: 2 emp gdzie nii pij = ni i ni j nii = r k j =1 i =1 ( nij nii pij nii pij ) 2 , . Statystyka ta ma przy za4o7eniu prawdziwo:ci hipotezy H 0 o niezale,no%ci cech, asymptotyczny rozk4ad 2 Z. Lauda ski, D. R. Ma kowski z (r–1)(k–1) stopniami swobody. PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 92 2 emp Praktycznie wi;c, obliczon9 warto:K porównujemy z warto:ci9 krytyczn9 2 ;( r 1)( k 1) , i je7eli zajdzie nierówno:K 2 emp 2 ;( r 1)( k 1) , to hipotez; H 0 o niezale,no%ci badanych cech nale,y odrzuci- — co w praktyce oznacza ich zale,no%-. Gdy natomiast 2 emp < 2 ;( r 1)( k 1) , wtedy nie ma podstaw do odrzucenia hipotezy o niezale,no%ci badanych cech. Przyk*ad: W celu stwierdzenia, czy podanie chorym na pewn9 chorob; nowego leku przynosi popraw; w ich stanie zdrowia, wylosowano dwie grupy pacjentów w jednakowym stopniu chorym. Jednej grupie (120 osób) podawano nowy lek, a drugiej (80 osób) lek tradycyjny. bez poprawy wyraSna poprawa wyzdrowienie ni i pi i 20 (0,195) 40 (0,180) 60 (0,225) Badanym lekiem 120 0,6 39 36 45 45 (0,130) 20 (0,120) 15 (0,150) 80 0,4 Tradycyjnie 26 24 30 ni j 65 60 75 200 pi j 0,325 0,300 0,375 1 Leczeni X\Y Mo7emy teraz obliczyK warto:K statystyki wed4ug znanego ju7 wzoru na 2 emp . Przeprowadzimy niezb;dne rachunki w tabeli, a liczebno%ci teoretyczne, wynikaj9ce z naszej hipotezy zerowej s9 równe: nii p11 = n1i ni1 120 65 nn 120 60 = = 39 , nii p12 = 1i i 2 = = 36 , 200 200 nii nii nii p13 = n1i ni3 120 75 n n 80 65 = = 45 , nii p21 = 2i i1 = = 26 , nii 200 200 nii nii p22 = n n n2i ni 2 80 60 80 75 = = 24 , nii p23 = 2i i3 = = 30 . nii 200 200 nii ( i, j ) nij nii pij (1,1) (1,2) (1,3) (2,1) (2,2) (2,3) 20 40 60 45 20 15 200 39 36 45 26 24 30 200 nij nii pij –19 4 15 19 –4 –15 0 ( nij nii pij ) 361 16 225 361 16 225 2 ( nij nii pij ) 2 nii pij 9,26 0,44 5,00 13,88 0,67 7,50 36,75 Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 93 Obliczona statystyka: 2 emp = r k j =1 i =1 ( nij nii pij nii pij ) 2 = 36,75 = 0,01 oraz liczby stopni swobody dla przyj;tego poziomu istotno%ci 2 0,01;2 wyraSnie przewy7sza warto:K krytyczn9 (teoretyczn9), równ9 9, 21 = (r 1)( k 1) = 2 . Zatem na poziomie istotno:ci = 0,01 hipotez; H 0 o niezale,no%ci nale7y odrzuci@. Oznacza to, 7e podawanie pacjentom nowego leku w sposób istotny poprawia ich stan zdrowia. Miar9 oceny :cis4o:ci analizowanego zwi9zku mo7e byK m.in. wspó*czynnik asocjacji Cramera E2 = 2 emp n.. min ( r 1, k 1) 36,75 = 0,18375 , 200 min ( 2,1) = przyjmuj9cy warto:ci z przedzia4u [ 0;1] . St9d te7 mamy, 7e E = 0,18375 = 0,4287 , a im warto:K E jest bli7sza jedno:ci, tym zale7no:K jest silniejsza. 9.3. ZgodnoBO rozk:adów empirycznych Cz;sto zachodzi potrzeba sprawdzenia hipotezy, 7e dwie próby (lub wi;cej prób) pochodz9 z jednej populacji, czyli 7e te populacje maj9 ten sam rozk4ad. Tutaj, podobnie jak w poprzednich przypadkach, tak7e ma zastosowanie test 2 . Przyk*ad: Zosta4a sformu4owana hipoteza, 7e cz;sto:ci wyst;powania pewnej cechy (np. X) w trzech populacjach generalnych s9 jednakowe. Na podstawie trzech losowych prób zestawiono warto:ci obserwowane w macierz liczebno%ci empirycznych. Liczba przypadków Pop. I Pop. II Pop. III z cech9 X 45 89 111 bez cechy X 15 25 38 n. j 60 114 149 ni. 245 78 323 Uogólniaj9c nasz przyk4ad, mo7emy zapisaK: Macierz liczebno:ci empirycznych Kategorie X \Populacje Y X1 X2 … Xk ni j Z. Lauda ski, D. R. Ma kowski Y1 Y2 n11 n21 … nk1 ni i … Y n12 n11 n1i n22 … n11 n2i … … … … nk 2 … nkr nk i p1i p2 i … pk i ni1 ni 2 … ni 1 nii pi i PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 94 Liczebno:ci r ni i = brzegowe: n j =1 ij ni j = , k n i =1 ij , przy czym zachodzi ni i , wyra7aj9 nii hipotetyczny rozk*ad warto%ci cechy X w badanych populacjach. Z za4o7enia zgodno%ci ni j ni i jest liczebno%ci1 teoretyczn1 dla j-tej populacji rozk*adów wynika, 7e wielko:K ni j pi i = nii Y oraz i-tej dla kategorii X. r nii = n j =1 i j Widzimy 2 emp 2 = k n i =1 i i = wi;c r k j =1 i =1 identyczno:K ( nij pi i = , a prawdopodobie,stwa brzegowe równe ni j pi i ) oblicze, prowadz9cych do wyznaczenia statystyki 2 , a tak7e techniki testowania, z przypadkiem zastosowania testu ni j pi i jako testu niezale,no%ci. ni1 p1i = ni1n1i 60 245 n n 114 245 = = 45,51 , ni2 p1i = i2 1i = = 86,47 , 323 323 nii nii ni3 p1i = ni3n1i 149 245 n n 60 78 =14,49 , = =113,02 , ni1 p2i = i1 2i = nii 323 200 nii ni2 p2i = n n 149 78 ni2n2i 114 78 = 35,98 . = = 27,53 , ni3 p2i = i3 2i = nii nii 200 200 Macierz liczebno:ci empirycznych i teoretycznych L. przypadków Pop. I Pop. II Pop. III z cech9 X 45 (45,51) 89 (86,47) 111 (113,02) bez cechy X 15 (14,49) 25 (27,53) 38 (35,98) ni j 60 114 149 2 emp Obliczenie warto:ci statystyki ni i 245 78 323 nie nastr;cza ju7 wi;kszych k4opotów. Mianowicie mamy, 7e 2 emp + (15 Uzyskana warto:K ( 2 emp ( 45 = = 0, 479 < 5,991 = 45,51) 45,51 14, 49 ) 14, 49 2 emp 2 + 2 ( 89 + ( 25 86, 47 ) 86, 47 27,53) 27,53 2 + 2 (111 + 113,02 ) 113,02 ( 38 35,98 ) 35,98 2 + 2 = 0,479 . = 0, 479 jest mniejsza od warto:ci krytycznej (z tablic) 2 0,05;2 ). 2 0,05;2 Tym samym nie mamy podstaw do odrzucenia hipotezy zerowej mówi9cej o tym, 7e cz;sto:K wyst;powania cechy X w badanych populacjach jest jednakowa, czyli badane populacje ze wzgl;du na wyst+powanie cechy X s9 jednakowe. Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 95 10. KLASYFIKACJA DANYCH STATYSTYCZNYCH Wa7nym elementem bada, empirycznych jest porównanie mi;dzy sob9 analizowanych obiektów (ro:lin, zwierz9t, gospodarstw, przedsi;biorstw, itp.) Celem tych porówna, jest zwykle odpowiedS na pytanie, czy obiekty bada, s9 do siebie podobne. Poziom oceny stopnia podobie,stwa obiektów (cech) pozwala zaliczyK je do tej samej grupy (klasy) obiektów (cech) lub wnioskowaK o braku podobie,stwa mi;dzy badanymi obiektami (cechami), a wi;c ich zró7nicowaniu. W matematycznych metodach tak rozumianej klasyfikacji danych, wykorzystuje si; zwykle pewne miary okre:laj9ce podobie,stwo par obiektów (cech). Taka miara mo7e mieK charakter: miary odleg4o:ci (distance) lub miary blisko:ci (proximity). Miary odleg4o:ci cechuj9 si; tym, 7e je7eli nast;puje ich wzrost — wtedy oznacza to zwi;kszenie zró7nicowania mi;dzy obiektami (cechami). Miary blisko:ci — odwrotnie, tzn. gdy ich warto:K ro:nie, wtedy malej9 ró7nice mi;dzy porównywalnymi obiektami (cechami). W praktycznym stosowaniu poszczególnych miar (np. korzystaj9c z pakietów statystycznych) nale7y pami;taK o charakterze posiadanych danych statystycznych oraz o przedmiocie bada,. 10.1. Analiza skupie1 (Cluster analysis) Analiza skupie, (taksonomia numeryczna) jest dziedzin9 wiedzy o zasadach porz9dkowania obiektów, gdy nic nie wiadomo o ich strukturze (klasyfikacji). Nale7y t; struktur; (podzia4 na klasy) dopiero odkryK, maj9c w dyspozycji wielocechowe dane statystyczne — opisuj9ce ka7dy z obiektów. Podzia4 zbioru obiektów na klasy odbywa si; w oparciu pewnej miary okre:laj9cej podobie,stwo par obiektów. Miara ta mo7e mieK charakter miary blisko:ci (proximity) lub miary odleg4o:ci (distance). W dalszej cz;:ci przedstawiony jest do:K znaczny zbiór tych miar maj9cych zastosowanie w obliczeniach zwi9zanych z zastosowaniem omawianej metody i wyst;puj9cy w wielu pakietach statystycznych. 10.2. Miary odleg:oBci (Dissimilarity measure) Zmienne ilo ciowe (interval), n — liczba obserwacji lub cech. Euklidesowa (Euclidean distance): d ( x, y ) = n i =1 ( xi yi ) , 2 Kwadrat Euklidesowej (squared Euclidean distance): d ( x, y ) = n i =1 ( xi yi ) , 2 Czebyszewa (Chebychev): d ( x, y ) = max xi yi , d ( x, y ) = yi , 1 i n Miejska (Block / Manhatan): n i =1 xi Minkowskiego (Minkowski): ( d ( x, y ) = 5 * Z. Lauda ski, D. R. Ma kowski n x i =1 i yi p 1 )p 4+ = p n x i =1 i yi p , PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 96 U7ytkownika (Customized): ( d ( x, y ) = 5 * n x i =1 i p yi 1 )r 4+ = n r x i =1 i yi p . Zmienne nominalne (counts), nxi , n yi – liczby obserwacji i–tych warto:ci cechy X oraz Y, gdzie: N = nx( i ) = t ( i nxi ) (n xi + n yi N ) , n( ) = ( t yi i ) (n n yi + n yi xi N ). xi nxi + yi Warto:K statystyki chi-kwadrat (Chi-squared): d ( x, y ) = (n nx( i ) t xi nx( i ) xi ) (n 2 + t n(yi ) t yi n(yi ) yi ) 2 , t Znormalizowana statystyka chi-kwadrat (Phi-squared): (n d ( x, y ) = nx( i ) t xi nx( i ) ) + t xi (n 2 yi n(yi ) t yi n(yi ) ) 2 t N . Zmienne zerojedynkowe (binary), wg tablicy kontyngencji: Y\X 0 1 0 a c 1 b d Euklidesowa (Euclidean): d ( x, y ) = b + c , Kwadrat Euklidesowej (squared Euclidean): d ( x, y ) = b + c , Ró7nica wielko:ci (size difference): d ( x, y ) = (b c) 2 ( a + b + c + d )2 ! [ 0; ' ) , Ró7nica wzorców (pattern difference): d ( x, y ) = b c ( a + b + c + d )2 ! [ 0;1] , Z. Lauda ski, D. R. Ma kowski n yi , PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH Zmienno:K (variance): d ( x, y ) = b+c ! [ 0; ' ) , 4 (a + b + c + d ) Kszta4tu (shape): d ( x, y ) = ( a + b + c + d ) (b + c) (b ( a + b + c + d )2 c) 2 , Lance'a i Williamsa (Lance and Williams): b+c ! [ 0;1] . 2 a+b+c d ( x, y ) = 10.3. Miary bliskoBci / podobie1stwa (Similarity measure) Zmienne ilo ciowe (interval), n — liczba obserwacji lub cech. Wspó4czynnik korelacji Pearsona (Pearson correlation): p ( x, y ) = i i ( xi ( xi x )( yi x) 2 i y) ( yi y) Odleg4o:K k9towa (cosine): xy i i i p ( x, y ) = x2 i i y2 i i Zmienne zerojedynkowe (binary), wg tablicy kontyngencji: Y\X 0 1 0 a c 1 b d Miara Russela i Rao (Russel and Rao): p ( x, y ) = a , a+b+c+d Miara zgodno:ci (simple matching): p ( x, y ) = a+d , a+b+c+d Miara Jaccarda (Jaccard): p ( x, y ) = Z. Lauda ski, D. R. Ma kowski a , a+b+c . 2 . 97 PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 98 Miara Czekanowskiego (Dice): p ( x, y ) = 2a , 2a + b + c Miara Hamanna (Hamann): p ( x, y ) = ( a + d ) (b + c ) ! a+b+c+d [ 1;1] , Wspó4czynnik Y Yule'a (Yule's Y): p ( x, y ) = ad bc ! [ 1;1] , ad + bc Wspó4czynnik Q Yule'a (Yule's Q): p ( x, y ) = ad bc ! [ 1;1] , ad + bc Miara Ochiai (Ochiai): p ( x, y ) = a a ! [ 0;1] , a+b a+c Zerojedynkowa wersja wspó4czynnika korelacji Persona (Phi 4-point correlation): p ( x, y ) = ad bc ( a + b )( a + c )( b + d )( c + d ) ! [ 0;1] , Miara rozproszenia (Dispersion): p ( x, y ) = ad bc ( a + b + c + d )2 ! [ 1;1] . 10.4. Analiza skupie1 (cd.) Celem stosowania metody analizy skupie, w badaniach empirycznych jest przede wszystkim uzyskanie jednorodnych podgrup obiektów badania. Uzyskany w ten sposób podzia4, oprócz „odkrycia” nieznanej struktury zjawiska, pozwala tak7e na wyodr;bnienie ich zasadniczych cech (w4a:ciwo:ci). Za4ó7my wi;c, 7e dany jest zbiór n – obiektów: Q = {O1 , O2 , , On } , z których ka7dy opisany jest za pomoc9 k — cech: X 1 , X 2 , , X k . Celem niniejszej metody jest podzia4 zbioru obiektów Q na klasy (skupienia, kategorie) — Qi ( i = 1, 2,… , m n ) obiektów spe4niaj9cych warunki: 1) Q1 + Q2 + 2) Qi Q i Qi + Qm = Q — suma tych klas daje ca4o:K zbioru obiektów, , dla i = 1, 2,… , m n , gdzie — zbiór pusty. Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 99 Co do typu kategorii (grup) obiektów Qi ( i = 1, 2,… , m n ) mo7na rozró7niK dwa przypadki: a) Qi — tzn. niektóre obiekty z badanego zbioru mog9 nale7eK do wi;cej Qj ni7 jednego podzbioru jednorodnych obiektów. Z tak9 sytuacj9 spotykamy si; na przyk4ad w szczegó4owej analizie porównawczej warto:ci :rednich obiektowych w do:wiadczeniach czynnikowych z zastosowaniem wielokrotnych testów istotno:ci (Tukey'a, Duncana, itp.), b) Qi Qj = — tzn. otrzymujemy roz49czne podzbiory badanych obiektów. W ramach przypadku b) mo7na stosowaK jedn9 z dwóch technik grupowania: 1. Hierachiczne — w ramach których skupienia tworz9 binarne drzewa, tj. skupienia wy7szego poziomu zawieraj9 w sobie skupienia z poziomu ni7szego. 2. Optymalizacyjno–iteracyjne — które dokonuj9 podzia4u zbioru badanych obiektów na m wzajemnie roz49cznych podzbiorów, przy czym liczba podgrup m jest ustalana przez badacza (np. metoda znana jako k–%rednich). 10.4.1. Hierarchiczne metody grupowania W:ród hierarchicznych metod analizy skupie, mo7na wyró7niK nast;puj9ce metody grupowania: — aglomeracyjne — polegaj9ce na sukcesywnym 49czeniu skupie, (zak4ada si;, 7e pocz9tkowo ka7dy obiekt tworzy skupienie), zob. rys. — od poziomu I-go do poziomu IV-tego. Metody te w praktycznych zastosowaniach s9 najcz;:ciej wykorzystywane. Typowym rezultatem dzia4ania tych metod s9 dendrogramy — drzewa binarne, których w;z4y odpowiadaj9 utworzonym skupieniom. — podzia*owe — polegaj9ce na sukcesywnym podziale zbioru obiektów (jedno skupienie) na kolejne poziomy skupie, (na dwie cz;:ci, trzy cz;:ci, itp.), a7 do momentu, gdy ka7dy obiekt b;dzie stanowi4 osobne skupienie, zob. rys. — od poziomu IV-go do poziomu I-go. IV III II A B C D E F I Powy7szy rysunek przedstawia grup; sze:ciu obiektów: A, B, C, D, E, F — jako poziom I o sze:ciu skupieniach, które tworz9 kolejno: poziom II — o trzech skupieniach (AB, CD, EF), poziom III — o dwóch skupieniach (ABCD, EF) oraz poziom IV — o jednym skupieniu (ABCDEF). Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 100 W ramach poszczególnych metod grupowania rozró7niamy wiele sposobów obliczania odleg4o:ci (podobie,stwa) pomi;dzy skupieniami. Cz;sto w pakietach dost;pne s9 nast;puj9ce sposoby: — :redniej odleg4o:ci mi;dzy skupieniami (Between-groups linkage) — odleg4o:K mi;dzy skupieniami A i B traktowana jest jako :rednia arytmetyczna odleg4o:ci mi;dzy wszystkimi parami obiektów nale79cych do skupie, A i B, tzn. d ( A, B ) = nA nB i =1 j =1 ( d OAi , OB j n A nB ), — :redniej odleg4o:ci wewn9trz skupie, (Within-groups linkage) — odleg4o:K mi;dzy skupieniami A i B traktowana jest jako :rednia arytmetyczna odleg4o:ci mi;dzy wszystkimi mo7liwymi parami obiektów nale79cych zarówno do skupienia A jak i skupienia B, tzn. d ( A, B ) = nA i i =2 p =1 ( ) d OAi , OAp + nA ( nA nB j j =2 q =1 1) 2 + nB ( ) d OB j , OBq + ( nB 2 1) nA nB i =1 j =1 ( d OAi , OB j ), + n A nB — najbli7szego s9siedztwa, pojedynczego wi9zania (Nearest neighbor, single linkage) — odleg4o:K mi;dzy skupieniami A i B traktowana jest jako odleg4o:K mi;dzy najbli7szymi obiektami (najbli7szymi s9siadami) nale79cymi do tych skupie,, tzn. {( d ( A, B ) = min d OAi , OB j i, j )} , i = 1, 2,…, n A , j = 1, 2,…, nB , — najdalszego s9siedztwa, pe4nego wi9zania (Furthest neighbor, complete linkage) — odleg4o:K mi;dzy skupieniami A oraz B traktowana jest jako odleg4o:K mi;dzy najbardziej odleg4ymi obiektami (najdalszymi s9siadami) nale79cymi odpowiednio do skupie, A oraz B, tzn. {( d ( A, B ) = max d OAi , OB j i, j )} , i = 1, 2,…, n A , j = 1, 2,…, nB , — :rodka ci;7ko:ci (Centroid clustering) — odleg4o:K mi;dzy skupieniami A oraz B traktowana jest jako odleg4o:K mi;dzy :rodkami ci;7ko:ci (punktem :rednich w przestrzeni wielocechowej, zdefiniowanej przez analizowane cechy) obiektów skupienia A oraz B, tzn. d ( A, B ) = d ( x A , xB ) , gdzie: x A , xB s9 :rodkami ci;7ko:ci skupie, A oraz B, — mediany (Median clustering) — odleg4o:K mi;dzy skupieniami A oraz B to mediana odleg4o:ci (:rodkowa odleg4o:K) mi;dzy obiektami nale79cymi odpowiednio do skupienia A oraz B, tzn. {( d ( A, B ) = mediana d OAi , OB j i, j )} , dla i = 1, 2,…, n A , j = 1, 2,…, nB , Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 101 — Warda (Ward's method) — odleg4o:K mi;dzy skupieniami A oraz B traktowana jest jako kwadraty odleg4o:ci mi;dzy :rodkami ci;7ko:ci skupie, a obiektami poszczególnych skupie,, tzn. metoda ta do oszacowania odleg4o:ci mi;dzy skupieniami wykorzystuje podej:cie analizy wariancji: d ( A, B ) = nA i =1 ( ) d 2 OAi , x A + nB j =1 ( ) d 2 OB j , xB , gdzie: x A , xB s9 :rodkami ci;7ko:ci dla skupie, A i B. Przy wszystkich wymienionych sposobach obliczania odleg4o:ci mi;dzy skupieniami, wykorzystywana jest macierz odleg4o:ci (podobie,stwa) mi;dzy obiektami (skupieniami) obliczana wed4ug miar oraz formu4 obliczeniowych przedstawionych wcze:niej. 10.4.2. Grupowanie metod@ k– rednich (k–means) Metody optymalizacyjno–iteracyjne, polegaj9 na optymalizacji pewnej funkcji jako:ci podzia4u zbioru obiektów na okre:lon9 (zadan9) liczb; skupie, (podgrup). Poszukiwanie ko,cowych rozwi9za, uzyskuje si; poprzez uzyskiwanie kolejnych rozwi9za, (iteracji) prowadz9cych do tego w4a:ciwego (ko,cowego) rozwi9zania. Ten proces w praktyce ko,czy si;, gdy w dwóch kolejnych iteracjach nie nast9pi zmiana struktury skupie, (ewentualnie uzyskania pewnej warto:ci progowej zmian jako:ci podzia4u) lub po wykonaniu pewnej maksymalnej (ustalanej) liczby iteracji. W ca4ym tym procesie najcz;:ciej chodzi o to, by w uzyskanym podziale zbioru obiektów na podgrupy, zró7nicowanie obiektów w podgrupach wg wybranej miary by4o jak najmniejsze, za: mi;dzy grupami — jak najwi;ksze, tzn. by skupienia w ustalonej liczbie by4y tak ró7ne, jak to tylko mo7liwe. Rozwi9zanie tego typu problemu badawczego mo7na uzyskaK przy pomocy algorytmu grupowania metod9 k–%rednich. Jest to procedura najcz;:ciej wykorzystywana w praktyce. Funkcj; kryterium podzia4u zbioru obiektów na k podzbiorów mo7na zapisaK w postaci: f (…) = k mi i =1 j =1 ( X ij Xi ) 2 , gdzie: X i — :rodek ci;7ko:ci (wielocechowy) i–tego skupienia (podgrupy), X ij — j–ty obiekt (wielocechowy) w i–tym skupieniu, k — liczba skupie,, mi — liczba obiektów w i–tym skupieniu. Celem metody k–%rednich jest wi;c znalezienie takiego podzia4u zbioru obiektów na k skupie,, który minimalizuje warto:K powy7szej funkcji. Zauwa7my tutaj pewne „podobie stwo” do metody jednoczynnikowej analizy wariancji. Mianowicie w te:cie istotno:ci jednoczynnikowej analizy wariancji dla pojedynczej cechy szacowane s9: zmienno%- mi+dzy grupami oraz zmienno%- wewn1trz grup dla weryfikacji hipotezy o równo:ci warto:ci :rednich w grupach i im F — warto:K funkcji testowej jest wi;ksza, tym jeste:my bardziej pewni, 7e warto:ci :rednie analizowanych grup s9 zró7nicowane. Natomiast w grupowaniu metod9 k–%rednich chcemy uzyskaK taki podzia4, aby uzyskaK najbardziej istotne wyniki analizy wariancji. W sytuacji idealnego podzia4u na k – skupie, otrzymaliby:my istotnie ró7ne :rednie w grupach dla ka7dej lub prawie ka7dej z analizowanych cech. Wielko:K statystyki F pochodz9cej z analizy wariancji ka7dej cechy jest wskaSnikiem tego, na ile dana cecha bierze udzia4 w dyskryminacji skupienia. Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 102 11. ANALIZA CZYNNIKOWA U podstaw analizy czynnikowej le7y za4o7enie, 7e w zespole p cech { X i ; i = 1, 2,… , p} s9 ukryte czynniki, a w najprostszym przypadku jeden, b;d9ce Sród4em wspólnej informacji tkwi9cej w nich. Celem analizy czynnikowej jest wykrycie tych wspólnych czynników, odpowiedzialnych za zachowanie si; poszczególnych cech, czy te7 poszczególnych grup cech. Tak wi;c analiza czynnikowa s4u7y tak7e do okre:lania (poszukiwania) grup cech podobnie zachowuj9cych si; wed4ug ustalonych ocen zwi9zków mi;dzy cechami, na przyk4ad wspó4czynników korelacji. Mo7na wi;c za4o7yK, 7e w poszukiwaniu wspólnych czynników najcz;:ciej wykorzystujemy macierz korelacji mi;dzy poszczególnymi cechami analizowanego zespo4u. Najbardziej upowszechnion9 metod9 wyznaczania czynników jest metoda sk*adowych g*ównych Hotellinga, polegaj9ca na przypisaniu czynnika Z j wektorowi w*asnemu dla j — tej warto%ci w*asnej macierzy korelacji. Natomiast kryterium Kaisera polega na tym, by do zespo4u czynników braK te sk4adowe, dla których warto:K w4asna przekracza 1. Mi;dzy czynnikami Z j ( j = 1, 2,…, q p ) i zmiennymi X i zachodz9 zwi9zki liniowe dla i = 1,2,… , p : X i = ai1Z1 + a12 Z 2 + + aiq Z q + biU i = q a Z j =1 ij j + biU i , a zapisane w notacji macierzowej jako: ( ) X p×1 = A p×q Z q×1 + B p× p U p×1 , gdzie B = diag b1 , b2 ,… , bp . Wspó4czynniki aij nosz9 nazw; *adunków czynnikowych czynników Z j na cech; X i . Zmienne U i s9 sk*adnikami (czynnikami) specyficznymi w ka7dej zmiennej X i . Czynniki Z j i U i s9 wewn;trznie i mi;dzy sob9 nieskorelowane. Natomiast wielko:K hi2 = q a2 j =1 ij nazywamy zasobem wspólnej zmienno%ci cechy X i determinowanej czynnikami Z j , za: wielko:K bi2 = 1 hi2 nazywamy wariancj1 specyficzn1. Suma zasobów hi2 = q j =1 aij2 daje 49czn9 determinacj; zmienno:ci wszystkich X i przez czynniki Z j . Poniewa7 suma wariancji zmiennych X i jest równa p , wi;c wspó4czynnik: RX2 Z = 1 p p i =1 hi2 = 1 p p q i =1 j =1 aij2 , jest zespo4owym wspó*czynnikiem determinacji. Suma kwadratów 4adunków mo7e byK rozdzielona na cz;:ci, przypisane poszczególnym czynnikom Z j , tzn. -j = p i =1 aij2 ( j = 1, 2,…, q ) , okre:laj9c9 jego wag; w determinacji zmienno:ci zbioru { X i } . Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 103 11.1. Rotacje czynników, metoda varimax Niech Q oznacza macierz korelacji zmiennych {Xi} . Oznaczaj9c przez A macierz o elementach aij oraz p wierszach i q kolumnach, mo7emy zapisaK macierz korelacji ( ) ( ) Q = AAT + V , gdzie B 2 = V , czyli V = diag b12 , b22 ,… , bp2 , za: Q = E XXT . Otó7 je7eli macierz D jest macierz9 ortogonaln9, to transformacja czynników Z2 = ZD nie zmienia struktury macierzy korelacji Q , poniewa7 ( AD )( AD )T = ADDT AT = AAT . Transformacji D geometrycznie odpowiada obrót kierunków g4ównych okre:laj9cych sk4adowe g4ówne. Mo7na dokonaK obrotu tak, aby 4adunki przy cechach maksymalnie si; ró7nicowa4y, przez co otrzymuje si; ich prostsz9 interpretacj;. St9d warunek by warians *adunków by4 maksymalny ( var a = max! ), prowadzi do metody varimax, daj9cej maksymalne zró7nicowanie 4adunków w ramach czynnika. Przyk*ad: Dane pocz9tkowe i oceny warto:ci czynników g4ównych Dane pocz9tkowe Oceny L P X1 X2 X3 X4 X5 F1 F2 1 1,53 114,01 0,75 12,65 1,96 1,29966 –0,44444 2 0,18 79,53 0,67 13,30 5,28 0,16175 2,24022 3 1,90 105,63 0,85 12,62 1,71 1,54248 –0,70054 4 0,91 45,62 0,11 13,14 6,24 –0,87322 1,70228 5 1,27 79,48 0,50 12,95 3,61 0,37869 0,60940 6 1,52 52,08 0,36 12,57 4,10 –0,18745 –0,26739 7 1,32 83,87 0,58 12,77 2,53 0,57096 –0,07796 8 1,04 33,94 0,29 12,85 0,04 –0,53311 –0,81805 9 0,70 72,94 0,59 12,61 4,94 0,01145 0,44298 10 1,54 34,22 0,30 12,99 3,66 –0,34385 0,42427 11 0,75 50,39 0,46 12,68 6,45 –0,48357 0,92079 12 1,22 35,04 0,21 12,88 2,42 –0,62866 –0,10550 13 1,31 65,25 0,70 12,76 3,98 0,47475 0,30293 14 0,64 0,00 0,16 12,77 3,96 –1,52738 0,15888 15 0,00 39,65 0,30 12,75 4,12 –1,15052 0,52626 16 1,93 74,27 0,71 12,65 0,00 1,02120 –1,29301 17 2,70 96,93 0,77 12,87 1,32 1,79728 –0,56077 18 1,78 65,29 0,39 12,40 1,25 0,18555 –1,52887 19 1,71 70,57 0,52 12,46 1,36 0,45296 –1,28117 20 0,44 75,09 0,62 12,91 4,63 0,05342 1,08298 21 2,49 124,00 0,78 13,14 3,71 2,03699 0,90104 22 1,61 101,89 0,66 12,92 3,57 1,07240 0,54644 23 0,75 15,26 0,25 12,46 0,31 –1,09198 –1,55199 24 0,17 5,05 0,00 12,47 1,74 –1,96442 –1,02693 25 1,13 33,39 0,36 12,75 0,46 –0,42248 –0,91512 26 1,38 81,35 0,55 13,10 4,49 0,55698 1,16760 27 0,44 34,97 0,23 12,80 4,52 –1,08841 0,59665 28 0,47 17,89 0,11 12,71 3,53 –1,47427 –0,00743 29 1,40 60,57 0,48 12,30 0,92 0,06964 –1,71237 30 0,71 56,68 0,68 12,89 3,79 0,08317 0,66882 Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 104 Dane pocz9tkowe — macierz korelacji liniowej X1 X2 X3 X4 X5 X1 1 ,631(**) ,555(**) –,030 –,399(*) X2 ,631(**) 1 ,895(**) ,244 ,032 X3 ,555(**) ,895(**) 1 ,163 –,045 X4 –,030 ,244 ,163 1 ,533(**) X5 –,399(*) ,032 –,045 ,533(**) 1 Analiza czynnikowa — zasoby zmienno:ci wspólnej, RX2 Z = 1 p p i =1 hi2 = 0,82 Pocz9tkowe Po wyodr;bnieniu Wariancja specyficzna 1,000 ,759 0,241 1,000 ,925 0,075 1,000 ,855 0,145 1,000 ,736 0,264 1,000 ,823 0,177 X1 X2 X3 X4 X5 Metoda wyodr+bniania czynników — g*ównych sk*adowych. % skumulowany Ogó4em % wariancji % skumulowany 48,981 81,974 92,254 98,310 100,000 % wariancji % skumulowany 48,981 32,993 10,280 6,056 1,690 Sumy kwadratów 4adunków po rotacji Ogó4em % wariancji 2,449 1,650 ,514 ,303 ,085 2,449 1,650 48,981 32,993 48,981 81,974 2,449 1,650 48,981 32,994 48,981 81,974 Wykres osypiska 2,5 2,0 WartoBO w:asna 1 2 3 4 5 Sumy kwadratów 4adunków po wyodr;bnieniu Ogó4em Nr sk4adowej Ca4kowita wyja:niona wariancja Pocz9tkowe warto:ci w4asne 1,5 1,0 0,5 0,0 1 2 3 4 5 Numer sk:adowej Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 105 Macierz sk4adowych X2 X3 X1 X5 X4 Sk4adowa 1 2 ,946 ,172 ,919 ,100 ,805 –,334 –,160 ,893 ,188 ,837 Liczba wyodr+bnionych sk*adowych — 2. Macierz rotowanych sk4adowych X2 X3 X1 X5 X4 Sk4adowa 1 2 ,946 ,174 ,919 ,102 ,805 –,332 –,162 ,893 ,186 ,838 Metoda rotacji – Varimax z normalizacj1 Kaisera. Rotacja osi1gn+*a zbie,no%- w 3 iteracjach. Wykres sk:adowych w rozwi@zaniu rotowanym X5 0,9 X4 Sk:adowa 2 0,6 0,3 X2 X3 0,0 X1 -0,3 -0,6 -0,9 -0,9 -0,6 -0,3 0,0 0,3 0,6 Sk:adowa 1 Uk4ad wspó4rz;dnych dwóch pierwszych sk4adowych (biplot) Macierz wspó4czynników ocen g4ównych sk4adowych X1 X2 X3 X4 X5 Z. Lauda ski, D. R. Ma kowski Sk4adowa 1 2 ,329 –,202 ,386 ,105 ,375 ,061 ,076 ,508 –,066 ,541 0,9 PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 106 Macierz kowariancji ocen g4ównych sk4adowych Sk4adowa 1 2 1 1,000 ,000 2 ,000 1,000 Wspó4czynniki korelacji mi;dzy cechami a „odkrytymi” czynnikami X1 X2 X3 X4 X5 F1 F2 X1 1 ,631(**) ,555(**) –,030 –,399(*) ,805(**) –,332 X2 ,631(**) 1 ,895(**) ,244 ,032 ,946(**) ,174 X3 ,555(**) ,895(**) 1 ,163 –,045 ,919(**) ,102 X4 –,030 ,244 ,163 1 ,533(**) ,186 ,838(**) X5 –,399(*) ,032 –,045 ,533(**) 1 –,162 ,893(**) F1 ,805(**) ,946(**) ,919(**) ,186 –,162 1 ,000 F2 –,332 ,174 ,102 ,838(**) ,893(**) ,000 1 Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 107 III. SWICZENIA POKAZOWE W ramach praktycznego wykorzystania prezentowanej wiedzy oraz prezentacji analitycznego oprogramowania statystycznego, przyk4ady w ramach Kwicze, pokazowych b;d9 realizowane z wykorzystaniem Systemu SAS®. Jest to pakiet oprogramowania przeznaczonego do analiz statystycznych. W jego sk4ad wchodzi :rodowisko programistyczne SAS®, aplikacja graficzna SAS Enterprise Guide® oraz opcjonalnie :rodowisko JMP®. Szczegó4owe informacje odno:nie prezentowanego oprogramowania, oraz pe4n9 dokumentacj; mo7na znaleSK na stronie: http://www.sas.com/offices/europe/poland/. Dokumentacj; do modu4ów BASE SAS i SAS/STAT w wersji elektronicznej do49czono do p4yty CD z materia4ami z niniejszego szkolenia. W opisie kodów procedur w j;zyku 4GL przyj;to nast;puj9c9 konwencj;: — kolorem czarnym podano w4a:ciw9 procedur; 4GL; — wielkimi literami podano polecenia sk4adni procedur; — ma4ymi literami i kursyw9 podano miejsca odwo4a, do bibliotek/zbiorów lub zmiennych ze zbiorów danych; — kolorem niebieskim podano procedury uzupe4niaj9ce, dzi;ki którym mo7liwa jest efektowniejsza prezentacja uzyskanych wyników (procedury te mo7na pomin9K); — s4owo ‘opcje’ oznacza mo7liwo:K modyfikacji polece, poprzez dodawanie ró7nego rodzaju opcji; Sk4adnie procedur podano w wersji uproszczonej, to znaczy wymieniaj9c tylko omawiane polecenia. Pe4na sk4adnia procedur znajduje si; w dokumentacji oprogramowania oraz w plikach pomocy. 1. PRAWID OWE PRZYGOTOWANIE DANYCH DO ANALIZ Zdecydowana wi;kszo:K programów analitycznych wymaga specyficznego przygotowania zbiorów danych do analiz statystycznych. Dane przygotowywane do oblicze, w Systemie SAS® równie7 powinny byK w ten sposób przygotowane. Dane zestawiane s9 w formie tabeli ‘p4askiej’, gdzie kolejne kolumny traktuje si; jako kolejne zmienne (cechy), a wiersze jako kolejne przypadki (obserwacje). Pierwszy wiersz tabeli zawiera nazwy kolumn. Nazwy kolumn powinny byK zapisane alfabetem mi;dzynarodowym (nie zawieraj9cym nazw narodowych, np. 9, ;, 7, …), ani 7adnych symboli specjalnych (kropek, my:lników, itp.) oraz spacji, wyj9tek stanowi tzw. znak podkre:lenia ( _ ). Tak wi;c nazwa ‘plon j;czmienia’ jest nazw9 nieprawid4ow9, forma poprawna powinna mieK postaK ‘plon_jeczmienia’. Obserwacje wpisujemy jedna pod drug9. Puste komórki tabeli uwa7ane s9 za braki danych. Niedopuszczalne s9 nast;puj9ce formy wprowadzania danych: Odmiana Grana Begra … Z. Lauda ski, D. R. Ma kowski Rok Plon 2004 2005 2006 2004 2005 2006 … ZK 36,5 32,2 28,7 40,3 38,2 22,1 … 90 92 88 94 90 86 … PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 108 Odmiana Grana Begra Plony w dt/ha 2004 36,5 40,3 2005 32,2 38,2 2006 28,7 22,1 grana begra ZK w % 2004 90 94 2005 92 90 2006 88 86 Poprawnie wprowadzone dane powinny mieK postaK: Odmiana Grana Grana Grana Begra Begra Begra … Rok Plon 2004 2005 2006 2004 2005 2006 … ZK 36,5 32,2 28,7 40,3 38,2 22,1 … 90 92 88 94 90 86 … Do przygotowania zbioru Sród4owego danych najwygodniej jest u7yK arkusza kalkulacyjnego, np. Ms Excel. Je7eli do przygotowania tabeli z danymi wykorzystuje si; Excela, wiersz z nag4ówkiem powinien zaczynaK si; w komórce A1. W arkuszu po za danymi nie powinno si; znajdowaK nic wi;cej. Przed przeniesieniem danych ze zbioru Sród4owego do oprogramowania analitycznego, nale7y upewniK si;, czy stosowany pakiet analityczny obs4uguje format w jakim dane zosta4y zapisane. System SAS® w pe4ni obs4uguje mi;dzy innymi nast;puj9ce formaty zapisu: — Arkusz kalkulacyjny Ms Excel 97, 2000, 2002, XP, 2003; — Arkusz kalkulacyjny Ms Excel 5, 95; — Arkusz kalkulacyjny Ms Excell 4; — Pliki bazy danych Ms Access 2000, 2002, XP, 2003; — Pliki bazy danych Ms Access 97 — Pliki dBase — Pliki JMP — Arkusz kalkulacyjny Lotus 1-2-3 — Bazy danych ORACLE — Bazy danych MySQL — Pliki SPSS — Pliki XML — … itd. Przed wykonaniem oblicze, nale7y ostatecznie sprawdziK, czy w zbiorze z danymi nie ma b4;dów. Najdrobniejszy b49d w danych (Sle postawiony przecinek dziesi;tny, z4a wielko:K liter, tzw. „literówka”, itp.) mo7e w znacz9cy sposób zmieniK wyniki analiz i uniemo7liwiK prawid4owe wnioskowanie. Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 109 2. WCZYTYWANIE DANYCH DO SYSTEMU SAS® 2.1. SAS Enterprise Guide® Program SAS Enterprise Guide® (EG) jest graficznym narz;dziem Systemu SAS® przeznaczonym do wykonywanie podstawowych operacji na danych, tworzeniu wykresów oraz przeprowadzaniu prostych analiz statystycznych. Wi;kszo:K operacji wykonuje si; w :rodowisku graficznym. EG wczytuje wszystkie typy plików obs4ugiwane przez System SAS®. Aby rozpocz9K prac; w programie nale7y zdecydowaK czy rozpoczynany b;dzie nowy projekt (zestaw analiz) czy te7 b;dzie wykorzystywany istniej9cy ju7 projektu (rys. I.4.1). Rys. I.4.1. Okno wyboru projektu programu SAS Enterprise Guide®. Okno robocze EG (rys. I.4.2) zbudowane jest z menu i paska narz;dzi (1), eksploratora projektów (2), okna statusu zada, (3), listy zada, (4) oraz okna procesu (5). 1 2 5 4 3 Rys. I.4.2. Okno robocze programu SAS Enterprise Guide®. Nast;pnie mo7na przyst9piK doczytania zbioru z danymi. W tym celu z menu ‘Plik’ wybiera si; opcj; ‘Otwórz’, a nast;pnie ‘Dane’ (‘Plik’ ‘Otwórz’ ‘Dane’). W kolejnym kroku nale7y wskazaK miejsce, z którego dane b;d9 wczytywane (rys. I.4.3). Z. Lauda ski, D. R. Ma kowski 110 PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH Rys. I.4.3. Okno wyboru Sród4a danych EG. Po wybraniu Sród4a (je7eli dane znajduj9 si; na komputerze, na którym uruchomiono EG, nale7y wybraK opcj; „Komputer lokalny”) nale7y wskazaK plik z danymi. Je7eli wczytywany zbiór jest w formacie SAS® (‘.sas7bdat’), to dane zostan9 natychmiast wczytane, je7eli natomiast dane zapisane s9 w innym formacie, musz9 zostaK odpowiednio zaimportowane. W przypadku plików arkusz kalkulacyjnego Ms Excel (‘.xls’) program zapyta, który arkusz ma zostaK zaimportowany (rys. I.4.4), a nast;pnie zapyta w jaki sposób dane maj9 zostaK zaimportowane (rys. I.4.5). Rys. I.4.4. Wybór arkusza przy imporcie danych zapisanych w formacie Ms Excel do EG. Rys. I.4.5. Okno wyboru sposobu importu danych. Je7eli zostanie wybrana opcja „otworzyK plik jako zbiór SAS-owy”, u7ytkownik w kolejnych krokach b;dzie musia4 ustawiK wszystkie w4a:ciwo:ci danych i ich formaty, dlatego, je7eli dane s9 ju7 prawid4owo przygotowane, najlepiej jest wybraK pierwsz9 opcj;, czyli „wy:wietliK plik jako taki”. Wybór pierwszej opcji sprawi, 7e dane zostan9 zaimportowane zgodnie, a formatowanie i w4a:ciwo:ci danych zostan9 ustawione automatycznie. Nast;pnie dane zostan9 wy:wietlone w oknie projektu, a na schemacie przebiegu procesów pojawi si; ikona symbolizuj9ca dane (rys. I.4.6). Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 111 Rys. I.4.6. Fragment schematu przebiegu procesu z ikon9 symbolizuj9ca dane. 2.2. rodowisko programistyczne SAS® erodowisko graficzne EG jakkolwiek 4atwe w obs4udze, nie pozwala na wykorzystanie wszystkich mo7liwo:ci jakie posiada System SAS®. Wszystkie nawet najbardziej skomplikowane analizy mo7na natomiast wykonaK korzystaj9c z tak zwanego „:rodowiska programistycznego” (rys. I.4.7). Wszystkie analizy i procesy wykonuje si; za pomoc9 tzw. procedur (proc-stepów) lub data-stepów zbudowanych w j;zyku 4GL. Rys. I.4.7. Wygl9d :rodowiska programistycznego Systemu SAS®. Dane s9 gromadzone w bibliotekach (‘Library’). Do podgl9du bibliotek i danych s4u7y okno eksploratora (rys. I.4.8). W systemie znajduj9 si; biblioteki systemowe (stworzone podczas instalacji oprogramowania) jak i biblioteki za4o7one przez u7ytkownika. Rys. I.4.8. Okno eksploratora z widocznymi bibliotekami systemowymi. Jedna biblioteka systemowa o nazwie ‘Work’ ma wyj9tkowe zadanie. Jest to biblioteka tymczasowa. Oznacza to, 7e wszystkie zbiory danych, jakie zostan9 w niej umieszczone b;d9 dost;pne tylko przez okres pracy programu. Po zamkni;ciu aplikacji zawarto:K tej biblioteki jest kasowana. Dodatkowo w procedurach, podczas odwo4ywania si; do zbiorów danych znajduj9cych si; w tej bibliotece nie trzeba podawaK jej nazwy. Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 112 Zak7adanie biblioteki Istnieje kilka sposobów zak4adania bibliotek danych. Najwygodniejsze jest wykorzystanie graficznego kreatora. W tym celu na pasku narz;dzi nale7y klikn9K na przycisku ‘’ (rys. I.4.9). Rys. I.4.9. Przycisk uruchamiaj9cy kreatora zak4adania biblioteki. Wy:wietlone zostanie okno kreatora (rys. I.4.10). Nale7y podaK nazw; nowej biblioteki (8 znaków bez cyfr i znaków specjalnych), wskazaK lokalizacj; folderu na dysku twardym przypisanego do tworzonej biblioteki (to tam b;d9 przechowywane zbiory danych). Aby biblioteka zosta4a za4o7one na trwa4e nale7y dodatkowo zaznaczyK opcj; ‘W49cz przy uruchomieniu’. Rys. I.4.10. Okno kreatora zak4adania biblioteki. W przypadku usuni;cia biblioteki, zostanie usuni;ty tylko wpis informuj9cy o bibliotece w programie, folder z danymi pozostanie jednak na dysku twardym komputera. Procedury pisane w j;zyku 4GL najcz;:ciej odwo4uj9 si; do zbiorów danych. Lokalizacj; danych podaje si; w postaci: nazwa_biblioteki..nazwa_zbioru np.: ‘kurs.dane1’ — oznacza zbiór dane1 z biblioteki Kurs. Import danych z pliku Ms Excell Najcz;stsz9 operacj9 importu jest wczytanie danych zapisanych w arkuszu kalkulacyjnym Ms Excel. Aby uruchomiK kreatora importu (rys. I.4.11) z menu ‘Plik’ nale7y wybraK opcj; ‘Importuj dane…’ (‘Plik’ ‘Importuj dane…’). Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 113 Rys. I.4.11. Pierwsze okno kreatora importu danych. W oknie tym wybiera si; rodzaj importowanego pliku. Nale7y zwróciK uwag;, 7e do wyboru s9 a7 trzy rodzaje plików Excela, zale7nie od wersji arkusza kalkulacyjnego. Po wyborze typu Sród4a danych nale7y wcisn9K przycisk ‘Dalej’. W kolejnym oknie nale7y wskazaK lokalizacj; pliku z danymi, a nast;pnie wybraK, który arkusz ze skoroszytu Excela ma byK zaimportowany. Kolejnym krokiem jest wybór biblioteki do której importowane dane maj9 zostaK do49czone i nadanie nazwy tabeli danych (rys. I.4.12). Rys. I.4.12. Wybór biblioteki i nadanie nazwy tabeli danych. Po wykonaniu tych operacji nale7y wcisn9K przycisk ‘Koniec’. Je7eli dane by4y przygotowane we w4a:ciwy sposób (tak jak podano wcze:niej) to we wskazanej bibliotece pojawi si; nowa tabela z zaimportowanymi danymi, a w oknie logu pojawi si; komunikat: ‘UWAGA: biblioteka.dane utworzono’. Po dwukrotnym klikni;ciu na ikonie reprezentuj9cej w oknie eksploratora zbiór danych, zostanie on otwarty do podgl9du. Z. Lauda ski, D. R. Ma kowski 114 PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH Dane do Cwicze pokazowych Wszystkie dane prezentowane w niniejszym szkoleniu zosta4y do49czone do p4yty CD z materia4ami szkoleniowymi. znajduj9 si; one w folderze ‘Kurs’. Dane zapisane s9 w formacie SAS’a. Wystarczy przekopiowaK na dysk twardy komputera ca4y folder ‘Kurs’, a nast;pnie za4o7yK w Systemie SAS® bibliotek; o nazwie ‘Kurs’ odnosz9c9 si; do tego folderu. Na p4ycie CD w folderze ‘Kody SAS 4GL’ zapisano wszystkie prezentowane kody w j;zyku 4GL opatrzone niezb;dnym komentarzem. Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 115 3. PODSTAWOWE ANALIZY STATYSTYCZNE 3.1. Statystyki opisowe 3.1.1. SAS Enterprise Guide® Analiza rozk7adu Analiza rozk4adu znajduje si; w menu ‘Opisz’ (‘Opisz’ ‘Analiza rozk adu…’). Jest odpowiednikiem procedury UNIVARIATE w :rodowisku programistycznym. Pozwala na wy:wietlenie podstawowych statystyk oraz zbadanie zgodno:ci rozk4adu cechy losowej z rozk4adami teoretycznymi (mi;dzy innymi z rozk4adem normalnym), a tak7e pozwala na wykonanie histogramów, wykresów probabilistycznych, wykresów kwantyli oraz wykresów pude4kowych. Statystyki agregujDce Statystyki agreguj9ce znajduj9 si; w menu ‘Opisz’ (‘Opisz’ ‘Statystyki agreguj/ce…’). S9 odpowiednikiem procedury MEANS w :rodowisku programistycznym. S4u79 do wyznaczania parametrów rozk4adów cech losowych (np.: warto:K :rednia, wariancja, odchylenie standardowe, wspó4czynnik zmienno:ci, przedzia4y ufno:ci dla warto:ci :redniej, itp.) oraz do przygotowywania histogramów i wykresów pude4kowych. 3.1.2. rodowisko programistyczne PROC UNIVARIATE Procedura UNIVARIATE jest elementem modu4u BASE SAS. S4u7y ona do: — wyznaczania statystyk opisowych bazuj9cych na estymacji punktowej parametrów rozk4adów cech ci9g4ych; — wyznaczania statystyk dopasowania rozk4adu cechy ci9g4ej do rozk4adów teoretycznych, w tym do rozk4adu normalnego; — wyznaczania frakcji cechy losowej; — przygotowania histogramów z dopasowaniem do rozk4adu teoretycznego; — przygotowania wykresów probabilistycznych zgodno:ci cechy losowej z rozk4adem teoretycznym. Sk4adnia procedury ma postaK: PROC UNIVARIATE <opcje>; BY zmienne_grupujace; VAR lista_zmiennych; HISTOGRAM lista_zmiennych /<opcje>; PROBPLOT lista_zmiennych /<opcje>; RUN; QUIT; Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 116 Przyk7ad: Wyznaczenie podstawowych statystyk dla zmiennej ‘MTN’ (masa tysi9ca nasion) w zbiorze ‘Lubin_zaprawa’ (dane pochodz9ce z do:wiadczenia z 4ubinem 7ó4tym) z biblioteki ‘Kurs’. Testowanie normalno:ci rozk4adu cechy, wyznaczenie frakcji, przygotowanie histogramu i wykresu probabilistycznego. ODS HTML; PROC UNIVARIATE DATA=kurs.lubin_zaprawa NORMAL FREQ; VAR mtn; HISTOGRAM mtn /NORMAL (COLOR=RED W=2); PROBPLOT mtn/NORMAL (MU=EST SIGMA=EST COLOR=RED W=2); RUN; QUIT; ODS HTML CLOSE; PROC MEANS Procedura MEANS jest elementem modu4u BASE SAS. S4u7y do wyznaczania podstawowych statystyk cech ilo:ciowych, np.: — liczba obserwacji, liczb; braków danych; — warto:K :rednia; — wariancja i odchylenie standardowe; — standardowy b49d oceny :redniej; — przedzia4 ufno:ci dla :redniej; — minimum, maksimum, rozst;p; — wspó4czynnik zmienno:ci; — itp. Sk4adnia procedury ma postaK: PROC MEANS <opcje>; BY zmienne_grupujace; VAR lista_zmiennych; RUN; Domy:lnie procedura MEANS wyznacza dla analizowanych danych liczbowych: liczb; obserwacji, warto:K :redni9, odchylenie standardowe, minimum i maksimum. Aby wyznaczyK inne parametry, nale7y wymieniK w opcjach procedury, które parametry maj9 byK wyznaczone. Do wskazywania parametrów wykorzystuje si; nast;puj9ce s4owa kluczowe: CLM CV KURT MAX MEAN MIN N NMISS RANGE przedzia4 ufno:ci dla :redniej wspó4czynnik zmienno:ci [%] kurtoza maksimum warto:K :rednia minimum liczba obserwacji liczba braków danych rozst;p SKEW STD STDERR SUM VAR MEDIAN Q1 Q3 sko:no:K odchylenie standardowe standardowy b49d :redniej suma wariancja mediana górny kwartyl dolny kwartyl Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 117 Przyk7ady: Domy:lne statystyki dla zmiennej ‘wschody_polowe’ ze zbioru ‘Lubin_zaprawa’ w bibliotece ‘Kurs’. ODS HTML; PROC MEANS DATA = kurs.lubin_zaprawa; VAR wschody_polowe; RUN; ODS HTML CLOSE; Domy:lne statystyki dla zmiennej ‘wschody_polowe’ i ‘MTN’ ze zbioru ‘Lubin_zaprawa’ oddzielnie dla ka7dego roku bada, (zbiór musi byK posortowany po zmiennej ‘rok’). ODS HTML; PROC MEANS DATA = kurs.lubin_zaprawa; BY rok; VAR wschody_polowe mtn; RUN; ODS HTML CLOSE; erednia, wariancja, odchylenie standardowe, wspó4czynnik zmienno:ci, przedzia4 ufno:ci (przy q = 0.01) oraz rozst;p dla zmiennych ‘fung_1’, ‘fung_2’, fung_3’ i ‘fung_4’ (od ‘fung_1’ do ‘fung_4’) ze zbioru ‘Jeczmien_grzyby’. ODS HTML; PROC MEANS DATA = kurs.jeczmien_grzyby ALPHA = 0.01 MEAN VAR STD CV CLM RANGE; VAR fung_1 -- fung_4; RUN; ODS HTML CLOSE; 3.2. Testy t 3.2.1. SAS Enterprise Guide® Test t Testy t znajduj9 si; w menu ‘Analizuj’ w grupie ‘ANOVA’ (‘Analizuj’ ‘ANOVA’ ‘Test t’). S9 odpowiednikiem procedury TTEST w :rodowisku programistycznym. S4u79 do wykonywania testów t dla porównania warto:ci :redniej z norm9, porównania dwóch warto:ci :rednich oraz porównania dwóch warto:ci :rednich dla danych skorelowanych (tzw. „test sparowany”). Ponad to umo7liwia wykonanie wykresów pude4kowych i wykresów warto:ci :rednich. Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 118 3.2.2. rodowisko programistyczne PROC TTEST Procedura TTEST jest elementem modu4u SAS/STAT. Pozwala ona na przeprowadzenie test t-Studenta dla: — porównania warto:ci :redniej z norm9: temp = x m0 n s — porównania dwóch warto:ci :rednich (przy za4o7eniu równych i nierównych wariancji): temp = t 'emp = ( x1 x2 ) m0 2 1 s s2 + 2 n1 n2 ( x1 x2 ) m0 przy df = 2 1 = s12 s22 + n1 n2 2 dla Sr 2 1 2 2 2 2 2 2 s s n1 n + 2 n1 1 n2 1 dla 2 1 2 2 — porównania dwóch ‘sparowanych’ (skorelowanych) warto:ci :rednich: temp = d m0 sd2 n Jednocze:nie podczas przeprowadzania testu t dla ró7nicy dwóch warto:ci :rednich procedura TTEST wykonuje test F porównania dwóch wariancji: Femp = s12 s22 Sk4adnia procedury ma postaK: PROC TTEST <opcje>; BY zmienne_grupujace; CLASS zmienna_klasyfikujaca; VAR lista_zmiennych; PAIRED lista_par; RUN; Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 119 Przyk7ady: Porównanie :redniej z wzorcem. Dla zbioru ‘Lubin_zaprawa’ sprawdziK czy :rednia ‘MTN’ wynosi 180 g. H 0 : m = m0 ODS HTML; PROC TTEST DATA = kurs.lubin_zaprawa H0 = 180; VAR mtn; RUN; ODS HTML CLOSE; Porównanie dwóch warto:ci :rednich. Dla zbioru ‘Lubin_zaprawa’ sprawdziK czy :rednie warto:ci ‘MTN’ w latach 2004 i 2005 by4y sobie równe. H 0 : m1 m2 = m0 dla m0 = 0 F H 0 : m1 = m2 ODS HTML; PROC TTEST DATA = kurs.lubin_zaprawa H0 = 0; CLASS rok; VAR mtn; RUN; ODS HTML CLOSE; 3.3. Analiza wariancji 3.3.1. SAS Enterprise Guide® ANOVA jednoczynnikowa Jednoczynnikowa ANOVA znajduje si; w menu ‘Analizuj’ w grupie ‘ANOVA’ (‘Analizuj’ ‘ANOVA’ ‘ANOVA jednoczynnikowa…’). Jest odpowiednikiem procedury ANOVA w :rodowisku programistycznym. S4u7y do wykonywania testu F analizy wariancji dla uk4adu jednoczynnikowego, ca4kowicie losowego. Pozwala równie7 na przeprowadzenie porówna, wielokrotnych i na wykonanie testów homogeniczno:ci wariancji (homoskedastyczno:ci zmiennych). Równie7 mo7na wykonaK wykresy pude4kowe i wykresy warto:ci :rednich. 3.3.2. Lrodowisko programistyczne PROC ANOVA / PROC GLM W Systemie SAS® do przeprowadzenia testu F analizy wariancji mo7na wykorzystaK dwie procedury: ANOVA i GLM. Procedura ANOVA pozwala na przeprowadzenie prostej analizy wariancji dla uk4adów kompletnych, ortogonalnych (pozbawionych braków danych). Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 120 Procedura GLM jest procedur9 bardziej zaawansowan9, pozwala na wykonanie analizy wariancji dla dowolnych uk4adów. W literaturze zaleca si; stosowanie procedury GLM. Sk4adnia procedury ma postaK: PROC GLM <opcje>; BY zmienne_grupujace; CLASS zmienne_klasyfikujace; MODEL zmienna_zalezna = zmienne_klasyfikujace; MEANS zmienne_klasyfikujace /opcje; RUN; QUIT; Przyk7ad: Za pomoc9 analizy wariancji sprawdziK czy istniej9 ró7nice pomi;dzy liniami j;czmienia w stopniu pora7enia grzybami oznaczonymi jako ‘fung_1’ w zbiorze ‘Jeczmien_grzyby’. Dodatkowo wykonaK testy Tukeya, Duncana oraz Dunnetta (obustronny, wzorzec – linia ‘1’). ODS HTML; PROC GLM DATA = kurs.jeczmien_grzyby; CLASS linia; MODEL fung_1 = linia; MEANS linia / TUKEY; MEANS linia / DUNCAN; MEANS linia / DUNNETT ('1'); RUN; QUIT; ODS HTML CLOSE; Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 121 4. PLANOWANIE EKSPERYMENTU 4.1. rodowisko programistyczne SAS® PROC PLAN Procedur PLAN jest elementem modu4u SAS/STAT. Pozwala ona na: — przygotowanie listy kombinacji i permutacji liczb; — rozlosowanie i przygotowanie planów do:wiadcze,; — rozlosowanie mi;dzy innymi: o uk4adów ca4kowicie losowych i uk4adów blokowych, o uk4adów bloków niekompletnych, o uk4adów kwadratu 4aci,skiego i greko-4aci,skiego, — przygotowanie zbiorów do wprowadzania danych. Sk4adnia procedury ma postaK: PROC PLAN <opcje>; FACTORS lista_czynników </NOPRINT>; TREATMENTS lista_czynników; OUTPUT OUT = zbiór_sas <opcje czynników>; RUN; QUIT; Przyk7ady: Rozlosowanie do:wiadczenia jednoczynnikowego w uk4adzie losowanych bloków (4 bloki, 5 poziomów czynnika A). PROC PLAN; FACTORS Bloki = 4 ORDERED Czynnik_a = 5 RANDOM /NOPRINT; OUTPUT OUT = plan_1; RUN; QUIT; ODS LISTING CLOSE; ODS HTM; PROC PRINT DATA = plan_1 NOOBS; RUN; ODS HTML CLOSE; ODS LISTING; Z. Lauda ski, D. R. Ma kowski 122 PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH Rozlosowanie do:wiadczenia jednoczynnikowego w uk4adzie kwadratu 4aci,skiego (4 wiersze, 4 kolumny, 4 poziomy czynnika A). PROC PLAN; FACTORS wiersz = 4 ORDERED kolumna = 4 ORDERED /NOPRINT; TREATMENTS Czynnik_a = 4 CYCLIC; OUTPUT OUT = plan_2 wiersz ORDERED kolumna ORDERED Czynnik_a RANDOM; RUN; QUIT; ODS LISTING CLOSE; ODS HTML; PROC PRINT DATA = plan_2 NOOBS; RUN; PROC TABULATE; CLASS wiersz kolumna; VAR Czynnik_a; TABLE wiersz, kolumna * (Czynnik_a =" * f = 6.) * sum=''; RUN; ODS HTML CLOSE; ODS LISTING; Do:wiadczenie jednoczynnikowe w uk4adzie losowanych bloków — niekompletne (12 poziomów czynnika — po 10 w bloku, 5 bloków). PROC PLAN; FACTORS Bloki = 5 ORDERED Czynnik_a = 10 OF 12 CYCLIC /NOPRINT; OUTPUT OUT = plan_3 Bloki ORDERED Czynnik_a RANDOM; RUN; QUIT; ODS LISTING CLOSE; ODS HTML; PROC PRINT DATA = plan_3 NOOBS; RUN; ODS HTML CLOSE; ODS LISTING; Rozlosowanie do:wiadczenia dwuczynnikowego w uk4adzie split-plot (4 bloki, 3 poziomy czynnika A, 5 poziomów czynnika B). ODS LISTING CLOSE; ODS HTML; PROC PLAN; FACTORS bloki = 4 ORDERED czynnik_a = 3 RANDOM czynnik_b = 5 RANDOM; OUTPUT OUT = plan_4 bloki ORDERED czynnik_a RANDOM czynnik_b RANDOM; RUN; QUIT; PROC PRINT DATA = plan_4 NOOBS; RUN; ODS HTML CLOSE; ODS LISTING; Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 123 Do:wiadczenie dwuczynnikowe w uk4adzie hierarchicznym split-blok (4 pasy — czynnik A, 3 powtórzenia, 7 poziomów czynnika B). PROC PLAN; FACTORS pasy = 4 ORDERED powt = 3 ORDERED czynnik_b = 7 RANDOM /NOPRINT; OUTPUT OUT = plan_5 pasy ORDERED powt ORDERED czynnik_b RANDOM; RUN; QUIT; ODS LISTING CLOSE; ODS HTML; PROC PRINT DATA = plan_5 NOOBS; RUN; ODS HTML CLOSE; ODS LISTING; 4.2. rodowisko JMP 6 / 7 erodowisko JMP zosta4o opracowane przez SAS Institute Inc. z my:l9 o dynamicznej prezentacji danych. Umo7liwia dynamiczne po49czenie opcji graficznych z analizami statystycznymi. Do poprawnego dzia4ania JMP wymaga zainstalowanej prócz Polskiej równie7 Angielskiej wersji j;zykowej Systemu SAS®. Wi;cej informacji o :rodowisku JMP na stronie http://www.jmp.com/. Aby uruchomiK modu4 planowania eksperymentów nale7y wybraK z okna ‘JMP Starter’ kategori; ‘DOE’ (design of experiment) (rys. II.4.1). Rys. II.4.1. Opcje kategorii ‘DOE’ w oknie ‘JMP Starter’. Nast;pnie nale7y wybraK rodzaj planowanego eksperymentu. Dalsze prezentowane przyk4ady wykorzystuj9 opcj; ‘Custom Design’. W nowo otwartym oknie (rys. II.4.2) mo7na wprowadzaK kolejne czynniki w planowanym do:wiadczeniu. Z. Lauda ski, D. R. Ma kowski 124 PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH Rys. II.4.2. Okno ‘DOE — Custom Design’. Po wybraniu liczby i rodzajów czynników w planowanym do:wiadczeniu nale7y wcisn9K przycisk ‘Continue’, a nast;pnie . Po rozszerzeniu okna (rys. II.4.3) mo7na wskazaK ile razy losowanie ma byK powtórzone (liczba replikacji). Rys. II.4.3. Okno ‘DOE — Custom Design’ — opcje replikacji. Po wci:ni;ciu przycisku ‘Make Table’ do:wiadczenie zostanie rozlosowane i zostanie wy:wietlona tabela przygotowana wed4ug zaplanowanego uk4adu do:wiadczalnego. Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 125 Przyk7ady: Do:wiadczenie jednoczynnikowe w uk4adzie losowanych bloków (4 Bloki, 5 poziomów czynnik A): Factors: Bloki — Blocking, 5 runs Czynnik A — Categorical, 5 levels Number of replictions: 3 Do:wiadczenie dwuczynnikowe w uk4adzie losowanych bloków (3 Bloki, 4 poziomów czynnik A, 2 poziomy czynnika B): Factors: Bloki — Blocking, 8 runs Czynnik A — Categorical, 4 levels Czynnik B — Categorical, 2 levels Number of replictions: 2 Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 126 5. STATYSTYCZNE METODY OPRACOWYWANIA WYNIKÓW 5.1. Analiza wariancji Do przeprowadzenia analizy wariancji na podstawie danych pochodz9cych z do:wiadcze, przeprowadzonych w oparciu o uk4ady do:wiadczalne, wykorzystuje si; procedur; GLM w bardziej zaawansowanej formie. Sk4adnia procedury PROC GLM <opcje>; BY zmienne_grupujace; CLASS zmienne_klasyfikujace; MODEL zmienna_zalezna = zmienne_klasyfikujace /opcje; TEST H = efekt E = efekt; MEANS zmienne_klasyfikujace /opcje; LSMEANS zmienne_klasyfikujace; CONTRAST <etykieta> efekt kontrasty; RUN; QUIT; W analizie wariancji wyró7nia si; cztery ró7ne sposoby wyznaczania sumy kwadratów odchyle,. Sposoby te zwane s9 typami sum kwadratów. Ich znaczenie prezentuje poni7sza tabela: TYP I [SS1] R ( A | m) TYP II [SS2] R ( A | m, B ) TYP III [SS3] R ( A | m, B, A × B ) TYP IV [SS4] R ( A | m, B, A × B ) R ( A × B | m, A, B ) R ( A × B | m, A, B ) R ( A × B | m, A, B ) R ( A × B | m, A, B ) A B A×B R ( B | m, A ) R ( B | m, A ) R ( B | m, A, A × B ) R ( B | m, A, A × B ) R(.) reprezentuje zmniejszenie sumy kwadratów odchyle, dla b4;du losowego, gdy do modelu zostaje dodane dane Sród4o zmienno:ci. Zastosowanie typów sum kwadratów odchyle,: TYP I [SS1] TYP II [SS2] TYP III [SS3] TYP IV [SS4] jedno- i wieloczynnikowe modele dla danych kompletnych modele dla danych niekompletnych przy nieistotnej interakcji pomi;dzy czynnikami (np. niekompletny uk4ad losowanych bloków) modele dla danych niekompletnych przy istotnej interakcji pomi;dzy czynnikami modele dla danych niekompletnych przy brakach ca4ych podklas Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 127 Przyk7ady: Do wiadczenia jedno- i dwuczynnikowe Do:wiadczenie jednoczynnikowe w uk4adzie losowanych bloków badaj9ce reakcj; wybranej linii pszenicy ozimej na ró7ne dawki nawo7enia azotem. ODS HTML; PROC GLM DATA= kurs.pszenica_naw_jlb; CLASS bloki dawka; MODEL plon = bloki dawka; MEANS dawka / DUNCAN; RUN; QUIT; ODS HTML CLOSE; Wyznaczanie grup jednorodnych — procedura Duncana: NIRD = t ( ; k '; v ) 2 Se 2 n = 0,05 v=6 Se2 = 0, 22797 n=4 Warto:ci krytyczne wielokrotnego testu Duncana dla 2 i 3 porównywanych obiektów: k’ 3 2 t ( 0,05; k ';6 ) 2,536 2,447 NIRD 0,8562 0,8261 Krok 1: uszeregowanie :rednich w kolejno:ci malej9cej: x180 = 4,8250 x90 = 3,6500 x0 = 2, 7675 Krok 2: porównanie dwóch pierwszych :rednich, k’=3 (bo do porównania s9 3 obiekty) x180 x90 = 4,8250 3, 6500 = 1,175 > 0,8563 = NIRD ( k '=3) Krok 3: porównanie dwóch kolejnych warto:ci :rednich, k’=2 (bo zosta4y tylko 2 obiekty) x90 x0 = 3,6500 2,7675 = 0,8825 > 0,8261 = NIRD ( k '= 2) Wyznaczone grupy jednorodne: Obiekt 180 90 0 Z. Lauda ski, D. R. Ma kowski xi 4,8250 3,6500 2,7675 Grupa A B C PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 128 Do:wiadczenie jednoczynnikowe w uk4adzie kwadratu 4aci,skiego. ODS HTML; PROC GLM DATA= kurs.burak_cukr_jls; CLASS rzad kolumna odmiana; MODEL plon = rzad kolumna odmiana /SS1; MEANS odmiana / TUKEY; RUN; QUIT; ODS HTML CLOSE; Wyznaczanie grup jednorodnych — procedura Tukeya: NIRT = q ( ; k 1; v ) Se 2 n = 0,05 n=6 Se2 = 0,3005 k 1= 5 v = 20 q ( 0,05;5; 20 ) = 4, 44524 NIRT = 0,9948 Grupy jednorodne: Obiekt 5 2 3 4 1 6 xi 19,6667 18,6167 18,5167 18,3500 18,3000 18,2000 Grupa A B B B B B Do:wiadczenie jednoczynnikowe w uk4adzie losowanych bloków z liniami kukurydzy — dane nieortogonalne. ODS HTML; PROC GLM DATA= kurs.kukurydza_jlbn; CLASS bloki odmiana; MODEL plon = bloki odmiana /SS2; MEANS odmiana; LSMEANS odmiana; MEANS odmiana / TUKEY; RUN; QUIT; ODS HTML CLOSE; Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 129 Wyznaczanie grup jednorodnych — procedura Tukeya-Kramera: NIRT ( µ1 µ2 ) = q ( , k 1, v ) Se2 1 2 1 1 + n1 n2 = 0,05 v = 123 k 1= 3 Se2 = 35,6806 q ( 0,05;3;123) = 3,6833 Warto:ci :rednie i liczno:K obserwacji: Obiekt O1 O2 O3 O4 ni 27 65 22 17 xi 18,6704 16,9123 16,6682 19,7529 Wyznaczanie grup jednorodnych: Porównywane obiekty O4 – O1 O4 – O2 O4 – O3 O1 – O4 O1 – O2 O1 – O3 O2 – O4 O2 – O1 O2 – O3 O3 – O4 O3 – O1 O3 – O2 Ró7nica warto:ci :rednich 1,112 2,841 3,085 –1,112 1,728 1,973 –2,841 –1,728 0,244 –3,085 –1,973 –0,244 Z. Lauda ski, D. R. Ma kowski NIRT ( µ1 µ2 ) 28,772 25,315 30,009 28,772 21,277 26,691 25,315 21,277 22,922 30,009 26,691 22,922 Istotno:K ró7nic (*** — oznacza istotn9 ró7nic;) Grupa A A A A A A A A A A A A 130 PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH Do:wiadczenie dwuczynnikowe w uk4adzie ca4kowicie losowym — analiza interakcji. ODS HTML; PROC GLM DATA= kurs.pszen_j_dcl; CLASS f_ojcowska f_mateczna; MODEL plon_f1 = f_ojcowska | f_mateczna /SS1; MEANS f_ojcowska f_mateczna /TUKEY; LSMEANS f_ojcowska * f_mateczna /SLICE= f_ojcowska; LSMEANS f_ojcowska * f_mateczna /SLICE= f_mateczna; RUN; QUIT; ODS HTML CLOSE; Do:wiadczenie dwuczynnikowe w uk4adzie ca4kowicie losowym — analiza interakcji, cd. Wykres interakcji. GOPTIONS RESET= all; PROC GPLOT DATA= kurs.pszen_j_dcl; SYMBOL1 I=std1mtj C=red LINE=1 W=2; SYMBOL2 I=std1mtj C=blue LINE=1 W=2; SYMBOL3 I=std1mtj C=green LINE=1 W=2; SYMBOL4 I=std1mtj C=black LINE=1 W=2; SYMBOL5 I=std1mtj C=pink LINE=1 W=2; PLOT plon_f1 * f_ojcowska = f_mateczna; PLOT plon_f1 * f_mateczna = f_ojcowska; RUN; QUIT; Do wiadczenia wieloczynnikowe Do:wiadczenie trójczynnikowe w uk4adzie losowanych bloków — porównanie z wzorcem, kontrasty. ODS HTML; PROC GLM DATA = kurs.pszen_j_tlb; CLASS blok odmiana zaprawa zabieg; MODEL zk_st_bliss = blok odmiana zaprawa zabieg odmiana*zaprawa odmiana*zabieg zaprawa*zabieg odmiana*zaprawa*zabieg /SS1; MEANS zaprawa / DUNNETT('kontrola'); CONTRAST 'Koksa vs. Korynta' odmiana 1 -1 0 0; CONTRAST 'Koksa vs. Nawra' odmiana 1 0 -1 0; CONTRAST 'Koksa vs. Torka' odmiana 1 0 0 -1; CONTRAST 'Korynta vs. Nawra' odmiana 0 1 -1 0; CONTRAST 'Korynta vs. Torka' odmiana 0 1 0 -1; CONTRAST 'Nawra vs. Torka' odmiana 0 0 1 -1; RUN; QUIT; ODS HTML CLOSE; Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH Uk7ady hierarchiczne i split-plot Do:wiadczenie dwuczynnikowe w uk4adzie split-plot dród4a zmienno:ci: 1. Bloki 2. Czynnik A 3. B49d 1 (Interakcja: Bloki × Czynnik A) 4. Czynnik B 5. Interakcja: Czynnik A × Czynnik B 6. B49d 2 (B49d losowy) ODS HTML; PROC GLM DATA = kurs.pszenica_oz_sp; CLASS bloki odmiany nawozenie; MODEL plon = bloki odmiany nawozenie bloki*odmiany odmiany*nawozenie /SS1; TEST H = bloki odmiany E = bloki*odmiany; MEANS odmiany / TUKEY E = bloki*odmiany; MEANS nawozenie / TUKEY; RUN; QUIT; ODS HTML CLOSE; Do:wiadczenie dwuczynnikowe w uk4adzie hierarchicznym split-blok. dród4a zmienno:ci: 1. Bloki 2. Czynnik A 3. B49d 1 (Interakcja: Bloki × Czynnik A) 4. Czynnik B 5. B49d 2 (Interakcja: Bloki × Czynnik B) 6. Interakcja: Czynnik A × Czynnik B 7. B49d 3 (B49d losowy) ODS HTML; PROC GLM DATA = kurs.groch_spb; CLASS bloki ochrona odmiana; MODEL mtn = bloki ochrona odmiana bloki*ochrona bloki*odmiana ochrona*odmiana /SS1; TEST H = bloki ochrona E = bloki*ochrona; TEST H = odmiana E = bloki*odmiana; MEANS ochrona / TUKEY E = bloki*ochrona; MEANS odmiana / TUKEY E = bloki*odmiana; RUN; QUIT; ODS HTML CLOSE; Z. Lauda ski, D. R. Ma kowski 131 PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 132 Uk7ad kratowy Specjalnie do analizy danych pochodz9cych z do:wiadcze, za4o7onych w uk4adach kratowych w Systemie SAS® znajduje si; oddzielna procedura – LATTICE. W zbiorze danych do analizy trzy kolumny musz9 mieK z góry ustalone nazwy: Group — oznacza numer kraty Block — oznacza numer bloku (w ka7dej kracie bloki numeruje si; od pocz9tku) Treatmnt — oznacza badany czynnik Rep — zmienna opcjonalna, mówi o liczbie powtórze, uk4adu Sk4adnia procedury PROC LATTICE <opcje>; BY zmienne_grupujace; VAR zmienne_analizowane; RUN; Przyk7ad: Do:wiadczenie odmianowe za4o7one w uk4adzie kratowym cz;:ciowo zrównowa7onym. ODS HTML; PROC LATTICE DATA = kurs.soja_krata; VAR plon; RUN; ODS HTML CLOSE; 5.2. Analiza korelacji i regresji prostych Pierwszym krokiem w analizie korelacji pomi;dzy cechami jest sporz9dzenie wykresu rozrzutu obrazuj9cego potencjaln9 relacj; pomi;dzy analizowanymi cechami. Na wykresie mo7emy stwierdziK czy s9 podstawy do podejrzewania, 7e istnieje zale7no:K pomi;dzy cechami i jaki mo7e byK charakter tej zale7no:ci. Do sporz9dzania wykresów rozrzutu wykorzystuje si; procedur; GPLOT. Sk4adnia procedury PROC GPLOT <opcje>;; PLOT zmienna_x * zmienna_y; RUN; QUIT; Przyk7ad: Wykres rozrzutu dla plonu pszenicy jarej i jego sk4adowych. PROC GPLOT DATA = kurs.pszenica_j_skladowe; PLOT plon * (liczba_klosow_na_mkw -- mtz); RUN; QUIT; W przypadku gdy podej7ewa si;, 7e wystepuje liniowa zale7no:K pomi;dzy analizownymi cechami, a cechy maj9 rok4ady ci9g4e, nale7y przeprowadziK analiz; wspó4czynników korelacji liniowych Pearsona. Do analizy wspó4czynnikówkorelacji s4u7y procedura CORR. Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 133 Sk4adnia procedury: PROC CORR <opcje>;; VAR zmienne_var; WITH zmienne_with; RUN; QUIT; Przyk7ad: Analiza wspó4czynników korelacji liniowych Pearsona pomi;dzy plonem pszenicy jarej i jego sk4adowymi. ODS HTML; PROC CORR DATA = kurs.pszenica_j_skladowe; VAR _numeric_; RUN; ODS HTML CLOSE; W prypadku stwierdzenia wystepowania istotnej korlecji liniowej pomi;dzy dwoma cechami, mo7na t; zale7no:K zapisaK matematycznie w postaci funkcji regresji liniowej. analiz; funkcji regresji liniowej przeprowadza si; z wykorzystaniem procedury REG. Sk4adnia procedury: PROC REG <opcje>;; MODEL zmienna_zaleLna = zmienna_przyczynowa /<opcje>;; RUN; QUIT; Przyk7ad: Analiza funkcji regresji liniowej pomi;dzy plonem (zmienna zale7na, Y) a liczb9 k4osów na metrze kwadratowym (zmienna obja:niaj9ca, X). ODS HTML; ODS GRAPHICS ON; PROC REG DATA = kurs.pszenica_j_skladowe; MODEL plon = liczba_klosow_na_mkw; RUN; QUIT; ODS GRAPHICS OFF; ODS HTML CLOSE; Je7eli sta4a regresji jest nie istotna statystycznie i nie ma merytorycznych przes4anek by j9 pozostawiK w modelu, mo7na przeprowadziK analiz; funkcji regresji liniowej bez sta4ej w modelu. ODS HTML; ODS GRAPHICS ON; PROC REG DATA = kurs.pszenica_j_skladowe; MODEL plon = liczba_klosow_na_mkw /NOINT; RUN; QUIT; ODS GRAPHICS OFF; ODS HTML CLOSE; Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 134 5.3. Analiza regresji wielokrotnej Aaliz; funkcji regresji wielokrotnej (jeen Y i wiele X) mo7na przeprowadziK równie7 z wykorzystaniem procedury REG. Sk4adnia procedury: PROC REG <opcje>;; MODEL zmienna_zaleLna = zmienne_przyczynowe /<opcje>;; RUN; QUIT; Przyk7ady: Analiza funkcji regresji liniowej pomi;dzy plonem (zmienna zale7na, Y) a jego sk4adowymi (zmienne obja:niaj9ce, X1, X2 i X3). ODS HTML; PROC REG DATA = kurs.pszenica_j_skladowe; MODEL plon = liczba_klosow_na_mkw -- mtz; RUN; QUIT; ODS HTML CLOSE; Bez sta4ej w modelu: ODS HTML; PROC REG DATA = kurs.pszenica_j_skladowe; MODEL plon = liczba_klosow_na_mkw -- mtz /NOINT; RUN; QUIT; ODS HTML CLOSE; W analizie regresji wielokrotnej prócz analizy pe4nego modelu ze wszystkimi zmiennymi w modelu, mo7na przeprowadziK analiz; po49czon9 z doborem zmiennych do modelu. Ma to szczególnie du7e znaczenie, gdy analizuje si; wp4yw wielu zmiennych obja:niaj9cych na zmienn9 zale7n9. Dobór miennych do modelu mo7na przprowadzic za pomoc9 szeregu metod: — tzw. metody ‘krokowe’: o „w przód” (FOREWARD) o „w ty4” (BACKWARD) o „obukierunkowo” (STEPWISE) — metody oparte na wyznaczanych parametrach modeli o R2 (RSQUARE) SS (modelu) R2 = r 2 = yi2 o poprawiony R2 (ADJRSQ) 2 Radj =1 (1 R2 (n ) (n p ') 1) Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 135 — metody oparte na tzw kryteriach informacyjnych o Cp Mallowsa (CP) ( MSE p MSE full ) ( n p ') Cp = p '+ MSE full o Akaike Information Criterion (AIC) SSE AIC = ( n ) ln +2 p n o Schwarz Bayesian Criterion (SBC) SSE SBC = ( n ) ln + p ln ( n ) n o itd. Przyk7ad: Analiza funkcji regresji liniowej pomi;dzy plonem (zmienna zale7na, Y) a jego sk4adowymi (zmienne obja:niaj9ce, X1, X2 i X3), bez sta4ej w modelu z zastosowaniem selekcji zmiennych STEPWISE. ODS HTML; PROC REG DATA = kurs.pszenica_j_skladowe; MODEL plon = liczba_klosow_na_mkw -- mtz / NOINT SELECTION = stepwise; RUN; QUIT; ODS HTML CLOSE; 5.4. Analiza kowariancji Prócz analizy wariancji, procedura GLM mo7e byK równie7 wykorzystywana do przeprowadzenia analizy kowariancji. Sk4adnia procedury: PROC GLM <opcje>;; BY zmienne_grupujace; CLASS zmienne_klasyfikujace; MODEL zmienna_zalezna = zmienne_klasyfikujace zmienne_towarzyszace /SOLUTION; LSMEANS zmienne_klasyfikujace /STDERR PDIFF COV; RUN; QUIT; Przyk7ad: Analiza kowariancji dla plonów ziemniaka wzgl;dem liczby zabiegów fungicydami z nawo7eniem NPK jako zmienn9 towarzysz9c9. ODS HTML; PROC GLM DATA = kurs.ziemniak; CLASS fungi; MODEL yield = fungi npk / SOLUTION; LSMEANS fungi /STDERR PDIFF COV; RUN; QUIT; ODS HTML CLOSE; Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 136 5.5. Tablice kontyngencji i testy chi-kwadrat Tablice kontyngencji i testy zale<no ci Do sporz9dzania tablic kontyngencji i wykonywania testów chi-kwadrat zale7no:ci s4u7y procedura FREQ. Sk4adnia procedury: PROC FREQ <opcje>;; TABLE zmienna_wierszy * zmienna_kolumn /<opcje>;; RUN; Przyk7ady: Tablica kontyngencji dla danych pochodz9cych z metryczki ankiety. ODS HTML; PROC FREQ DATA = kurs.ankieta; TABLE wiek_kod * wyksztalcenie_kod; RUN; ODS HTML CLOSE; Tablica kontyngencji I testy chi-kwadrat zale7no:ci. ODS HTML; PROC FREQ DATA = kurs.ankieta ; TABLE wiek_kod * wyksztalcenie_kod / CHISQ; RUN; ODS HTML CLOSE; UWAGA ! Test Mantela-Haenszela ma zastosowanie tylko wtedy gdy obie analizowane zmienne maj9 charakter porz9dkowy. W pozosta4ych przypadkach wyniki tego testu ignoruje si;. Test chi-kwadrat zgodno ci Do badania zgodno:ci rzeczywistego rozk4adu zmiennej (obserwowanej proporcji obserwacji) do rozk4adu teoretycznego (teoretycznej proporcji obserwacji) mo7na równie7 wykorzystaK procedur; FREQ. Sk4adnia procedury: PROC FREQ <opcje>;; TABLE analizowana_zmienna /NOCUM TESTP = (proporcja); RUN; Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 137 Przyk7ad: Test chi-kwadrat zgodno:ci; sprawdzenie czy stosunek p4ci ankietowanych osób by4 jak 30:70. ODS HTML; PROC FREQ DATA = kurs.ankieta; TABLE plec_kod /NOCUM TESTP = (30 70); RUN; ODS HTML CLOSE; 5.6. Analiza skupie1 Analiza skupie, w Systemie SAS® sk4ada si; z kilku procedur, s9 to mi;dzy innymi: — PROC DISTANCE — pozwala na wyznaczenie macierzy odleg4o:ci pomi;dzy obiektami; — PROC CLUSTER — s4u7y do wykonywania hierarchicznej klasteryzacji; — PROC FASTCLUS — s4u7y do wykonywania klasteryzacji metod9 k-:rednich; — PROC TREE — s4u7y do sporz9dzania dendrogramów. PROC DISTANCE Sk4adnia procedury: PROC DISTANCE METHOD = metoda <opcje>;; ID zmienna_identyfikacyjna; VAR rodzaj_cechy (lista_zmiennych); RUN; Rodzaje cech: — ANOMINAL (zmienna jest asymetrycznie nominalna) — NOMINAL (zmienna jest symetrycznie nominalna) — ORDINAL (zmienna ma charakter porz9dkowy) — INTERVAL (zmienna oznacza przedzia4 liczbowy) — RATIO (zmienna jest dodatnia i jest ilorazem) Metody (wybrane): — GOWER (dystans Gower’a) — DGOWER (1 – dystans Gower’a) — EUCLID (odleg4o:K Euklidesowa) — SQEUCLID (kwadrat odleg4o:ci Euklidesowej) — COV (kowariancja) — CORR (korelacja) — DCORR (korelacja przekszta4cona w odleg4o:K Euklidesow9) — L(p) (odleg4o:K Minkowskiego) — CITYBLOCK (odleg4o:K miejska) — CHEBYCHEV (odleg4o:K Czebyszewa) — HAMMING (od4eg4o:K Hamminga) — JACCARD (dystans genetyczny Jaccarda) — DJACCARD (podobie,stwo genetyczne Jaccarda) Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 138 PROC CLUSTER Sk4adnia procedury: PROC CLUSTER METHOD = metoda <opcje>;; ID zmienna_identyfikacyjna; VAR lista_zmiennych; RUN; Metody (wybrane): — AVERAGE — metoda :redniego wi9zania, UPGMA — CNENTROID — metoda centroidu, UPGMC — MCQUITTY — metoda podobie,stwa McQuitty’ego, WPGMA — MEDIAN — metoda mediany Gower’a, WPGMC — SINGLE — metoda pojedynczego wi9zania, najbli7szego s9siedztwa — WARD — metoda Ward’a Przyk7ady: Hierarchiczna analiza skupie, dla danych molekularnych. 1) Wyznaczenie macierzy dystansu genetycznego Jaccarda PROC DISTANCE DATA = kurs.pzyto_pcr METHOD = jaccard OUT = macierz_1; ID linia; VAR anominal(pcr_1 -- pcr_673); RUN; ODS HTML; PROC PRINT DATA = macierz_1 NOOBS; RUN; ODS HTML CLOSE; 2) Klasteryzacja hierarchiczna metod9 najbli7szego s9siedztwa (pojedynczego wi9zania) ODS HTML; PROC CLUSTER DATA = macierz_1 METHOD = single; ID linia; RUN; ODS HTML CLOSE; 3) Sporz9dzenie dendrogramu PROC TREE SPACES = 2 HORIZONTAL; ID linia; RUN; Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH Hierarchiczna analiza skupie, dla danych fenotypowych. 1) Wyznaczenie macierzy odleg4o:ci kwadratowej Euklidesa PROC DISTANCE DATA = kurs.trawy_ocena METHOD = sqeuclid OUT = macierz_2; ID odmiana; VAR ordinal(pr -- ps); RUN; ODS HTML; PROC PRINT DATA = macierz_2 NOOBS; RUN; ODS HTML CLOSE; 2) Klasteryzacja hierarchiczna metod9 UPGMA ODS HTML; PROC CLUSTER DATA = macierz_2 METHOD = average; ID odmiana; RUN; ODS HTML CLOSE; 3) Sporz9dzenie dendrogramu PROC TREE SPACES = 2; ID odmiana; RUN; 5.7. Wielowymiarowa analiza czynnikowa Sk4adnia procedury: PROC FACTOR METHOD = metoda NORM NORM = normalizacja ROTATE = rotacja <opcje>;; VAR lista_zmiennych; RUN; Normalizacje: — COV — opiera si; na macierzy kowariancji w miejsce macierzy korelacji — KAISER — normalizacja Kaiser’a — NONE / RAW — bez normalizacji — WEIGHT — normalizacja Cureton’a-Mulaik’a Metody analizy czynnikowej: — ALPHA — alfa analiza czynnikowa — HARRIS — analiza sk4adowych Harris’a — IMAGE — analiza sk4adowych plonu — ML — analiza czynnikowa maksymalnej wiarygodno:ci — PRINCIPAL — analiza czynnikowa sk4adowych g4ównych — PRINT — iteracyjna analiza czynnikowa plonów — ULS — analiza czynnikowa niewa7onych najmniejszych kwadratów Z. Lauda ski, D. R. Ma kowski 139 140 PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH Rodzaje rotacji: BIQUARTIMAX, EQUAMAX, FACTORPARSIMAX, NONE, ORTHCF(p1,p2), ORTHGENCF(p1,p2,p3,p4), ORTHOMAX, PARSIMAX, QUARTIMAX, VARIMAX, BIQUARTIMIN, COVARIMIN, HK<(p)>, OBBIQUARTIMAX, OBEQUAMAX, OBFACTORPARSIMAX, OBLICF(p1,p2), OBLIGENCF(p1,p2,p3,p4), OBLIMIN, OBPARSIMAX, OBQUARTIMAX, OBVARIMAX, PROCRUSTES, PROMAX, QUARTIMIN. Przyk7ad: Analiza czynnikowa metod9 sk4adowych g4ównych z rotacj9 VARIMAX i normalizacj9 Kaiser’a. ODS HTML; PROC FACTOR DATA = kurs.trawy_nas METHOD = principal NORM = kaiser ROTATE = varimax SCREE; VAR cecha_1_1 -- cecha_2_7; RUN; ODS HTML CLOSE; Z. Lauda ski, D. R. Ma kowski PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH 141 LITERATURA AGRESTI A. 2002. Categorical Data Analysis. 2nd Edition. New Jersey, USA: John Wiley & Sons Inc. BOX G. E. P., HUNTER J. S., HUNTER W. G. 2005. Statistics for Experimenters — Design, Innovation, and Discovery. Second Edition. New Jersey, USA: Wiley and Sons Inc. CALIrSKI T. 1967. Model analizy wariancji dla do:wiadcze, wielokrotnych. Rocznik Nauk Rolniczych, Seria A 93, 3: 549—579. CARPENTER A. 1999. Annotate: Simply the Basics. Cary, NC, USA: SAS Publishing, SAS Institute Inc. CODY R. P., SMITH J. K. 2005. Applied Statistics and the SAS Programming Language. Fifth Edition. Upper Saddle River, NJ, USA: Pearson Education Inc. DER G., EVERITT B. S. 2002. A Handbook of Statistical Analyses using SAS. Second Edition. London, UK: Chapman & Hall/CRC. FISHER R. A. 1925. Statistical methods for research workers. Edynburg and London, Oliver and Boyd. FISHER R. A. 1935. The design of experiments. Edynburg and London, Oliver and Boyd. FREUND R. J., LITTELL R. C. 2000. SAS System for Regression. Third Edition. New York, USA: SAS Publishing, SAS Institute Inc., John Wiley & Sons Inc. FRIENDLY M. 1991. SAS System for Statistical Graphics. First Edition. Cary, NC, USA: SAS Publishing, SAS Institute Inc. KALA R. 1996. Elementy wnioskowania parametrycznego dla przyrodników. Pozna,: Akademia Rolnicza w Poznaniu. KHATTRE R., NAIK D. N. 2000. Multivariate Data Reduction and Discrimination with SAS Software. New York, USA: SAS Publishing, SAS Institute Inc., John Wiley & Sons Inc. LITTEL R. C., STROUP W. W., FREUND R. J. 2002. SAS for linear models. Fourth edition. Cary, NC, USA: SAS Institute Inc., John Wiley & Sons Inc. mUBKOWSKI Z. 1968. Metodyka do:wiadczalnictwa rolniczego. Warszawa, PWRiL. MsDRY W. 2003. Do:wiadczalnictwo - do:wiadczenia czynnikowe. Warszawa: Fundacja Rozwój SGGW. MULLER K. E., FETTERMAN B. A. 2003. Regression and ANOVA, an Integrated Approach Using SAS Software. New York, USA: SAS Publishing, SAS Institute Inc., John Wiley & Sons Inc. NAWROCKI Z. 1967. Teoria i praktyka do:wiadczenia rolniczego. Warszawa, PWRiL. OKTABA W. 1982 a. Elementy statystyki matematycznej i metodyka do:wiadczalnictwa. Warszawa, PWN. OKTABA W. 1982 b. Metody statystyki matematycznej w do:wiadczalnictwie. Warszawa, PWN. O'ROURKE N., HATCHER L., STEPANSKI E. J. 2005. A step-by-step approach to using SAS for univariate & multivariate statistics. Second edition. Cary, NC, USA.: SAS Institute Inc., John Wiley & Sons Inc. PIELAT H., VISCARDI T. 1987. Tablice warto:ci krytycznych wspó4czynnika korelacji. Warszawa: Instytut Warzywnictwa. RAO C. R. 1994. Statystyka i prawda. Warszawa, PWN. RAWLINGS J. O., PANTULA S. G., DICKEY D. A. 2001. Applied Regression Analysis — a Research Tool. Second Edition. New York, USA: Springer-Verlag Inc. SAS INSTITUTE INC. 2004 a. BASE SAS 9.1.3 Procedures guide. Cary, NC, USA: SAS Publishing, SAS Institute Inc. Z. Lauda ski, D. R. Ma kowski 142 PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH SAS INSTITUTE INC. 2004 b. SAS 9.1 Companion for Windows. Cary, NC, USA: SAS Publishing, SAS Institute Inc. SAS INSTITUTE INC. 2004 c. SAS/GRAPH 9.1 Reference. Cary, NC, USA: SAS Publishing, SAS Institute Inc. SAS INSTITUTE INC. 2004 d. SAS/STAT 9.1 user's guide. Cary, NC, USA: SAS Publishing, SAS Institute Inc. SCHLOTZHAUER S. D., LITTELL R. C. 1997. SAS System for Elementary Statistical Analysis. Second Edition. Cary, NC, USA: SAS Publishing, SAS Institute Inc. STOKES M. E., DAVIS C. S. 2000. Categorical Data Analysis Using the SAS System. 2nd Edition. New York, USA: SAS Publishing, SAS Institute Inc., John Wiley & Sons Inc. TRtTOWSKI J., WÓJCIK A. R. 1988. Metodyka do:wiadcze, rolniczych. Siedlce: WSRP. UBYSZ-BORUCKA L., MsDRY W., MUSZYrSKI S. 1985. Podstawy statystyczne genetyki cech ilo:ciowych w hodowli ro:lin.. Warszawa: Wydawnictwo SGGW-AR. WALEWSKI R. 1976. Zasady planowania, prowadzenia i dokumentowania pola do:wiadczalnego. S4upia Wielka: IMUZ. WESTFALL P. H., TOBIAS R. D., ROM D., WOLFINGER R. D., HOCHBERG Y. 1999. Multiple Comparisons and Multiple Tests Using SAS. Cary, NC, USA: SAS Publishing, SAS Institute Inc. WÓJCIK A. R. 1993. Statystyka z elementami rachunku prawdopodobie,stwa i statystyki opisowej. Warszawa: SGGW. WÓJCIK A. R., LAUDArSKI Z. 1989. Planowanie i wnioskowanie statystyczne w do:wiadczalnictwie. Warszawa: PWN. ZIELIrSKI W. 1999. Wybrane testy statystyczne. Warszawa: Fundacja Rozwój SGGW. ZIELIrSKI W. 2000. Tablice statystyczne. Warszawa: Fundacja Rozwój SGGW. Z. Lauda ski, D. R. Ma kowski