MODULE ‘WIST’ ‘WISKUNDE’ EN ‘STATISTIEK’ Voor deeltijd Finance & Techniek Versie januari 2021 WIST, deeltijd F&T -1- Inhoudsopgave Onderdeel 1 Wiskunde (eerste en tweedegraads vergelijkingen) 5 Hoofdstuk 1 1.1 1.2 1.3 1.4 1.5 1.6 Lineaire vergelijkingen 6 Inleiding lineaire vergelijkingen 6 Oplossen lineaire vergelijking met één onbekende 6 Lineaire vergelijkingen met twee onbekenden 9 Oplossen twee lineaire vergelijkingen met twee onbekenden 10 Oplossen meerdere vergelijkingen met meerdere onbekenden (voorbeeld) 12 Opgaven lineaire vergelijkingen (uit rekentoetsen AVANS) 13 Hoofdstuk 2 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 Tweedegraads vergelijkingen (parabolen) Inleiding tweedegraads vergelijkingen (parabolen) Vinden van snijpunten van een parabool met de y-as Vinden van snijpunten van een parabool met de x-as (de ‘nulpunten’) Opgaven snijpunten van een parabool met de x-as en de y-as Vinden van snijpunten van een parabool met de x-as (ABC-formule !) Bijzonderheden van tweedegraadsvergelijkingen (parabolen) Opgaven gebruik ABC-formule en bijzonderheden parabolen Toepassing, interne-opbrengstvoet (internal rate of return, IRR) 14 14 15 15 16 17 19 21 22 Onderdeel 2 Statistiek 24 Hoofdstuk 1. Inleiding Statistiek 25 Hoofdstuk 2. Maatstaven voor liggen en spreiding 2.1 Grafieken 2.2 Centrummaten bij losse waarnemingen Rekenkundig gemiddeld bij een frequentieverdeling 2.3 Spreiding bij losse waarnemingen 2.4 Maatstaven voor liggen en spreiding bij gegroepeerde waarnemingen 2.5 Bijzondere gemiddeldes 2.6 Rekenkundige eigenschappen van x en s (transformatieformules) 2.7 Opgaven Centrum en spreidingsmaten 25 26 26 30 31 33 35 36 37 Hoofdstuk 3 3.1 3.2 3.3 3.4 3.5 41 41 43 44 45 46 Kans en kansverdeling Wat is kans? Centrum en spreiding bij een kansverdeling Rekenen met verwachtingswaarde en standaarddeviatie Risico Opgaven Kans en kansverdeling WIST, deeltijd F&T -2- Hoofdstuk 4 4.1 4.2 4.3 4.4 4.5 4.6 4.7 De normale verdeling Inleiding Voor alle normale verdelingen geldt Standaardnormale verdeling Kansen uitrekenen bij een willekeurige normale verdeling Betrouwbaarheidsintervallen Toepassingen normale verdeling Opgaven 48 48 50 51 52 54 55 56 Hoofdstuk 5 5.1 5.2 5.3 5.4 5.5 (introductie tot) de √n -wet Inleiding Herhaling experiment en effect op σ Gemiddelde van waarnemingen Gemiddelde van standaarddeviatie bij groepje waarnemingen, √n -wet Opgaven 58 58 60 61 61 63 Hoofdstuk 6 6.1 6.2 6.3 6.4 Steekproeven Inleiding Representatieve steekproef, aselecte steekproef Populatie en steekproeven, verschil in termen en symbolen Opgaven 64 64 64 65 66 Hoofdstuk 7 7.1 7.2 7.3 ‘Big data’(zelfstudie) Inleiding Mogelijkheden van ‘Big data’ Meer achtergrondinformatie, bron en extra artikelen Artikel: “De vier risico’s van big data” (FD, 4 februari 2017) Artikel: “Big Four duiken in big-datacontrole” (FD, 30 maart 2017) 67 67 67 68 69 70 Hoofdstuk 8 8.1 8.2 8.3 8.4 8.5 8.6 Samenhang tussen 2 variabelen (correlatie) Inleiding Spreidingsdiagram en puntenwolk Positieve correlatie, negatieve correlatie of geen correlatie Statistische analyse, enkelvoudige lineaire regressie Statistische analyse, regressielijn en correlatiecoëfficiënt (Karl Pearson) Opgaven samenhang tussen 2 variabelen (correlatie) 71 71 71 72 73 74 80 WIST, deeltijd F&T -3- Hoofdstuk 9 9.1 9.2 9.3 Gebruik van Excel (wordt niet praktisch getoetst bij tentamen) Inleiding Om uit te proberen… toepassing van hoofdstuk 8 met Excel Opgave correlatie handmatig (met rekenmachine) dan wel met Excel 83 83 85 86 Hoofdstuk 10 10.1 10.2 10.3 10.4 10.5 10.6 10.7 10.8 Internal Rate of Return (IRR) (wordt niet getoetst bij tentamen) Inleiding Toepassing NPV Investment Rule (NPV Rule) Netto contante waarde (NCW) en interne opbrengstvoet (IRR) IRR Investment Rule (IRR Rule) Bepaling IRR met Excel NPV Rule en IRR Rule, soms tegenstrijdig Praktische verklaring falen IRR Rule in sommige situaties Opgaven Internal Rate of Return (IRR) 88 88 88 89 91 94 96 98 99 Bijlage, tabel cumulatieve standaardnormale verdeling Bijlage, aanvullende informatie normale verdeling Bijlage, aanvullende informatie normale verdeling Bijlage, voorbeeldtentamen X, onderdelen Statistiek Bijlage, voorbeeldtentamen Y, onderdelen Statistiek Bijlage, tentamen april 2018 Bijlage, tentamen juni 2019 Bijlage, hertentamen juli 2019 Bijlage, tentamen juni 2020 Bijlage, tentamen oktober 2020 100 102 103 104 106 108 114 119 125 131 WIST, deeltijd F&T -4- MODULE ‘WIST’ Onderdeel 1 Wiskunde (eerste en tweedegraads vergelijkingen) WIST, deeltijd F&T -5- 1 Eerstegraads of lineaire vergelijkingen 1.1 Inleiding eerstegraads of lineaire vergelijkingen Wellicht is in eerdere opleidingen bij het vak wiskunde al eens kennis gemaakt met eerstegraads vergelijkingen en het oplossen ervan. Dergelijke vergelijkingen worden ook wel lineaire vergelijkingen of lineaire functies genoemd (lineair verwijst naar een rechte lijn, omdat de tekening van de functie een rechte lijn oplevert). N.B.: dit is de grafiek die hoort bij de eerstegraads ofwel lineaire vergelijking y = 3x + 4, het tekenen van lineaire vergelijkingen vormt verder geen onderwerp in deze module. In dit hoofdstuk geven we wel een toelichting op het opstellen en oplossen van deze vergelijkingen, enerzijds in het geval er sprake is van één onbekende en anderzijds in het geval er sprake is van twee onbekenden. Eerstegraads vergelijkingen zijn vergelijkingen waarin geen macht voorkomt en hebben de algemene vorm y = ax + b. In deze vergelijking zijn er twee onbekenden, nl y en x. De andere twee zijn steeds gegeven. Dus bijvoorbeeld: y = 3x + 12 De x en de y zijn veelgebruikte onbekenden… zelfs in het dagelijks woordgebruik gebruik je voor een onbekende soms een ‘x’…. kijk maar: “er is een x aantal mensen dat niet heeft gestemd”. Er zijn ook lineaire vergelijkingen met één onbekende. De algemene regel is dat je voor het berekenen van één onbekende één vergelijking nodig hebt, voor het berekenen van twee onbekenden, twee vergelijkingen, enzovoorts. 1.2 Oplossen lineaire vergelijking met één onbekende Hier wordt eerst begonnen met vergelijkingen met één onbekende. De algemene vorm is daarvan is: 0 = ax + b De onbekende y is hier dus op nul gesteld. Bijvoorbeeld: 0 = 3x + 12 De ‘3x’betekent hier ‘drie maal x’ en spreek je uit als “drie x”. De 3x is gelijk aan -12 (want 0 = -12 + 12) en dus zie je hier vermoedelijk dan vervolgens al snel dat dan geldt dat x = -4. Maar het kan ook iets ingewikkelder. WIST, deeltijd F&T -6- Ook bij het volgende voorbeeld is sprake van een lineaire of eerstegraads vergelijking: 6x ‐ 4 = 2x + 28 . De ‘6x’ betekent hier ‘zes maal x’ en spreek je uit als “zes x”. De ‘2x’ betekent hier ‘twee maal x’. en spreek je uit als “twee x“. Het doel is om de waarde van x te berekenen zodanig dat de vergelijking kloppend is. Rekenregel. Als je aan beide zijden van de vergelijking dezelfde bewerking toepast blijft de vergelijking in evenwicht maar kun je deze wel eenvoudiger schrijven. Je mag aan elk van beide kanten van de vergelijking een getal optellen, aftrekken of je mag aan beide kanten van de vergelijking eenzelfde getal vermenigvuldigen of delen. In de voorgaande vergelijking kun je bijvoorbeeld aan beide kanten van de vergelijking er 4 bij optellen en er 2x (spreek uit: “twee x”) vanaf halen waardoor de vergelijking er een stuk simpeler uitziet. 6x - 2x – 4 + 4 4x = = 2x - 2x + 28 + 4 32 Als je nu beide kanten van de vergelijking deelt door 4 heb je de vergelijking opgelost en kom je voor x uit op een waarde van 8 zoals hieronder is aangegeven. 4x / 4 x = = 32 / 4 8 Over het oplossen van een lineaire vergelijking met één onbekende en de hierboven gebruikte methode zijn op internet allerlei filmpjes te vinden. Met name in het kader van extra zelfstudie kan dat van belang zijn. Een aantal korte instructiefilmpjes vind je op de website van de Wiskunde Academie http:/wiskundeacademie.nl). Via de volgende internetlink vind je filmpjes over de hierboven beschreven methode van oplossen (zij noemen het de ‘balansmethode’). http://wiskundeacademie.nl/onderwerpen/lineaire-vergelijkingen-oplossenbalansmethode. Met name de video’s 1 tot en met 5 bevelen wij aan. Het oplossen van een eerstegraads ongelijkheid gaat op een vergelijkbare wijze als het oplossen van een eerstegraadsvergelijking. . In een dergelijke vergelijking staat dan geen gelijk teken (“=”) maar een ongelijkheidsteken (“>” of “:<”), bijvoorbeeld: 6x ‐ 4 > 2x + 28 Dit is een voorbeeld van een ongelijkheid waarbij het doel is om de waarden van x te vinden waarbij deze ongelijkheid klopt. Alle bewerkingen die bij gelijkheden zijn toegestaan, kunnen ook hier worden toegepast. Deze opgave is hierboven al uitgerekend. De ongelijkheid gaat op als x een hogere waarde heeft dan acht ( x > 8). WIST, deeltijd F&T -7- Het is bij dit soort vergelijkingen met ongelijkheden wel belangrijk om in de gaten te houden dat bij vermenigvuldiging of deling van beide kanten van de ongelijkheid met een negatieve factor, dit leidt tot een verandering van het ongelijkteken ( > wordt < en omgekeerd ). Voorbeeld -x < 2 (ongelijkheid in de uitgangssituatie) vermenigvuldiging van beide kanten met -1 geeft de volgende ongelijkheid x > -2 (nieuwe ongelijkheid) Je kunt tal van problemen oplossen door lineaire vergelijkingen op te stellen. Uitgaande van een stukje tekst is het vaak mogelijk om een vergelijking op te stellen. Bij het vak wiskunde wordt er vaak met de letters a, b, c, x en y gewerkt voor de variabelen in een vergelijking. Je bent echter niet verplicht om deze letters te gebruiken, je kiest gewoon wat jij het meest handig vindt. Voorbeeld Gegeven: de jaarlijkse kosten voor waterverbruik zijn 0,50 euro per kubieke meter plus 70 euro vast recht. Opgave: stel de lineaire vergelijking o p voor de jaarlijkse kosten : In woorden… de jaarlijkse kosten = ‘aantal kubieke meters’ maal 0,50 euro plus 70 euro Voor de woorden die nog in de formule staan kun je symbolen gebruiken. Bijvoorbeeld: aantal kubieke meters = Q ; jaarlijkse kosten = K De uiteindelijke lineaire vergelijking wordt dan K = 0,50 Q + 70 En als het verbruik in kubieke meters op jaarbasis bijvoorbeeld 180 is, dan zijn de totale kosten (K) dus 0,50 x 180 + 70 ofwel 160 euro. Aan de hand van dergelijke omschrijvingen kun je dus zelf een lineaire vergelijkingen opstellen. De opgaven 1 en 4 van paragraaf 1.5 zijn daar voorbeelden van. Maar hieronder eerst nog een extra voorbeeld. Een verpleeghuis voor demente ouderen heeft 2.000 m2 oppervlakte beschikbaar voor twee typen verpleeghuisplaatsen (x en y): x neemt 30 m2 in beslag y neemt 45 m2 in beslag Stel de lineaire vergelijking op waarmee de oppervlakte kan worden verdeeld. Antwoord: 30x + 45y = 2.000 (dertig ‘x’ plus vijfenveertig ‘y’ = tweeduizend) Soms kom je vergelijkingen tegen waar met haakjes wordt gewerkt. In de wiskunde wordt er vaak gebruik gemaakt van onder andere de volgende twee regels. 1/ a ( b + c) = a x b + a x c spreek uit: (a maal b) plus (a maal c) 2/ ( a + b) ( c+ d) = ac + ad + bc + bd WIST, deeltijd F&T -8- 1.3 Lineaire vergelijkingen met twee onbekenden Hiervoor bespraken we de vergelijking 6x ‐ 4 = 2x + 28, deze werd vereenvoudigd (opgelost) tot: x = 8. Deze laatste vergelijking/gelijkheid houdt in dat de onbekende ‘x’ altijd de waarde ‘8’ heeft. Zo’n onbekende kan bijvoorbeeld een prijs zijn, de omvang van de totale vraag, de temperatuur, de afstand tot iets, enzovoort. Vaak laten we de dimensies in een vergelijking weg. Zo hadden we in het voorbeeld van het verpleeghuis op de vorige bladzijde in de vergelijking ook vermelding gemaakt van m2 (vierkante meters). Bij de vergelijking x = 8, is de variabele niet afhankelijk van welke andere variabele dan ook. Stelt x de prijs van een artikel voor, dan wordt hier gesteld dat de prijs onafhankelijk is van de omvang van de vraag. Dat is meestal niet het geval: hoe meer de consument uit het aanbod van een schaars artikel wil kopen, hoe meer hij bereid is ervoor te betalen. De prijs is dan afhankelijk van de totale vraag naar dat product. Er ligt dus een verband tussen P (prijs) en Q (quantiteit). Er kan dus tussen twee variabelen x en y een bepaald verband liggen. Een functie beschrijft het verband tussen twee variabelen. De algemene vorm van een vergelijking met twee onbekenden (‘x’ en ‘y’) is: y = ax + b. Voor de letters a en b worden meestal getallen ingevuld. Dan staat er dus bijvoorbeeld y = 3x + 5. Hier staat dat de waarde van y afhankelijk is van de waarde van x. Gaat het om een vraag-functie, dan geldt daarbij tevens dat y>0 x>0 Deze randvoorwaarden spelen een rol in concrete economische vraagstukken of modellen, maar het gaat hier nu alleen om de vergelijking. De vergelijking legt een verband tussen x en y. Bij een bepaalde waarde van x hoort een bepaalde waarde van y. Als geldt: y = 3 x + 20, dan kunnen we berekenen dat bij een waarde x = 4 een waarde y = 32 hoort, is x = 8, dan is y = 44. In een assenstelsel (lijngrafiek) met op de horizontale as de onafhankelijk variabele x en op de verticale as de afhankelijk variabele y, kun je de berekende combinaties van x en y als twee punten tekenen. Door beide punten te verbinden en er een rechte lijn doorheen te trekken, kun je gemakkelijk alle y-waarden aflezen die bij een bepaalde xwaarde horen. Het tekenen van dergelijke grafieken vormt verder geen onderwerp in deze module. Voor meer informatie over lineaire vergelijkingen met twee variabelen, zie ook: http://wiskundeacademie.nl/onderwerpen/lineaire-vergelijkingen-met-twee-variabelen WIST, deeltijd F&T -9- 1.4 Oplossen twee lineaire vergelijkingen met twee onbekenden We gaan uit van de volgende twee lineaire vergelijkingen : = = X+Y X 20 Y +4 Het oplossen betekent dat je het snijpunt zoekt van de twee lijnen die worden aangegeven door de bovenstaande twee lineaire vergelijkingen. In deze module wordt verder geen aandacht gegeven aan het tekenen van de lijnen. Wel geven we een aantal methoden aan om te komen tot een oplossing van de twee lineaire vergelijkingen, het vinden van het snijpunt ofwel waarden van X en Y waarbij beide vergelijkingen van toepassing zijn. Je kunt op een aantal manieren het snijpunt van deze twee lineaire vergelijkingen vinden. Hieronder wordt aandacht gegeven aan de volgende methoden: Soms is de ene methode makkelijker, soms de andere. Als er niet een bepaalde methode wordt voorgeschreven, kun je bij een vraagstuk zelf de methode kiezen. 1/ eliminatiemethode 2/ substitutiemethode 3/ vergelijkingen aan elkaar gelijk stellen Ad 1/ De eliminatiemethode is een methode waarbij je de vergelijkingen op een zodanige wijze bij elkaar optelt of van elkaar aftrekt zodat je maar één onbekende overhoudt. In het bovenstaande voorbeeld betekent dit het volgende: X+Y X = = 20 Y +4 In de tweede vergelijking ( X = Y + 4) wordt de Y naar de andere kant gebracht om beide vergelijkingen dezelfde vorm te geven. = = X +Y X - Y 20 4 Optelling van de twee bovenstaande vergelijkingen geeft het volgende resultaat: 2X = 24 X is dan dus gelijk aan 12. Invulling van X = 12 in één van beide vergelijkingen (bijvoorbeeld X + Y = 20) geeft een uitkomst van Y = 8. WIST, deeltijd F&T - 10 - Ad 2/ De substitutiemethode waarbij je de ene vergelijking invult bij de andere vergelijking. = = X+Y X 20 Y +4 De vergelijking X = Y +4 wordt nu ingevuld bij de vergelijking X + Y = 20. Op de plaats waar bij de eerste vergelijking nog een X stond, vullen we nu dus (Y + 4) in. De eerste vergelijking wordt dan als volgt: = = = = = (Y +4) + Y 2Y + 4 2Y 2Y Y 20 20 20 - 4 16 8 Dus Y = 8 en invulling van Y = 8 in één van beide vergelijkingen (bijvoorbeeld bij X + Y = 20) geeft een uitkomst van X = 12. Ad 3/ Vergelijkingen aan elkaar gelijk stellen. Bij deze methode worden beide vergelijkingen uitgedrukt in dezelfde variabele. Dan is het mogelijk om de vergelijkingen gelijk te stellen aan elkaar. X+Y X = = 20 Y +4 In de eerste vergelijking ( X + Y = 20) wordt de Y naar de andere kant gebracht. De tweede vergelijking laten we gewoon staan. De twee vergelijkingen zijn dan als volgt: X X = = 20 - Y Y +4 Dan worden de vergelijkingen aan elkaar gelijk gesteld. 20 - Y -2 Y Y = = = Y+4 -16 8 Y = 8 . Invulling van Y=8 in bijvoorbeeld de vergelijking X + Y = 20 geeft wederom een uitkomst van X = 12 WIST, deeltijd F&T - 11 - 1.5 Oplossen meerdere vergelijkingen met meerdere onbekenden Voorbeeld In een zorginstelling moet het aantal beschikbare arbeidsuren worden verdeeld. Totaal zijn er 270 uur per maand beschikbaar. De verdeling dient plaats te vinden tussen vier werknemers (werknemers A, B, C en D). De werknemers A en B willen evenveel uren. Werknemer C wil twee keer zoveel uren als A. Werknemer D wil de helft van het aantal uren van B. Hoe zou een urenverdeling die voldoet aan alle wensen er uit kunnen zien? Stel hierbij eerst de vier vergelijkingen op. De letter staat nu voor het aantal uren dat hoort bij de desbetreffende werknemer. (1) A + B + C + D = 270 (2) A = B (ofwel B = A) (3) C = 2A (4) D = 0,5B We hebben vier onbekenden en vier vergelijkingen. Er zou dus een oplossing gevonden moeten kunnen worden. Als we de gegevens van de vergelijkingen (2), (3) en (4) invullen in vergelijking (1) krijgen we de volgende vergelijking. A + A + 2A + 0,5B = 270 En omdat B = A kunnen we dit ook schrijven als A + A + 2A + 0,5A = 270 Als we de vergelijking verder uitwerken krijgen we 4,5A = 270 A = 60 (uur per maand) En aan de hand van deze uitkomst kunnen we dan ook het aantal uren voor B, C en D berekenen. B = 60 uur, C = 120 uur en D = 30 uur. Controle van het totaal aantal uren levert inderdaad 270 uur per maand op ! Alternatief… Als er in een probleem zoals hierboven geen sprake is van vaste bedragen, maar enkel van verhoudingen tussen de onbekenden, dan is er een goed en eenvoudig alternatief als oplossingsmethode. Je kunt dan beginnen met bijvoorbeeld A op 100 te stellen… en dan vast te stellen welke B, C en D daar bij horen en dan te kijken op welk totaal aantal uren je uit komt. Als je inderdaad begint met A op 100 te stellen zul je moeten uitkomen op B = 100, C = 200 en D = 50. En het totaal aantal uren is dan 450 uur. Dat is dus teveel… en de correctie die je moet maken om op een totaal aantal uur van 270 uit te komen (zoals gegeven) is met de breuk 270/450. Deze breuk kunnen we vereenvoudigen tot 3/5. Dus we moeten ons uitgangspunt dat A gelijk is aan 100 aanpassen met een factor 3/5. Ofwel A moet gelijk zijn aan 3/5 x 100 = 60 (zie voor de verdere oplossing dan de uitkomsten van hierboven). Deze methode is een goed en eenvoudig alternatief bij vergelijkingen zoals hierboven. WIST, deeltijd F&T - 12 - 1.6 Opgaven lineaire vergelijkingen (uit rekentoetsen AVANS) Opgave 1 Een jongeman wil z’n spaargeld van 89 euro besteden aan dvd’s en colaatjes Dvd’s kosten 7,98 per stuk Een cola kost 2,20 per stuk Stel de lineaire functie op waarmee het zakgeld kan worden verdeeld over dvd’s en cola’s. Opgave 2 Bereken p en q uit de volgende twee lineaire functies. p = -6q - 15 p = 8q + 69 Opgave 3 Bereken a en b uit de volgende twee lineaire functies. 8a + 26 = 16 + 3b 2b + 5 = 4a + 9 Opgave 4 Een camping heeft 10.000 m2 oppervlakte beschikbaar voor twee typen plaatsen: Type A: 80 m2 Type B: 120 m2 Stel de lineaire functie op waarmee de oppervlakte kan worden verdeeld over A en Bplaatsen. Opgave 5 Bereken p en q uit de volgende twee lineaire functies. p = - 5q + 55 p = 3,5q + 12,5 Opgave 6 Bereken m en n uit de volgende twee lineaire functies. 15 + 4m = 3n – 11 2,5n + 12 = -6m - 13 De (beknopte)_ uitkomsten van deze opgaven zijn met opzet niet in deze reader opgenomen. De uitkomsten die je eventueel hebt gevonden bij de opgaven 2, 3, 5 en 6 kun je eenvoudig zelf controleren door ze opnieuw in te vullen. In de les ontvang je de volledige uitkomsten. WIST, deeltijd F&T - 13 - 2 Tweedegraads vergelijkingen (parabolen) 2.1 Inleiding tweedegraads vergelijkingen (parabolen) Soms is er geen sprake van een eerstegraads of lineair verband maar wel van een tweedegraads verband. Voorbeelden hiervan zijn de weg van een bal door de lucht, de boog water van een fontein en de vorm van een satellietschotel. Ook in de economie zijn er talloze voorbeelden (opbrengst-, kosten- of winstfuncties) maar ook bij bedrijfscalculatie en financiering zijn er voorbeelden (zie ook toepassing in paragraaf 2.8). Een voorbeeld van een tweedegraads verband is te vinden als je gaat kijken naar de totale opbrengst van de verkoop van één bepaald product. Stel q is het aantal producten dat verkocht kan worden en p is de prijs van een dergelijk product. Op grond van een onderzocht verband tussen de consumentenvraag en de prijs is gevonden dat het verband tussen de vraag naar het aantal producten en de prijs als volgt is: p = -q + 45. Dit is nog een lineair verband (wat zorgt voor een lineaire vergelijking, een rechte lijn). Bij een bepaalde prijs vind je een aantal stuks dat op grond van interesse in het product verkocht kan worden. De lineaire grafiek die er bij hoort is de volgende (q op de x-as en p op de y-as Als je een stap verder gaat, en je wil weten wat de omzet is, dan moet je berekenen wat p x q is (want omzet is gelijk aan prijs x hoeveelheid). Het wiskundig verband dat hoort bij de omzet is als volgt te vinden: Omzet = p x q = (-q + 45) x q = -q2 + 45q. En de formule omzet = -q2 + 45q is dus een tweedegraads verband. De grafiek die er bij hoort is de volgende parabool (q op de x-as en de omzet op de y-as). WIST, deeltijd F&T - 14 - De hiervoor getekende grafiek is de grafiek die hoort bijeen tweedegraads vergelijking zoals hiervoor omschreven (omzet = -q2 + 45q). In het vervolg van dit hoofdstuk gaan wij ons bezig houden met dit soort tweedegraads vergelijkingen (parabolen). Het tekenen op zich van een dergelijke tweedegraads vergelijking vormt geen onderwerp in deze module. Desondanks zal regelmatig middels een tekening een en ander worden toegelicht. 2.2 Vinden van snijpunten van een parabool met de y-as. Snijpunten van een tweedegraadsfunctie met de y-as zijn eenvoudig te vinden als je je realiseert wat er zo bijzonder is aan een snijpunt met de y-as. Bij een dergelijk snijpunt geldt dat de waarde van x gelijk is aan 0 (nul). Door voor x de waarde nul in te vullen vind je dan het snijpunt. Het kan overigens maar maximaal één snijpunt met de y-as zijn dat je vindt als je kijkt naar een tweedegraads vergelijking (parabool). Voorbeeld van het snijpunt van een parabool met de y-as Stel de tweedegraadsfunctie is de volgende: y = -x2 + 45x. Voor het vinden van het snijpunt met de y-as vullen we dan x = 0 in. Als y-waarde vind je dan y = 0. Het snijpunt met de y-as is dus (0,0) (zie ook grafiek op vorige pagina). 2.3 Vinden van snijpunten van een parabool met de x-as (de ‘nulpunten’). Snijpunten van een tweedegraadsfunctie met de x-as zijn moeilijker te vinden. Maar laten we beginnen met ook hier te realiseren wat er zo bijzonder is aan een snijpunt met de x-as. Bij een dergelijk snijpunt geldt dat de waarde van y gelijk is aan 0 (nul). Door voor y de waarde nul in te vullen krijg je dan een vergelijking die je moet helpen bij het vinden van de snijpunten met de x-as (meervoud ja, want het kunnen inderdaad meerdere snijpunten zijn). We noemen de snijpunten met de x-as ook wel de ‘nulpunten’ van een grafiek. Voorbeeld snijpunt parabool met de x-as Stel de tweedegraadsfunctie is de volgende: y = -x2 + 45x. Voor het vinden van het snijpunt met de x-as vullen we dan y = 0 in. Je krijgt dan de vergelijking 0 = -x2 + 45x ofwel -x2 + 45x = 0. En hoe dan verder ? Bij dit voorbeeld kunnen we als volgt verder gaan -x2 + 45x = 0 => -x (x - 45) = 0 En dan zijn er hier twee mogelijkheden… -x (x - 45) kan alleen maar gelijk aan nul zijn als óf -x is gelijk aan nul óf als (x - 45) is gelijk aan nul. Iets anders kan niet. Dus dat betekent dat we vinden dat óf -x = 0 óf (x - 45) = 0. En dat betekent dat óf x = 0 óf x = 45. In die twee gevallen vind je dus een y-waarde van nul. De snijpunten met de x-as zijn dus (0,0) en (45,0) (zie ook grafiek op vorige pagina) We noemen deze twee punten de ‘nulpunten’ van deze parabool. WIST, deeltijd F&T - 15 - 2.4 Opgaven snijpunten van een parabool met de x- en de y-as Opgave 1 Gegeven is de volgende tweedegraadsfunctie: y = -x2 + 35x. a. Bereken de snijpunten met de y-as b. Bereken de snijpunten met de x-as. Opgave 2 Gegeven is de volgende tweedegraadsfunctie: y = -5x2 + 15x. a. Bereken de snijpunten met de y-as b. Bereken de snijpunten met de x-as. Korte antwoorden paragraaf 2.4., opgaven snijpunten van een parabool met de x-as en y-as 1. a. (0,0)… b. (0,0) en (35,0) 2. a. (0,0)… b. (0,0) en (3,0) WIST, deeltijd F&T - 16 - 2.5 Vinden van snijpunten van een parabool met de x-as (met de ABC-formule !). Soms is het nog moeilijker om de snijpunten van een tweedegraadsfunctie met de x-as te vinden. We hebben dan een formule nodig die uitgaande van een standaard tweedegraads vergelijking hulp biedt bij het vinden van de oplossingen. Eerst moeten we dan even kijken naar de algemene vorm van een tweedegraadsvergelijking. De algemene vorm ziet er als volgt uit y = ax2 + bx + c. Als voorbeeld nemen we de volgende tweedegraadsvergelijking y = -2x2 + 16x - 24. Dan hebben de letters a, b en c dus de volgende waarden: a = -2, b = 16 en c = -24. Als we bij dit voorbeeld de snijpunten van de tweedegraads functie met de x-as willen vinden, dan moeten we dus oplossen 0 = -2x2 + 16x - 24 (de waarde van y moet gelijk zijn aan nul). En zoals al in de eerste alinea gezegd, de oplossingen van een tweedegraadsvergelijking in deze vorm zijn niet altijd zo maar te vinden. Wat we daarvoor goed kunnen gebruiken is de zogenaamde ABC-formule. Deze formule bestaat al sinds 628 jaar na Christus… Hoe ze aan die formule gekomen zijn, is voor ons niet meer van belang. Wij gaan er ook nu, bijna 1400 jaar later, gewoon mee werken ! Voor het oplossen van ax2 + bx + c = 0 gebruiken we de ABC-formule 𝑥= −𝑏±√𝑏2 −4𝑎𝑐 2𝑎 Voorbeeld snijpunt parabool met de x-as Stel de tweedegraadsfunctie is dus: y = -2x2 + 16x - 24 Voor het vinden van het snijpunt met de x-as vullen we dan y = 0 in. Je krijgt dan de vergelijking 0 = -2x2 + 16x - 24 ofwel -2x2 + 16x - 24 = 0. En hoe dan verder ? Bepaal eerst wat bij deze vergelijking de letters a, b en c zijn. Zie ook hiervoor. Dus a = -2, b = 16 en c = -24. En dit gaan we dan invullen in de ABC-formule. ABC-formule 𝑥= −16 ± √(16)2 − 4∗ −2∗−24 2∗ −2 De ‘±’ in de formule zorgt er voor dat er twee oplossingen kunnen ontstaan. De ene keer gebruiken we de ‘+’ en de andere keer gebruiken we de ‘- ‘. Als we de ‘+”gebruiken krijgen we de volgende uitkomst ABC-formule 𝑥= ABC-formule 𝑥= −16 + √(16)2 − 4∗ −2∗−24 2∗ −2 −16 + √64 −4 Ofwel x = 2, dus het ene snijpunt is (2,0) WIST, deeltijd F&T - 17 - Als we de ‘-”gebruiken krijgen we de volgende uitkomst ABC-formule 𝑥= ABC-formule 𝑥= −16 − √(16)2 − 4∗ −2∗−24 2∗ −2 −16 − √64 −4 Ofwel x = 6, dus het andere snijpunt is dan (6,0) Als we de grafiek zouden tekenen zou de parabool er als volgt uit zien. Wat in deze grafiek niet te zien is, is het snijpunt met de y-as. Maar die kunnen we zelf redelijk eenvoudig nog uitrekenen. Bij een dergelijk snijpunt geldt dat de waarde van x gelijk is aan 0 (nul). Door voor x de waarde nul in te vullen vind je dan het snijpunt. Vul in de vergelijking y = -2x2 + 16x - 24 dus voor de x het getal nul in. De waarde voor y die je dan krijgt is -24. Het snijpunt met de y-as is dus het punt (0,-24). WIST, deeltijd F&T - 18 - 2.6 Bijzonderheden van tweedegraadsvergelijkingen (parabolen). In deze paragraaf worden nog een paar bijzonderheden vermeld ten aanzien van tweedegraadsvergelijkingen (parabolen) Algemene vorm De algemene vorm ziet er als volgt uit y = ax2 + bx + c. Bergparabool of dalparabool (hoe de parabool er uit ziet in een tekening) Als de a negatief is dan is sprake van een bergparabool met een maximum (zie eerdere voorbeelden en grafieken). Als de a positief is, dan is sprake van een dalparabool met een minimum. Aantal oplossingen bij vinden snijpunten met de x-as (Discriminant !) Bij het vinden van de snijpunten met de x-as geldt het volgende In het algemeen 0 = ax2 + bx + c ofwel ax2 + bx + c = 0. Als we die vergelijking oplossen met de ABC-formule, dan kunnen er óf twee oplossingen zijn, óf één oplossing, óf geen oplossingen. Dat wordt bepaald door het deel van de formule dat onder het wortelteken staat. Als b2 - 4 ac > 0 dan hebben we twee oplossingen (twee snijpunten met de x-as) Als b2 - 4 ac = 0 dan hebben we één oplossingen (precies één snijpunt met de x-as) Als b2 - 4 ac < 0 dan hebben we geen oplossingen (géén snijpunt met de x-as) Omdat dat stuk onder het wortelteken dus het aantal oplossingen onderscheidt, noemen we dat stuk ook wel de Discrimant (dus b2 - 4 ac wordt ook wel de Discriminant genoemd). Top van een parabool (extreme waarden, maximum of minimum) Het maximum of het minimum van een parabool noemen we de ‘Top’ van een parabool (dus ook een dalparabool heeft een ‘Top’ !. Je hebt het dan over de extreme waarden, uiterste waarden van een parabool. Het maximum van een bergparabool vind je precies tussen de twee snijpunten met de x-as, evenzo vind je zo het minimum van een dalparabool (als er twee snijpunten zijn, kun je het maximum of het minimum op die manier vinden). Een bergparabool geeft een symmetrische grafiek (een dalparabool net zo goed). De symmetrieas kun je vinden bij een waarde van x die bepaald wordt door de formule x = -b / 2a. Ook zo kun je het maximum of het minimum vinden want die liggen natuurlijk precies op de lijn die de symmetrieas is. WIST, deeltijd F&T - 19 - Voorbeeld maximum bij bergparabool Stel de tweedegraadsfunctie is de volgende: y = -2x2 + 16x - 24 We hebben als snijpunten met de x-as hiervoor de punten (2,0) en 6,0) gevonden. Het maximum (omdat het een bergparabool is) vind je precies tussen de x-waarden 2 en 6. Dus het maximum vind je bij de waarde van x = 4. Als je die waarde invult, vind je als maximale waarde 8 (reken maar na en controleer maar met de grafiek). Het maximum is dus te vinden in het punt (4,8). Als we de symmetrieas hadden willen gebruiken voor het bepalen van het maximum, dan hadden we als symmetrieas gevonden de lijn waarbij x gelijk is aan -b/2a ofwel waarbij x = -16/ -4 ofwel x = 4. En dit geeft dan natuurlijk weer dezelfde conclusie als vlak hiervoor aangegeven, een maximum in het punt (4,8). Ter illustratie… zo ziet de grafiek van het voorbeeld er uit … (zie eerdere grafiek) Tot slot… voor de liefhebbers… het bewijs van de ABC-formule We hebben in dit hoofdstuk geen tijd besteed aan het uitleggen van de herkomst van de ABCformule. Als je daar toch meer van wil weten en het bewijs van de ABC-formule wil zien… dan is dat bewijs hier op youtube bij de wiskunde academie te vinden. https://www.youtube.com/watch?v=pEpZIe6yXDw. WIST, deeltijd F&T - 20 - 2.7 Opgaven gebruik ABC-formule en bijzonderheden parabolen Opgave 1 Gegeven is de volgende tweedegraadsfunctie: y = -x2 + 5x - 4. a. Is hier sprake van een bergparabool of een dalparabool ? b. Bereken de snijpunten met de y-as c. Bereken de snijpunten met de x-as (met de ABC-formule !). d. Voor welke waarde van x vind je de symmetrieas? e. Bepaal de ‘Top’ van deze parabool (geef ook aan ‘minimum’ of ‘maximum’) Opgave 2 Gegeven is de volgende tweedegraadsfunctie: y = x2 - 8x +15. a. Is hier sprake van een bergparabool of een dalparabool ? b. Bereken de snijpunten met de y-as c. Bereken de snijpunten met de x-as (met de ABC-formule !). d. Voor welke waarde van x vind je de symmetrieas? e. Bepaal de ‘Top’ van deze parabool (geef ook aan ‘minimum’ of ‘maximum’) Korte antwoorden paragraaf 2.7., opgaven gebruik ABC-formule en bijzonderheden parabolen 1. a. berg… b. (0,-4) c. (1,0) en (4,0) d. x = 2,5 e. max (2,5, 2,25) 2. a. dal… b. (0,15) c. (3,0) en (5,0) d. x = 4 e. min (4, -1) Ter illustratie… zo zien de grafieken van opgaven 1 en 2 er uit… WIST, deeltijd F&T - 21 - 2.8 Toepassing, interne-opbrengstvoet (internal rate of return, IRR) De interne-opbrengstvoet of het effectief rendement is een getal, meestal uitgedrukt als percentage, dat het netto rendement van de investeringen in een project weergeeft. Het is de rekenrente waarbij de netto contante waarde van het geheel van opbrengsten en uitgaven van het project per saldo nul is. Een project is aantrekkelijk als de interne-opbrengstvoet hoog is. N.B. dit onderwerp is eerder ook al ter sprake gekomen bij het vak Bedrijfscalculatie. Essentieel bij dit onderwerp is het contant maken van de toekomstige geldstromen. De daarbij te hanteren rekenrente was bij het vak Bedrijfscalculatie gegeven, maar nu gaan we met behulp van wiskunde de rekenrente vinden waarbij de netto contante waarde precies uit komt op nul (de netto contante waarde (NCW ) wordt bepaald als de contante waarde van de opbrengsten minus de contante waarde van de uitgaven) Voorbeeld wiskundig bepalen interne-opbrengstvoet Men betaalt nu euro 100 en krijgt na één jaar euro 90 en na twee jaar euro 50. De contante waarde van de uitgave is gelijk aan euro 100 (de uitgave was direct) De contante waarde van de opbrengsten hangt af van de te hanteren rekenrente. Stel we hanteren een rekenrente van r. Dan is de contante waarde van de opbrengsten als volgt op te schrijven: 1 90 * --------(1 + r) + 1 50 * ------------(1 + r ) ^2 Voor de factor 1 / (1 + r) schrijven we nu een x. Ofwel de contante waarde van de opbrengsten is dan 90 * x + 50 * x^2 En de netto contante waarde die hoort bij het voorbeeld is dan als volgt 90 * x + 50 * x^2 - 100 De vergelijking die we dan hebben is een tweedegraads vergelijking en ziet er eenvoudigweg dus zo uit NCW = 50 x2 + 90 x - 100. Deze vergelijking geeft dus de berekening van de netto contante waarde bij een bepaalde rekenrente. De netto contante waarde is nul bij de nulpunten van deze functie. Dus we moeten gaan oplossen 50 x2 + 90 x - 100 = 0. Eerst vereenvoudigen we (door te delen door 50), dan resteert x2 + 1,80 x - 2 = 0. En met behulp van de ABC-formule vinden we dan de mogelijke antwoorden voor x. N.B. de waarden die we vinden zijn de waarden bij benadering, omdat de wortel geen mooie hele antwoorden geeft. WIST, deeltijd F&T - 22 - Voor x = 0,776 en voor x = -2,576 vind je een netto contante waarde van nul. En welke waarden van de te hanteren rekenrente ‘r’ horen hier dan bij? Als we weten dat 1 / (1 + r) gelijk is aan x, en we weten hoeveel de x is, dan kunnen we met enig gepuzzel ook wel de r vinden. De r die we vinden bij x = 0,776 is dan gelijk aan 0,289 ofwel 28,9% (controleer maar of de x dan gelijk is aan 0,776.). N.B. Als x gelijk wordt gesteld aan 1 / (1 + r) dan kunnen we met een omrekening ook gebruiken dat r dan gelijk is aan (1 - x) / x. Bij x = 0,776 vind je dan op die manier direct ook de r, die is dan (1 - 0,776) / 0,776 = 0,224 / 0,776 = 0,289 ofwel 28,9%. N.B. In deze paragraaf is de methode van uitwerking om van de x naar de r te komen nog niet echt van belang, het gaat hier gewoon om het voorbeeld van een toepassing van de tweedegraads vergelijking. Bij de uitgebreidere behandeling van het onderwerp IRR (in hoofdstuk 10) komen we in paragraaf 10.4 nog nader terug op een voorbeeld als dit en ook op de uitwerking van de x naar de r. Er is overigens wiskundig gezien nog een oplossing, namelijk bij x = -2,576 maar voor het economische voorbeeld is die oplossing niet van belang. Bij het voorgaande voorbeeld vonden we dus dat als er sprake is van een rekenrente van 28,9%, dat er dan sprake is van een netto contante waarde die nagenoeg gelijk is aan nul. De interneopbrengstvoet (de IRR) bij het voorbeeld was dus 28,9% per jaar. Het voorbeeld gaf dus een investering weer met een jaarlijks rendement van 28,9%. Kanttekening, hoe langer de periode... Bij het voorbeeld hiervoor was slechts sprake van uitgaven en opbrengsten over een periode van twee jaar. Daarom konden we ook met een tweedegraads vergelijking de oplossing vinden. Als sprake geweest zou zijn van een investeringsperiode van langer dan twee jaar, dan zouden we een wiskundige vergelijking krijgen van een hogere graad. Bij een investeringsperiode van tien jaar zou het bijvoorbeeld leiden tot een tiendegraads vergelijking. Een vergelijking met een x^10 er in dus. Dergelijke vergelijkingen zijn door ons niet meer met de hand op te lossen, maar wiskundig gezien zijn ze wel degelijk oplosbaar ! In hoofdstuk 10 gaan we uitgebreider in op de interne-opbrengstvoet ofwel IRR en dan gaan we (gebruikmakend van Excel) ook uitgebreidere berekeningen maken met betrekking tot investeringsprojecten (N.B. het gebruik van Excel wordt niet getoetst bij een tentamen). Tip: voor een eenvoudige (maar Engelstalige) introductie van het begrip IRR kun je terecht bij het volgende Youtube filmpje: https://www.youtube.com/watch?v=7w-UWuDi0fY. WIST, deeltijd F&T - 23 - MODULE ‘WIST’ Onderdeel 2 Statistiek WIST, deeltijd F&T - 24 - 1 Inleiding Statistiek Wij beginnen met een definitie… wat is Statistiek ?!: Statistiek = de wetenschap die zich bezighoudt met het verzamelen, ordenen, samenvatten, analyseren van gegevens en het trekken van conclusies hieruit, met als doel het verschaffen van overzicht van en inzicht in massaverschijnselen. Het doel van statistiek ligt bij de beslissingsondersteuning. De statistiek bewerkt de data (gegevens) en ordent deze waardoor inzicht ontstaat. Tevens kan zij door toepassing van kansmodellen op verantwoorde wijze conclusies verbinden aan deelwaarnemingen of steekproeven. Een algemeen patroon bij statistische toepassingen is het volgende: → Eerst is er een vraag of probleem. [hoe tevreden zijn de cursisten] → Vervolgens vergaart men de data. [vragen en vastleggen] → Dan bewerkt men de data zodat er informatie wordt verkregen [berekeningen maken, overzichten en tabellen maken] → Deze informatie wordt gekoppeld aan de oorspronkelijke vraag. [concreet rapport met probleem, eventuele verklaringen en conclusies] → Informatie wordt overhandigd aan opdrachtgever of beslisser. [inzicht in mate van tevredenheid van de doelgroep. Verbeteringsmaatregelen hierop af te stemmen.] Schematisch: Probleem→data verzamelen → data verwerken → informatie→beslissing Deelgebieden van de statistiek zijn: 1. Beschrijvende statistiek 2. Kansberekening. 3. Inductieve of verklarende statistiek ad 1. Beschrijvend: (voorbeelden) • productiestatistieken • loon- en weekstaten • kosten/opbrengsten statistieken • indexcijfers ad 2. De kansrekening verschaft modellen op grond waarvan je de werking van het toeval kunt berekenen. ad 3. Voorspellend of indicatief • kostenschattingen • opbrengstramingen • kwaliteitscontrole (toetsend) • marktonderzoek →omzetprognoses en afzetprognoses Uitkomsten ondersteunend voor bijvoorbeeld budgettering en planning. In hoofdstuk 2 gaan wij in op kengetallen voor het centrum en de spreiding van een reeks waarnemingsgegevens. Eerst voor losse data en vervolgens voor gegroepeerde data. Dit hoofdstuk behoort tot de beschrijvende statistiek. In hoofdstuk 3 staan wij stil bij kans en kansverdeling en tot slot komt in hoofdstuk 4 de normale verdeling aan de orde. Wij bewegen ons dan op de deelgebieden 2 en 3 van de statistiek (zie hierboven). WIST, deeltijd F&T - 25 - 2 Maatstaven voor ligging en spreiding Wij gaan in dit hoofdstuk in op enkele kengetallen op grond waarvan je een verzameling gegevens kunt karakteriseren. De data zijn al beschikbaar. Sommige data hebben betrekking op variabelen waarmee je kunt rekenen zoals leeftijd, inkomen, aftstand in km. We noemen dit kwantitatieve variabelen. Andere variabelen zijn kwalitatief: je kunt ze wel meten, maar er niet veel mee rekenen. Te denken valt aan de variabelen geslacht, politieke voorkeur, studiekeuze, tevredenheid. Je kunt hier vrijwel alleen tellen: hoeveel mannen en vrouwen in een groep? Hoeveel VVD, PVDA, PVV, CDA, D66, GroenLinks, SP, SGP etc. Deze aantallen noemen wij frequenties. Bij de variabele ‘tevredenheid’ ligt het veel moeilijker. Je zult eerst moeten nagaan wat je precies wilt meten en hoe. Daarbij is een schaalverdeling oplopend van zeer ontevreden tot zeer tevreden een optie. Eventueel geef je daar cijfers aan van –3 tot +3. Dan kan er geteld worden hoe vaak een bepaald antwoord gegeven is. Met de waarderingscijfers zou je kunnen rekenen, maar de vraag is dan wel of die rekenpartij iets zinvols oplevert. Zinvol rekenen vergt niet alleen een vrij exacte schaal, maar ook een vrij exacte betrouwbare waarneming of registratie. Daar kun je bij tevredenheid moeilijk van spreken. Vaak wil men toch een soort rapportcijfer. Dat moet je met de nodige nuancering doen. Rekenen levert niet altijd zinvolle informatie op: wie politieke partijen codeert van 1 t/m 14 kan een gemiddelde score van kiezers uitrekenen. Maar wat zegt een gemiddelde van 3,76 ? 2.1 Grafieken Het is een goede gewoonte om de uitkomsten in ingedikte vorm grafisch weer te geven. Voor grafieken bestaat veel software. Vraag je altijd eerst af wat je wilt laten zien en aan wie. Welke presentatie heeft in een bepaalde situatie toegevoegde waarde? In rapporten dienen grafieken van een juiste toelichting voorzien te zijn. De assen dienen benoemd te zijn alsook de gebruikte eenheden en een duidelijk bijschrift of titel die aangeeft wat er te zien is. Verwijs in je rapportages altijd naar deze grafieken. Om het grafische aspect in te vullen kan van Word of Excel gebruik gemaakt worden. Wij richten onze aandacht in deze reader echter verder op de meer rekenkundige zaken. (N.B. gebruik van Excel wordt niet getoetst bij tentamen). 2.2 Centrummaten bij losse waarnemingen Bij centrummaten gaat het om een aanduiding van het midden van een waarnemingsreeks. Men spreekt ook van het centrum of gemiddelde van de gegevens. Wij gaan in het onderstaande rekenkundige bewerkingen uitvoeren op reeds verkregen data. Een eerste ordening kan plaatsvinden in de vorm van tabellen. WIST, deeltijd F&T - 26 - Wij maken in de verdere tekst gebruik van de volgende datasets: ------------------------------------------------------------------------------------------------------------------------ Set 1 Met betrekking tot de leeftijd in jaren per 1 januari van dit jaar geeft een groep van 10 mensen de volgende antwoorden: 18, 22, 19, 25, 19, 22, 24, 29, 22, 20 Set 1 ------------------------------------------------------------------------------------------------------------------------ ------------------------------------------------------------------------------------------------------------------------ Set 2 Met betrekking tot woonplaats levert een groep van 25 studenten de volgende data op. De eerste bewerking- de frequenties bepalen- is al gebeurd. Onder frequentie wordt verstaan het aantal keren dat dezelfde waarde (uitkomst) optreedt. Plaats frequentie Breda 7 Roosendaal 2 Tilburg 8 Oosterhout 4 Etten-Leur 4 Totaal 25 Set 2 ------------------------------------------------------------------------------------------------------------------------ We kunnen een aantal kengetallen bepalen die heel verkort iets zeggen over de ligging van de uitkomsten. Wat is het midden, wat komt het meest voor, waar is de concentratie van uitkomsten het hoogst, welke waarde is rekenkundig gezien representatief? Kortom: meer vragen en dus ook meer antwoorden. Het ligt aan de situatie wat het meest geschikt is. We spreken hier van de maatstaven voor ligging of centrale tendentie of centrummaten en onderscheiden: • • • Modus Mediaan Rekenkundig gemiddelde WIST, deeltijd F&T - 27 - Modus De modus (afgekort Mo) is de uitkomst met de hoogste frequentie. Je moet dus eerst een frequentieverdeling maken. In set1 is de modus 22 (komt 3 x voor). In set2 is dat Tilburg. Sterk : Beperking: Toepassing: eenvoud; toepasbaar bij alle soorten variabelen; zowel kwantitatieve als kwalitatieve. Is niet gevoelig voor uitschieters; redelijk stabiel. alle andere waarden dan de modus zijn er niet in betrokken. Daar zegt het cijfer dus ook niets over, behalve dat die waarden minder frequent voorkomen. Geeft doorgaans niet het midden van de waarnemingen. Soms meer dan één modus. modaal inkomen. Mediaan Alle waarnemingen moeten eerst op grootte gerangschikt worden en dan is het de middelste waarde. De mediaan (Me) verdeelt de waarnemingen in twee helften. Bij 5 waarnemingen: de 3e. Bij 6 waarnemingen de 3,5e ofwel het gemiddelde van de 3e en de 4e . Bij even aantal: gemiddelde van de twee middelste waarnemingen. Bij set1: eerst rangschikken→ 18, 19, 19, 20, 22, 22, 22, 24, 25, 29. de mediaan is nu het gemiddelde van de 5e en 6e waarneming = (22+22)/2 =22 Bij set2 kun je geen mediaan bepalen, want er is geen natuurlijke rangorde van de uitkomsten. Sterk: Bij veel waarnemingen ongevoelig voor uitschieters die anders de zaak kunnen vertekenen. (zie rekenkundig gemiddelde). Beperking: enkel gerelateerd aan rangorde. 1,2,5,6,8 --> Me =5 1,2,5,23,38 --> Me =5. Met dit kengetal wordt enkel het midden van de waarnemingen aangeduid. Je komt de mediaan wat minder tegen. Bijvoorbeeld wel bij prijzen van verkochte woningen in een periode. (publicatie NVM) Rekenkundig gemiddelde. (RG) Deze waarde is slechts bij kwantitatieve variabelen echt zinvol. Zij wordt bepaald door de som van de waarnemingen te delen door het aantal waarnemingen. Bij een variabele x wordt het RG weergegeven door x Toegepast op set1: Set 1 bestaat uit 10 waarnemingen: Nummer| Waarde | 1 18 2 22 3 19 4 25 5 19 6 22 7 24 8 29 9 22 10 20 De variabele x heeft in set1 achtereenvolgens de waarden: x1 = 18 ; x2= 22... t/m x10 =20. Daarbij is x2=x6=x9 = 22. De personen 2, 6 en 9 zijn even oud. Het cijfertje wat aan de x hangt heet index en geeft het volgnummer in de reeks. n =het aantal waarnemingen = 10. WIST, deeltijd F&T - 28 - De formule voor het rekenkundig gemiddelde is: x = xi n Hierbij is de gekantelde M het sigmateken. Met (lees: sigma) wordt een optelling of som aangeduid. Waarde bij set1: RG = (18+ 22+ 19+ 25+19+ 22+24+ 29+22+ 20)/10 = 220/10 =22 jaar. RG is hier toevallig gelijk aan de modus. Sterk Beperking : alle informatie in de zin van alle gemeten waarden zitten er in. : gevoelig voor uitschieters. Stel leeftijden werknemers: 18, 22, 23, 29, 31 en 63 Uitschieter 63 vertekent het gemiddelde. Trekt dit omhoog waardoor de uitkomst minder representatief is voor de leeftijden in de groep als geheel. Voor set2 kunnen wij het RG uiteraard niet bepalen, want dat betreft een kwalitatieve variabele. WIST, deeltijd F&T - 29 - Rekenkundig gemiddelde bij een frequentieverdeling De data uit set1 kunnen ook in de vorm van een frequentieverdeling opgeschreven worden. Bij elke uitkomst wordt dan aangegeven hoe vaak die voorkomt. Dit levert de volgende tabel: Uitkomst x Frequentie fx 18 1 19 2 20 1 22 3 24 1 25 1 29 1 Som 10 Set 1 als frequentieverdeling Uiteraard is het gebruik van een frequentie pas zinvol als dezelfde uitkomst veel vaker voorkomt, dus als de frequenties veel hoger zijn. Het rekenkundig gemiddelde kan nu direct uit deze tabel berekend worden als een gewogen gemiddelde. Elke uitkomst wordt vermenigvuldigd met haar frequentie. Dat geeft: RG = fi xi = n (1 x18+ 2x19 + 1 x 20 + 3 x 22 + 1x24 +1x25 + 1x29) 10 = 220 = 22 10 Dus RG =22 WIST, deeltijd F&T - 30 - 2.3 Spreiding bij losse waarnemingen Naast centrummaten is er behoefte aan kengetallen die aangeven wat de variatie is die optreedt in de uitkomsten. Liggen de uitkomsten dicht bij elkaar of zijn deze erg uiteen gestrooid? Wat is de spreiding? Wij onderscheiden o.a. de volgende spreidingsmaten: • • • • Spreidingsbreedte Variantie Standaarddeviatie Variatiecoëfficiënt Spreidingsbreedte De spreidingsbreedte of range is de hoogste minus de laagste waarneming = H – L . In set1 is dat: H- L = 29-18 =11 jaar. Sterk: Eenvoud. In een groep op de basisschool vind je een leeftijdenrange van hoogstens twee jaar. Die groepen zijn qua leeftijd dus minder gespreid dan set1. Beperking: alleen uitschieters bepalen de waarde. De rest doet niet mee. In set2 is deze maatstaf niet te bepalen. Variantie De variantie vertrekt bij het rekenkundig gemiddelde. Van alle meetwaarden wordt eerst het verschil met het RG bepaald en vervolgens het gemiddelde van de kwadraten van al deze afwijkingen. Je moet dus de som van de kwadraten van alle afwijkingen uitrekenen en deze som delen door het aantal waarnemingen. We duiden de variantie aan met s2 of Var. Hieraan voegen wij soms de naam van de variabele toe en schrijven dan s2(X) respectievelijk Var(X) De formule voor de variantie is: s2 = [ ( xi - x )2 ] / n *) Toepassing op set1: RG =22 s2(X) = Var(X) = [(18-22)2 + (22-22)2 + (19-22)2+(25-22)2+ (19-22)2+(22-22)2+ (2422)2+(29-22)2+(22-22)2+ ( 20-22)2 ] /10 ➔ s2(X)=Var(X) = [16+ 0+9+9+9+0+4+49+0+4] /10 =100/10=10 Dus s2= 10 De variantie is een tussenstap bij de berekening van de standaarddeviatie. De berekening kan in een tabelvorm gegeven worden. Zie hiervoor 2.4. *) Als sprake is van een steekproef (zie verderop in deze reader) dan wordt bij de bepaling van de variantie vaak uitgegaan van een formule waarbij gedeeld wordt door ‘n-1’ in plaats van door ‘n’. Wij gebruiken in deze reader vooralsnog echter de formules die gelden voor de berekeningen ten aanzien van een gehele populatie. Een steekproef is een deel van een populatie. Later meer over steekproeven. WIST, deeltijd F&T - 31 - De standaarddeviatie De standaarddeviatie wordt aangeduid met s en s= de wortel uit de variantie. Wordt ook wel met SD aangeduid. Je hoeft dus alleen maar de wortel te nemen uit de variantie. Dus (weer in set1): s= 10 =3,16. Sterk Heeft zelfde eenheid als de waarnemingen. (Geldt bij variantie niet!) Alle waarden zijn er in betrokken. (Bij de spreidingsbreedte niet) De uitkomst is proportioneel met de meetwaarden. (Geldt voor variantie niet) Zie ook2.6 Nadeel t.o.v. spreidingsbreedte: complexere berekening Betekenis standaarddeviatie s =3,16 in set 1 Een afwijking van 3 jaar ten opzichte van het RG van 22 is heel gewoon. Dus iemand die 3 jaar ouder of jonger is dan het gemiddelde van 22 is allerminst bijzonder oud of bijzonder jong. De leeftijd van 19 ligt 19-22= 3 jaar onder het RG. Dat is ongeveer één standaarddeviatie. De leeftijd 29 ligt 29-22= 7 jaar boven het RG en dat is 7/3,16 is ruim twee standaarddeviaties. Bij grote dataverzamelingen pleegt men de waarnemingen die minstens twee keer de standaarddeviatie van het RG afwijken te bestempelen tot de uitschieters. Hoe groter de gevonden waarde van de standaarddeviatie des te meer spreiding in de dataverzameling. Variatiecoëfficiënt De variatiecoëfficiënt, aangeduide met VC is gelijk aan de standaarddeviatie gedeeld door het RG. Dus VC = s /x Dit is een relatieve spreidingsmaat. Helpt soms om te beoordelen of een standaarddeviatie groot is of niet. Hiermee is soms een vergelijking van twee groepen mogelijk. In set1 is: VC = 3,16/22= 0,14 Voorbeeld Maandsalarissen bij werkgever A: x = € 2500 met s = € 250. Maandsalarissen bij werkgever B: x = € 4000 en s = €300. Relatief: VC = 0,10 respectievelijk 0,075. In absolute zin is de spreiding bij B groter, maar in relatieve zin juist kleiner dan bij A. WIST, deeltijd F&T - 32 - 2.4 Maatstaven voor ligging en spreiding bij gegroepeerde waarnemingen Wij nemen hierbij onderstaande set3 als voorbeeld. De data betreffen de afstanden woonwerk voor 48 personen. Met de notatie 10 - < 20 worden alle afstanden tussen 10 en 20 met inbegrip van de ondergrens van 10 en met uitzondering van de bovengrens van 20 bedoeld. Bij deze notatie is dus steeds de linkergrens inbegrepen en de rechtergrens niet. Klassen mogen elkaar nooit overlappen. set3 (1) afstand in km 0 - <10 10 - <20 20- <30 30- <40 40- <50 Totaal (2) (3) frequentie fi 10 6 20 10 2 48 Midden mi 5 15 25 35 45 (4) (5) fi x mi 50 90 500 350 90 1080 (6) (mi –x) -17,5 -7,5 2,5 12,5 22,5 (7) (mi –x) 306,25 56,25 6,25 156,25 506,25 2 f i x (mi –x)2 3062,5 337,5 125 1562,5 1012,5 6100 We nemen bij de berekeningen steeds aan dat de waarnemingen regelmatig over de klassen verdeeld zijn. Dan is in elke klasse het midden representatief voor alle waarden in die klasse. Modus Het midden van de klasse met de hoogste frequentiedichtheid. Indien de klassen even breed zijn kan men gewoon de klasse met de hoogste frequentie nemen. Anders moet je de klassebreedte in de calculatie meenemen. Hierbij is het klassenmidden = mi = (linkergrens + rechtergrens) / 2 In set3: alle klassen zijn even breed. Dus de modale klasse is “20 - <30”. Het midden van die klasse is 25. De modus is dus 25 kilometer. Mediaan Deze is slechts te benaderen omdat wij niet weten hoe de waarnemingen in de klassen verdeeld zijn. Bij aanname van een gelijkmatige verdeling over de klassen kun je door interpolatie de mediaan bepalen. Je komt dan op ongeveer 24. Wij gaan daar verder niet op in. WIST, deeltijd F&T - 33 - Rekenkundig gemiddelde Bij de variabele x weergegeven door x Hierbij wordt uitgegaan van de klassenmiddens (m) en rekening gehouden met de frequenties (f). In set3: kolom (4)= kolom (2) x kolom (3) optellen en door 48 delen De formule is: x = fi .mi n In set3: RG = x = 1080/48 =22,5 km Spreidingsbreedte De spreidingsbreedte of range = rechtergrens hoogste klasse – linkergrens laagste klasse Dus de range = 50- 0 = 50 km Variantie Eerst de afwijkingen (=deviaties) bepalen (→kolom(5) ) en vervolgens de kwadraten hiervan (→ kolom (6) ) en dan in (7) het product van (2) en (6). Tot slot (6) optellen en door n delen. De formule: s2 = fi (mi - x )2 / n = 6100/48 = 127,08 {km x km} Standaarddeviatie = s = variantie = 127,08 = 11,27 km. Variatiecoëfficiënt VC VC = s /x = 11,27/22,5 =0,50. De standaarddeviatie is dus 50% van het RG en is daarmee heel groot. Er is veel spreiding en dat betekent dat het RG alleen niet zoveel informatie biedt omtrent de werkelijke afstanden van alle personeelsleden. WIST, deeltijd F&T - 34 - 2.5 Bijzondere gemiddelden • Gewogen gemiddelde: 3 tentamencijfers wegen in verhouding 1:2:3 .De gewichten zijn dan 1/6; 2/6 en 3/6. De cijfers waren achtereenvolgens 6,6 en 5. Dan is het gewogen gemiddelde =1/6 x T1 + 2/6xT2 +3/6x T3 = 1+2+2,5 =5,5 of (1xT1+2xT2+3xT3)/6= (6+12+15)/6 =33/6= 5,5 Bij gegroepeerde waarnemingen hebben wij hier al gebruik van gemaakt. • Meetkundig gemiddelde. Het rendement op een investering bedroeg in 1999 = -50% en in 2000 = +50%. Het RG is dan 0%. Het meetkundig gemiddelde is gelijk aan de groeivoet g . Die groeivoet volgt uit: (1+g)2= 0,5 x 1,5 =0,75 Dus 1+g = 0,75 = 0,8660. Dus g = - 0,134 of –13,4% per jaar. Dit stemt overeen met het samengestelde interestprincipe zoals in het eerste kwartaal behandeld bij BCA. Wanneer welk gemiddelde? Dat is een kwestie van zeer kritisch kijken naar de informatiebehoefte. Gezegd moet worden dat de mogelijkheid van meer soorten gemiddeldes voor commerciële doeleinden uitgebuit wordt. Een hogere waarde komt soms beter over. Consumenten dienen dan ook kritisch te zijn. Wat betreft rendementen op financiële producten geeft de Autoriteit Financiële Markten nadere aanwijzingen. Historische rendementen uitsluitend op basis van samengestelde interest; dus het meetkundig gemiddelde. WIST, deeltijd F&T - 35 - 2.6 Rekenkundige eigenschappen van x en s Als je gaat rekenen met meetwaarden ondergaan daardoor het RG en de standaarddeviatie veranderingen. Geldbedragen kun je in euro maar ook in duizenden euro uitdrukken. Ook kun je in plaats van de eurowaarde de dollarwaarde geven. Is eenmaal voor één van deze reeksen het RG en de SD bepaald, dan weet je die voor de andere reeksen automatisch ook. Onderstaande tabel vat enkele vertalingen samen. De eerste kolom geeft de berekende uitkomsten voor een bepaalde waarnemingsreeks. De tweede kolom betreft de reeks van waarden die allemaal 10 keer zo groot zijn als de eerste reeks. RG en SD worden dan ook 10 keer zo groot. De variantie echter 100 keer zo groot. De laatste kolom is de reeks waarvan alle waarnemingen 5 meer of groter zijn dan die in de tweede reeks. Het gemiddelde is dan ook 5 meer of groter. De SD is echter gelijk aan die van de reeks behorend bij de tweede kolom. De spreiding bij de derde kolom is immers niet anders dan bij de tweede kolom, alle resultaten zijn alleen opgeschoven. Transformatieformules RG SD Variantie x x =90 s =10 s2 =100 y = 10 x 10 x = 900 10 s =100 100 s2 = 10.000 z = 10x +5 10 x + 5 =905 10 s =100 100 s2 = 10.000 Voorbeeld (zie ook eerder voorbeeld over afstand woon-werkverkeer) De woonwerk vergoeding is 20 eurocent per km. Hoeveel bedraagt de gemiddelde vergoeding en hoeveel de totale kilometervergoeding? Bepaal ook de standaarddeviaties van deze grootheden. (zie set3) Oplossing De kilometervergoeding in euro is y =0,20x waarbij x de afstand in km. Het rekenkundig gemiddelde van x was 22,5 km (zie eerder). Dus het rekenkundig gemiddelde van y is: RG(y) = 0,20 x RG(x)= 0,20x 22,5 = 4,50 euro per werkdag. De totaal uit te betalen vergoeding per dag is dan 48 x 4,50 =216 euro. (totaal =48y) De standaarddeviatie: s(y) =0,20 x s(x) =0,20 x 11,27 = 2,25 euro. Op het totale bedrag per dag is dat 2,254 x 48 = 108,19 euro. . WIST, deeltijd F&T - 36 - 2.7 Opgaven centrum- en spreidingsmaten Opgave 1 Gegeven zijn de volgende 10 tentamenresultaten: 8,3,8,5,6,1,7,8,6,8. Bereken de modus, de mediaan, het rekenkundig gemiddelde en de standaarddeviatie. Opgave 2 De totale variabele productiekosten zijn €200.000. De vaste kosten zijn €50.000 en het productievolume is 2500 stuks. De bijbehorende omzet (alle geproduceerde stuks zijn ook verkocht) bedraagt €300.000. Bereken: a. de gemiddelde totale kosten per eenheid. b. de gemiddelde variabele kosten per eenheid c. de gemiddelde winst per eenheid. Opgave 3 De vraag hoeveel mobiele telefoons er in de gezinnen van een woonwijk zijn leidt tot het volgende overzicht: aantal mobieltjes 0 1 2 3 4 5 6 Totaal aantal gezinnen (=frequentie) 0 10 50 130 50 10 0 250 De variabele is het aantal mobiele telefoons per gezin a. Bepaal de modus, de mediaan en het rekenkundig gemiddelde. b. Bereken de standaarddeviatie (waarbij je er vanuit mag gaan dat de 250 gezinnen de gehele populatie vormen). c. Hoeveel procent van de gezinnen bezit meer dan 3 mobiele telefoons? Opgave 4. Het eindcijfer voor een thema is het gewogen gemiddelde van drie deelcijfers T1, T2 en T3. De gewichten van deze cijfers verhouden zich als 1:2:2. Anton scoort voor T1 en T2 respectievelijk 45 en 64 punten. Hoeveel punten moet Anton voor T3 halen om tenminste 55 punten als eindcijfer te behalen? WIST, deeltijd F&T - 37 - Opgave 5 Van de 100 personen die werken op een bedrijf is het maandsalaris gevraagd. De antwoorden zijn in de volgende tabel samengevat. Je mag veronderstellen dat salarissen gelijkmatig zijn verdeeld over de klassen en dat de 100 personen de gehele populatie van het bedrijf vormen. klasse in euro 500 – <1500 1500 – <2500 2500 - <3500 3500 - < 4500 4500 - < 5500 frequentie 10 20 40 20 10 Bepaal de modale klasse, het gewogen rekenkundig gemiddelde en de standaarddeviatie van het maandsalaris. Opgave 6 Bij onderneming ABC is het gemiddelde maandsalaris van de 220 werknemers 2755 euro per maand met een standaarddeviatie van 230 euro per maand. Werknemer Z verdient €3500 per maand. a. Ligt het salaris van Z binnen of buiten het interval van 3 standaarddeviaties rondom het gemiddelde? b. Wat kun je op grond hiervan omtrent het salaris van Z zeggen? c Bereken het gemiddelde jaarsalaris uitgaande van 12 maandsalarissen plus 8% vakantiegeld over dit totaalbedrag. d. Bepaal ook de standaarddeviatie van het in c bedoelde jaarinkomen. e. Hoe veranderen rekenkundig gemiddelde en standaarddeviatie van het jaarinkomen als iedereen een bonus van €1000 ontvangt? Opgave 7. Een aandelenfonds heeft afgelopen zes jaar als volgt gepresteerd: Jaar rendement 1 +10% 2 +15% 3 -10% 4 -20% 5 +20% 6 -15% Bereken het gemiddelde rendement in % per jaar. (rekenkundig en meetkundig) Opgave 8. De omzet in de afgelopen 52 weken was gemiddeld € 66.550 per week met een standaarddeviatie van € 3.267. De omzet is inclusief 21% B.T.W. Bepaal rekenkundig gemiddelde en standaarddeviatie van de omzet exclusief B.T.W. WIST, deeltijd F&T - 38 - Opgave 9 (bij vraag 9d. en vraag 9e. de transformatieformule(s) gebruiken !) In een middelgroot accountantskantoor werken 50 mensen. In de volgende frequentietabel zie je de verdeling van de maandsalarissen van de assistent-accountants. Klasse in euro’s 1000-1500 1500-2000 2000-2500 2500-3000 3000-3500 3500-4000 4000-4500 4500-5000 5000-5500 Frequentie 3 2 6 8 10 9 7 3 2 a. Bepaal de modus en de mediaan op grond van deze gegevens. b. Bereken het gemiddelde maandsalaris. c. Bereken de variantie en de standaarddeviatie van het maandsalaris. d. Bereken het gemiddelde maandsalaris en de standaarddeviatie van het maandsalaris na een algemene 5% salarisverhoging. e. Bereken het gemiddelde maandsalaris en de standaarddeviatie van het maandsalaris indien de bedrijfsleiding in plaats van de bij vraag d. aangegeven algemene procentuele salarisverhoging kiest voor een algemene salarisverhoging van € 150,-per maand. Opgave 10 Het gemiddelde rendement in de afgelopen 5 jaar en de standaarddeviatie daarvan zijn voor een aantal beleggingsfondsen in onderstaande tabel weergegeven. Fonds A B C D E Rendement 4% 5% 12% 20% 30% Standaarddeviatie 2% 4% 15% 15% 20% In het volgende is risico equivalent met standaarddeviatie: a. Voor welk fonds is het rendement gedeeld door het risico het hoogst? b. Welk van de fondsen C, D of E heeft per eenheid risico het hoogste rendement gegeven? c. Op grond van deze lijst kun je stellen dat C inferieur is (was) aan D. Waarom? WIST, deeltijd F&T - 39 - Korte antwoorden paragraaf 2.7. Opgaven centrum- en spreidingsmaten 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.. Mo =8, Me= 6,5; RG =6; SD =2,28 a. €100 b.€ 80 c. € 20 a. Mo= RG =Me =3 b. SD=0,85 c. 24% 51 punten Mo= Me =3000 euro SD = 1095,45 euro a. er rechts buiten b. extreem hoog salaris c. € 35.704,80 d. €2980,80 e. € 36.704,80 resp. €2980,80 Rekenkundig gemiddelde = 0; Meetkundig gemiddelde = –1,2% (per jaar) RG= € 55.000 en SD= € 2.700 a. Mo = Me = € 3250 b. RG = € 3.270 c. Var = 969.600 SD = € 985 d. RG = 1,05 * € 3.270 SD = 1,05 * 985 e. RG = € 3.270 + € 150 SD = 985 a. A b. E (deel rendement door SD) c. D geeft bij hetzelfde risico meer rendement WIST, deeltijd F&T - 40 - 3 Kans en kansverdeling In dit hoofdstuk gaan wij in op kans en kansverdelingen. Zodra wij over de toekomst nadenken lopen wij tegen onzekerheid aan. Onzekerheid betekent dat zich niet slechts één waarde kan voordoen, maar dat er meer mogelijkheden zijn en je op voorhand niet weet welke mogelijkheid gerealiseerd zal worden. Dit geldt voor het weer van morgen en dat van volgende week of volgende maand. De mate van onzekerheid zal met verder weg liggend moment toenemen. De afzet en de prijzen van volgende periode of van volgend jaar zijn onbekend. Wij kunnen slechts aannames daarvoor doen binnen ons planningsprogramma. Vaak heeft men de behoefte aan een modelmatige aanpak teneinde meer gefundeerde beslissingen te kunnen nemen. In deze modellen speelt het begrip kans vaak een sleutelrol. 3.1 Wat is Kans? Het beste kun je kansen begrijpen door te analyseren hoe vaak iets voorkomt. Wij weten uit ervaring dat gemiddeld één van de twee pasgeborenen een jongen is en zeggen: De kans op een jongen is 0,5 of 50%. Relatieve frequentie en kans Onderstaande tabel geeft een overzicht van 120 personen verdeeld naar leeftijd: klasse 0 - < 20 20- <30 30- <40 40- <50 50- < 65 65- <100 Totaal aantal 35 18 17 14 15 21 120 relatieve frequentie 29% 15% 14% 12% 13% 17% 100% Voor een willekeurige persoon uit deze groep van 120 is dan: De kans op een leeftijd onder de 20 is 35/120 = 29%. De kans op een leeftijd onder de 50 is 84/120 = 70% of: (29+15+14+12)% De kans op een leeftijd van 65 jaar of ouder is 21/120=17%. Als werkbare definitie voor kans nemen wij: De kans op een waarde = de mate waarin die waarde optreedt = de relatieve frequentie van die waarde. Experimenteel kun je kansen toetsen. Wij weten dat bij een zuivere dobbelsteen alle uitkomsten dezelfde kans moeten hebben. Je zou dit kunnen toetsen door heel vaak met die dobbelsteen te gooien en alle uitkomsten te noteren en vervolgens de relatieve frequenties daarvan uit te rekenen. Bij een voldoende lange serie worpen zullen deze relatieve frequenties bij benadering gelijk moeten zijn aan 1/6. WIST, deeltijd F&T - 41 - Relatieve frequentieverdeling en kansverdeling Bij kansen gaat het om de toekomst terwijl relatieve frequenties aangeven wat er al gebeurd is en dus betrekking hebben op het verleden. De kansen moeten worden gezien als modelwaarden terwijl relatieve frequenties betrekking hebben op gerealiseerde waarden. Wij kunnen zo de verdeling van 1200 worpen met een dobbelsteen vergelijken met de uitkomsten volgens het kansmodel. Voorbeeld Wij gooien 1200 maal met een dobbelsteen. De frequentieverdeling en de kansverdeling staan in onderstaande tabel: WERKELIJKHEID uitkomst frequentie 1 190 2 210 3 181 4 219 5 189 6 211 Som 1200 relatieve frequentie 0,158 0,175 0,151 0,183 0,157 0,176 1,000 MODEL kans aantal volgens kans 1/6 (0,166) 200 1/6 200 1/6 200 1/6 200 1/6 200 1/6 200 1 1200 Het model geeft de theoretische waarden en deze zijn te bepalen voordat het experiment uitgevoerd is. Elke uitkomst zal zich gemiddeld één op de zes keer voordoen. Het experiment geeft relatieve frequenties die in de buurt van de 1/6 (= 0,1666..) liggen. De modelmatige verdeling is een kansverdeling. Deze laat alle uitkomsten zien met de bijbehorende kans. De aantallen in de laatste kolom zijn de verwachte aantallen op grond van het kansmodel. Zij worden bepaald door elke uitkomst te vermenigvuldigen met de kans daarop. Daarmee kunnen wij een kansverdeling als volgt omschrijven: Een kansverdeling = een overzicht van de mogelijke uitkomsten en de kansen daarop in de vorm van een tabel of grafiek. De uitkomsten hebben betrekking op een variabele. In het eerste voorbeeld was dat de variabele “leeftijd” en in het tweede voorbeeld de variabele “aantal ogen bij een worp met een dobbelsteen”. Variabelen geen wij doorgaans aan met letters zoals x, y , X of Y. Wij spreken hier ook wel van kansvariabelen. De waarden van die variabelen zijn immers op voorhand niet zeker. WIST, deeltijd F&T - 42 - 3.2 Centrum en spreiding bij een kansverdeling Bij een kansvariabele hoort een kansverdeling. Die verdeling kun je weer karakteriseren met behulp van kengetallen zoals wij dat al eerder hebben gezien bij dataverzamelingen. De belangrijkste kengetallen hebben betrekking op het centrum en op de spreiding van de kansverdeling. Voorbeeld Je gooit 1 keer met dobbelsteen. De waarden of uitkomsten zijn 1,2,3,4,5,6. De kansvariabele is X = aantal ogen bij een worp. X heeft als mogelijke waarden 1,2,3,...,6 met kansen daarop van 1/6. 3.2.1. Verwachtingswaarde = met kansen gewogen gemiddelde Symbool: (spreek uit als: mu) =1/6 x 1 + 1/6 x 2 + … + 1/6 x 6 = 3,5 Je ziet dat de verwachte waarde nooit gerealiseerd kan worden. De betekenis is dat bij steeds herhalen, dus bij een lange serie worpen, de gemiddelde worp bijna 3,5 is. We schrijven in plaats van μ ook wel μ(X) of E(X) =3,5. E komt van het Engelse expectation = verwachting. 3.2.2. Spreiding De bekendste spreidingsmaatstaven zijn • variatiebreedte of range • standaarddeviatie ( σ) • variantie ( σ2 of Var) • variatiecoëfficiënt (= σ / μ) De range is zeer eenvoudig te bepalen als men de meest extreme uitkomsten kent. Keerzijde is dat enkel en alleen die waarden er in betrokken zijn. Belangrijkste maatstaf is de standaarddeviatie. De standaarddeviatie is een maatstaf voor de afwijkingen ten opzichte van de verwachtingswaarde. Notatie : (spreek uit als: sigma) De hierboven gebruikte notaties met (mu) en (sigma) worden met name gebruikt als berekeningen worden gemaakt voor de hele populatie en niet voor een steekproef (een steekproef is een deel uit een populatie). Vooralsnog is in deze reader geen (rekentechnisch) onderscheid gemaakt tussen de uitwerkingen van de berekeningen voor steekproeven en populaties. Later meer over steekproeven. WIST, deeltijd F&T - 43 - Berekeningen bij de worp met een dobbelsteen: X = uitkomst van de worp X 1 2 3 4 5 6 som p 1/6 p .X 1/6 deviatie (X-) -2,5 = (X-)2 6,25 p. (X-)2 1/6 x 6,25 2 = 2,92 De range of variatiebreedte is simpelweg de hoogste minus de laagste uitkomst = 6 –1 =5. De variantie = 2 = 2,92. (nauwkeuriger is 2,9167) De standaarddeviatie = √2,92 = 1,71 (nauwkeuriger is dan 1,7078) Deze waarde is te interpreteren als een gemiddelde afwijking ten opzichte van de verwachtingswaarde 3,5. Hoe groter de waarde van de standaarddeviatie, des te meer zijn de uitkomsten gespreid rondom de verwachtingswaarde. Een kleine standaarddeviatie betekent dat de uitkomsten dicht bij de verwachtingswaarde liggen of als er grote afwijkingen zijn, deze slechts zeer incidenteel van aard zijn. De meeste uitkomsten liggen minder dan twee standaarddeviaties van het midden μ vandaan. Een ander voorbeeld illustreert dit. Voor een tentamen van een vak is de verwachting 60 punten met een standaarddeviatie van 10 punten. Gemiddeld zal een groep dan ongeveer 60 punten behalen. Er zullen vrij veel studenten een resultaat tussen de 60 – 10 =50 en 60 + 10 =70 punten behalen. Heel weinig studenten zullen lager scoren dan 60 - 3 x 10 =30 of hoger scoren dan 60+ 3 x 10 =90 punten. Terug naar het voorbeeld van de worp met een dobbelsteen De variatiecoëfficiënt = σ / μ = 1,71/3,5 = 0,4. De standaarddeviatie bedraagt 40% van de verwachting. De variatiecoëfficiënt is een relatieve spreidingsmaat. Die helpt soms om te beoordelen of een gevonden standaarddeviatie groot is of niet. Soms is aan de hand van de variatiecoëfficiënt ook een vergelijking van twee groepen mogelijk. Variantie of standaarddeviatie? De variantie is in de Statistiek vaak een tussenstap bij de berekeningen. Als het om spreiding gaat verdient de standaarddeviatie de voorkeur. De standaarddeviatie heeft namelijk altijd precies dezelfde eenheid als de waarnemingen zelf, dus reken je iets uit met euro, dan is de standaarddeviatie ook in euro. Verder gedraagt zij zich plezierig bij een lineaire transformatie, dus bijvoorbeeld bij een overstap op andere eenheden. Ga je van Euro’s naar Dollars, dan worden de bedragen ongeveer een factor 1,20 keer zo groot en de standaarddeviatie ook (zie de eerder behandelde transformatieformules). WIST, deeltijd F&T - 44 - 3.3 Rekenen met verwachtingswaarde en standaarddeviatie De verwachte afzet is 100 stuks per week met een standaarddeviatie van 5 stuks. De prijs per stuk is €900 (vaste prijs). a. De verwachte verkopen in 12 weken zijn dan: 12 x 100 =1200 stuks. b. De verwachte omzet per week is prijs x verwachte afzet = €900 x 100 = €90.000 c. De verwachte omzet in 12 weken is 12 x €90.000 = € 1.080.000 d. De standaarddeviatie van de omzet per week is 5 x €900 = €4.500 N.B. als je op basis van de bevindingen van één week de standaarddeviatie van de afzet over een periode van 12 weken wil inschatten, dan is die standaarddeviatie niet gelijk aan 12 x 5 stuks. Het gaat hier bij bovenstaand voorbeeld om de resultaten van slechts één week. En als je die gegevens wil gebruiken voor een periode van twaalf weken, dan worden de afwijkingen beperkter. Theoretisch wordt de nauwkeurigheid bij een periode van twaalf weken dan √12 keer de standaarddeviatie behorend bij één week. Vooralsnog gaan we hier niet nader in op een dergelijke berekening. Later in paragraaf 5.4 hierover meer. Wel dient nu al gerealiseerd te worden dat de hiervoor aangegeven berekening van de standaarddeviatie principieel anders (en dus niet te vergelijken) is met de eerder besproken transformatie situatie waarbij bijvoorbeeld sprake is van een transformatie met een vermenigvuldigingsfactor 12. 3.4 Risico De spreidingsmaten worden ook als risicomaatstaven gebruikt. Een belegging in Staatsleningen heeft een verwacht rendement van 4% met een standaarddeviatie van 1%. Een belegging in aandelen volgens de AEX heeft daarentegen een verwacht rendement van 8% met een standaarddeviatie van 15%. Bij de aandelenbelegging is er veel meer onzekerheid over het te behalen rendement dan bij de obligatiebelegging. Het behaalde rendement op aandelen kan in zeer sterke mate afwijken van het verwachte rendement. Dit kan zowel in gunstige als in ongunstige zin. Wie in aandelen belegt loopt daarmee veel meer risico dan iemand die in Staatsleningen belegt. Voor diverse beleggingen kun je een gebied aangeven waar de uitkomsten met een zekere waarschijnlijkheid in liggen; we noemen dat de 1, 2, en 3 sigma –intervallen. Zie ook verder in deze reader bij paragraaf 4.2. Elk interval heeft dan een ondergrens (‘laag’)en een bovengrens (‘hoog’). De 2 sigma- grenzen (µ ± 2σ) voor het rendement zijn: Staatsleningen Aandelen Laag (µ - 2σ) 2% -22% Hoog (µ + 2σ) 6% +38% Kijk je naar een individueel aandeel dan zie je daarbij verschillende risicograden. Voor een aandeel als Koninklijke Olie is de standaarddeviatie bijvoorbeeld 20% en voor ASML wel 35%. De koersrendementen van ASML fluctueren veel sterker in de tijd. Dat geldt evenzo voor de resultaten van die onderneming. WIST, deeltijd F&T - 45 - 3.5 Opgaven kans en kansverdeling Opgave 1 Onderstaande tabel geeft de kansen op winst en verlies bij een kansspel. winst verlies bedrag(€) kans 10 -10 0,60 0,40 a. Bereken de verwachte waarde. b. Bereken de standaarddeviatie. c. Bereken de variatiebreedte. d. Bereken de variatiecoëfficiënt. e. Wat is de eenheid van al deze berekende grootheden? Opgave 2 Onderstaande tabel geeft de kansen op winst en verlies bij een kansspel. winst verlies bedrag(€) kans 1000 -1000 0,60 0,40 a. Bereken verwachte waarde, standaarddeviatie, variatiebreedte en variatiecoëfficiënt. b. Vergelijk de antwoorden met die op vraag 1 en verklaar de verschillen. Opgave 3 Bij een investering wordt rekening gehouden met drie scenario’s volgens onderstaand schema: scenario kans rendement Optimistisch Neutraal Pessimistisch 0,30 0,50 0,20 50% 20% -25% a. Bepaal het verwacht rendement (afronden op een heel percentage) b. Bepaal de standaarddeviatie van het rendement (afronden op een heel percentage). Dit is een graadmeter voor het risico. WIST, deeltijd F&T - 46 - Opgave 4 Een gokspelletje werkt op de volgende manier. Je legt per worp 3 euro in. Vervolgens gooi je een dobbelsteen en krijg je het aantal ogen van de worp in euro’s uitbetaald. Om te mogen deelnemen, moet je eenmalig 25 euro entree betalen. a. Bepaal de verwachte uitbetaling bij 1 worp en de standaarddeviatie daarvan. b. Bepaal het verwachte netto resultaat per worp en de standaarddeviatie daarvan. c. Na hoeveel worpen verwacht je de entreeprijs er uit te hebben? Opgave 5 Een ondernemer overweegt over te gaan tot de verkoop van een nieuw artikel. Hij heeft hiertoe een marketingbureau om advies gevraagd, dat hem na gedegen onderzoek rapporteerde dat er 80% kans is dat dit product een bestseller wordt en 20% kans dat de verkoop redelijk zal zijn. In geval het artikel een bestseller wordt, is er 60% kans dat de concurrentie meteen op deze markt zal inspringen. De te verwachten jaarlijkse verkopen van dit artikel zijn voor de verschillende alternatieven door de ondernemer gesteld op: - bestseller zonder concurrentie : 10.000 stuks - bestseller met concurrentie : 7.000 stuks - geen bestseller : 2.000 stuks a. Bereken de verwachtingswaarde en standaarddeviatie van de jaarlijkse verkopen. De verkoopprijs van het artikel zal 27,50 bedragen. De variabele kosten zullen 14,75 per stuk en de vaste kosten zullen 60.000 per jaar bedragen. b. Bereken de verwachtingswaarde en standaarddeviatie van de jaarwinst. Korte antwoorden opgaven paragraaf 3.5, Opgaven Kans en Kansverdeling 1. a. €2 b €9,8 c.€20 d. 4,9 e. alles in euro’s behalve d. daar een getal 2. a, b en c : x 100 d, e hetzelfde 3. a. μ =20% b. σ =26% 4. a. μ=€3,5 en σ =€1,71 b. μ = €0,50 en σ =€1,71 c. 50 worpen 5. a. μ =6960 en σ = 2807 b. μ =euro 28.740 en σ = euro 35.789 WIST, deeltijd F&T - 47 - 4 De normale verdeling 4.1 Inleiding In hoofdstuk 4 zijn we ingegaan op verwachte waarde en standaarddeviatie. De verwachte waarde geeft een indicatie van de waarde die op de lange duur bij herhaling van een experiment gemiddeld te behalen is. De standaarddeviatie is een maatstaf voor de spreiding rondom de verwachte waarde. In de praktijk houdt men vaak rekening met afwijkingen tot 2 standaarddeviaties ten opzichte van de verwachte waarde. Men verkrijgt dan een interval of range: verwachte waarde plus of min 2 x de standaarddeviatie. Bij een verwachte waarde van 8% en een standaarddeviatie van 5% gaat het om het interval 8 plus of min 2 x 5 oftewel het interval [-2%; 18%]. Onder zekere voorwaarden geldt dat hier 95% van de waarnemingen binnen zullen vallen. In dit hoofdstuk gaan we uit van een heel speciale kansverdeling en wel de normale verdeling. Daarbij heeft men volledige informatie indien verwachte waarde en standaarddeviatie bekend zijn. Dat wil zeggen dat alle kansen te berekenen zijn zodra je deze twee waarden kent. Voor het eerst komen we hier een continue verdeling tegen. Je kunt hierbij denken aan de tijd die nodig is om een bepaalde prestatie te leveren. Een prestatienorm is bijvoorbeeld 100 stuks in 10 minuten. In werkelijkheid zal de benodigde tijd variëren in een interval rondom de 10 minuten, waarbij het aantal verschillende waarden ongelimiteerd is. De figuur hieronder geeft een waargenomen reeks van 100 productietijden weer. Productietijden 25 frequentie 20 15 10 5 0 8 9 10 11 12 tijd (minuten) In het onderwijs worden veel prestaties gemeten op een schaal van 1 tot 100. Dat is in principe niet continu. Maar ook in deze situatie kun je heel goed werken met een continu kansmodel. Bij voldoende grote aantallen waarnemingsgegevens zien wij dezelfde vorm terugkeren. De figuur geeft de uitslagen van 50 studenten. frequentie tentamenscores 12 10 8 6 4 2 0 35 40 45 50 55 60 65 70 75 80 85 score WIST, deeltijd F&T - 48 - Lang niet alle verschijnselen laten zich benaderen met dit zelfde type kansverdeling. Wie gaat onderzoeken hoe het zit met het kindertal in een gezin krijgt een heel ander plaatje dan in 8voorgaande voorbeelden. Alleen al het feit dat er hier sprake is van een verdeling met slechts enkele en alleen maar gehele waarden (0 t/m ... ) maakt toepassing van de normale verdeling twijfelachtig. Bovendien is deze verdeling zonder meer scheef in plaats van symmetrisch. Hetzelfde geldt voor de verdeling van salarissen voor de werknemers in een bedrijf. Ook dat is een scheve verdeling en daarom is het model van de normale verdeling niet toepasbaar. De figuur hieronder geeft de salarissen van 314 personeelsleden weer. Horizontaal de jaarsalarissen in euro en verticaal de frequenties. Salaris in euro mnd 100 80 60 40 20 0 Hieronder zie je een viertal populaire kansverdelingen. Onder iedere kansverdeling is een voorbeeld opgenomen. Wij behandelen in deze reader verder alleen de normale verdeling. (bron:https://www.uu.nl/onderwijs/open-en-gepersonaliseerd-statistiekonderwijs/lesmateriaal) WIST, deeltijd F&T - 49 - In veel beslissingsmodellen wordt uitgegaan van een normale kansverdeling. Op zijn minst moet er dan sprake zijn van een symmetrische verdeling van de uitkomsten rondom de centrale waarde. De verdelingen hebben allemaal dezelfde vorm en verschillen onderling slechts in hun waarde voor verwachting en standaarddeviatie. Voor al deze verdelingen kun je op eenvoudige wijze een middengebied aangeven waar de uitkomsten met een zekere waarschijnlijkheid in liggen; de 1, 2, en 3 sigma –intervallen. 4.2 Voor alle normale verdelingen geldt: Tussen Tussen Tussen μ – σ en μ –2σ en μ –3σ en μ + σ liggen 68,26% van de uitkomsten μ + 2σ liggen 95,44% van de uitkomsten μ + 3σ liggen 99,74% van de uitkomsten Voorbeeld: De productietijd is normaal verdeeld met μ =10 minuten en σ =0,5 minuut. Met 68,26% kans tussen 10 –1x0,5 = 9,5 en 10 + 1x0,5 = 10,5 minuten. Met een kans van 99,74% ligt de productietijd tussen 10 –3 x 0,5 =8,5 en 10+ 3 x 0,5 =11,5 minuten. Teneinde meer kansen te kunnen bepalen gaan wij eerst in op een standaard binnen de normale verdelingen en daarna komen de willekeurige normale verdelingen aan de orde. WIST, deeltijd F&T - 50 - 4.3 Standaardnormale verdeling De figuur hieronder is een weergave van een willekeurige normale verdeling. Het midden ligt bij de verwachtingswaarde van de verdeling μ. De verdeling is symmetrisch ten opzichte van μ. De breedte van de figuur wordt bepaald door de standaarddeviatie σ. Hoe groter die is des te breder en platter het plaatje. De kans op een gebeurtenis wordt weergegeven door de oppervlakte onder de kromme. De totale oppervlakte onder de curve is 1. μ De standaardnormale verdeling is een normale verdeling waarbij μ = 0 en σ = 1. Voor de standaardnormale verdeling gebruiken we meestal de letter z. De kansen die hier bij horen zijn opgenomen in een tabel die aan het eind van deze reader is opgenomen (pagina 100 en 101). Deze tabel geeft bij een waarde x de cumulatieve kans, dat wil zeggen de kans op een waarde ≤ x. De meest linkse kolom geeft de eerste twee cijfers van de z-waarde (een cijfer voor en een cijfer achter de komma) het tweede cijfer achter de komma vind je boven aan de tabel. Bij het midden μ van de verdeling hoort z=0. Wij lezen bij z=0 de waarde 0,5 af. Dat betekent dat de kans dat z ≤ 0 gelijk is aan 0,5 ofwel 50%. Dat is geen nieuws. We schrijven die kans op als: P[z ≤ 0] =0,50. De letter P komt van het Engelse probability. Bij z=1 is deze kans gestegen naar 0,8413 en bij z=2 naar 0,9772 of 97,72%. Deze uitkomst betekent dat slechts 100% - 97,72% = 2,28% van de waarden in deze verdeling boven de 2 ligt. Bij z =3 lezen wij de waarde 0,9987 af. Dus P[ z ≤ 3] =0,9987. Daarmee is P[ z > 3] =1 0,9987= 0,0013. Een uitkomst boven de 3 heeft een kans van slechts 0,13%. Bij z =1,5 vind je zo de waarde 0,9332. Dus P[ z ≤ 1,50] = 0,9332. En daarmee P[ z > 1,50] = 0,0668. Zie de figuur hieronder. De kans, dat je bij een standaardnormale verdeling een uitkomst krijgt groter dan 1,5 is 6,68 %. De kans op een z-waarde kleiner dan –1,5 is eveneens 6,68%. Met behulp van de overige kolommen kunnen wij ook voor niet-gehele z de kans aflezen. WIST, deeltijd F&T - 51 - 4.4 Kansen uitrekenen bij een willekeurige normale verdeling. Bij het berekenen van kansen van een willekeurige normale verdeling maken we gebruik van standaardisatie. We kunnen op een vrij eenvoudige manier een link leggen tussen de willekeurige normale verdeling en de standaardnormale verdeling. We nemen als voorbeeld de normale verdeling met μ =50 en σ =10. Van alle waarden van X rekenen we uit hoeveel standaarddeviaties de afwijking is van de verwachte waarde μ. Op die manier leg je de link met de standaardnormale verdeling. (1) X 50 60 70 80 ... 40 30 20 afwijking van μ 0 10 20 30 (2) afwijking als aantal standaarddeviaties 0 1 2 3 -10 -20 -30 -1 -2 -3 Kolom (1) krijg je door alle waarden van X met 50 te verminderen. De vorm van de kansverdeling blijft exact hetzelfde, alleen de verwachte waarde wordt hiermee 50-50 =0. Kolom (2) verkrijg je door de waarden in kolom (1) te delen door 10. De kansverdeling wordt hiermee gecomprimeerd met een factor 10. De standaarddeviatie wordt 10 keer zo klein en dus precies 10:10 =1. De waarden in kolom (2) zijn dus standaardnormaal verdeeld. Dus μ=0 en σ=1. Wil je weten wat de kans is dat X > 60 is dan kijk je in de standaardnormale verdeling bij z =1. De tabel geeft als cumulatieve kans: 0,8413. Dus P[ X < 60] =0,8413 en daarmee is P[ X > 60] =1-0,8413 =0,1587. Evenzo is de kans dat X > 70 even groot als de kans dat z > 2. P[z > 2] = 1 – 0,9772 = 0,0228. Dus slecht 2,28% van de uitkomsten is groter dan 70. De waarde 70 ligt 2 standaarddeviaties rechts van μ Zo vind je ook de kans dat X tussen de 60 en 70 ligt. X =60 correspondeert met z =1 en X =70 met z = 2. De gevraagde kans is dan het verschil van de tabelwaarden bij z=2 respectievelijk z=1; dus 0,9772 - 0,8413 = 0,1359 Er is een formule die direct de link legt tussen X en z: z= X–μ σ z is standaardnormaal verdeeld Met deze formule vind je: z (60) = (60-50)/10 =1 en z (70) = (70-50)/10 =2 De uitkomst van de formule is de z-waarde en deze geeft aan hoeveel standaarddeviaties X boven of onder de verwachtingswaarde ligt. WIST, deeltijd F&T - 52 - Voorbeeld De productietijd is normaal verdeeld met μ =10 minuten en σ =1 minuut. Bijzondere aandacht wordt geschonken aan hoge tijden, want dat betekent dat het te langzaam gaat. Stel dat we een tijd meten van 13 minuten. Is dat iets met weinig kans of een heel gewone uitkomst? We kunnen niet uitrekenen wat de kans op precies 13 minuten is, maar wel wat de kans op 13 of meer minuten is. Wij berekenen de z-waarde: z (13) = (13 – 10)/1 = 3. In de z-tabel lezen we bij z=3 af: 0,9987 ofwel 99,87%. Dus er is 0,13% kans op een tijd van 13 minuten of meer. Omdat de kans op een tijd van 13 minuten of langer dus wel erg klein is, kan worden geconcludeerd dat als er sprake is van 13 minuten productietijd, dat er dan sprake is van een ernstige vertraging. WIST, deeltijd F&T - 53 - 4.5 Betrouwbaarheidsintervallen. Betrouwbaarheidsintervallen zijn intervallen waarbinnen een bepaald percentage van alle uitkomsten moet vallen. Deze intervallen zijn symmetrisch rondom de verwachting μ. Het gegeven percentage noemen we de betrouwbaarheid. Je kunt deze intervallen ook zien als voorspellingsintervallen. Op voorhand weet je dat er een waarde in dit interval gaat vallen met een voorgeschreven kans. Vaak kiezen wij voor die kans 90%, 95% of 99%. Voorbeeld X is normaal verdeeld met μ = 50 en σ = 10. Gevraagd het 95% betrouwbaarheidsinterval. μ= 50 Bij 95% betrouwbaarheid hoort een rechtergrens met een cumulatieve kans van 97,5%. Dat levert een z-waarde van 1,96. De rechtergrens ligt dus bij μ + 1,96 x σ = 50 +1,96 x 10= 69,6. De linkergrens ligt dan vanwege de symmetrie bij μ–1,96 x σ = 50 –1,96 x 10 = 39,4. Het interval is dus [30,4 ; 69,6]. Op voorhand weet je dus dat er 95% kans is op een waarde tussen de 30,4 en 69,6. WIST, deeltijd F&T - 54 - 4.6 Toepassingen normale verdeling Om te weten of je een normale verdeling mag gebruiken is het raadzaam om eerst een frequentieverdeling te maken op basis van een aantal waarnemingen en die te vergelijken met de curve van de normale verdeling. Op zijn minst moet er symmetrie zijn. Voorbeelden (verifieer steeds de z-waarden en de kansen) Het intelligentiequotiënt van een 20-jarige is normaal verdeeld met een gemiddelde van 100 en een standaarddeviatie van 15. Slechts 0,13% (het 3σ -interval)heeft dan een IQ boven de 100 + 3 x 15 =145. Met 95,44% zekerheid (het 2σ -interval) ligt het IQ tussen de 100 –2 x 15 =70 en 100+ 2 x 15 =130. Het resultaat voor een landelijke toets is normaal verdeeld met een gemiddelde (verwachting) van 60 punten en een standaarddeviatie van 10 punten. Je hebt voldoende als je 55 punten of meer behaalt. De kans op een voldoende = P[score ≥ 55] =P[ z > -0,50] = 1 – 0,3085 =0,6915 = 69,15%. Met 99% zekerheid ligt de score boven de 60 – 2,33 x 10 =36,7 punten. N.B.: verifieer zelf aan de hand van de z-tabel dat hier bij 99% zekerheid een z-waarde hoort van 2,33. De levensduur van een batterij is normaal verdeeld met een gemiddelde van 40 uur en een standaarddeviatie van 2 uur. De kans dat een batterij korter dan 36 uur meegaat is dan P[levensduur<36] =P[z < -2] = 0,0228 =2,28%. De levensduur ligt met 90% zekerheid boven de 40 – 1,28 x 2 =37,44 uur. N.B.: verifieer zelf aan de hand van de z-tabel dat hier bij 90% zekerheid een z-waarde hoort van 1,28. De maandelijkse mutatie van de AEX is bijna normaal verdeeld met een verwachte waarde van 1% en een standaarddeviatie van 5%. De kans op een positief maandresultaat = P[maandresultaat > 0%] =P[z >-0,20] = 1 –0,4207 = 0,5793 = 57,93%. De kans op een rendement van meer dan 5% is P[ z > 0,80] = 1 – 0,7881 = 0,2119 =21,19% De normale verdeling en een steekproef (zie ook hierna in de reader) Verondersteld wordt dat bij een gemeentelijke administratie 4% van de declaraties onrechtmatig is. Een aselecte steekproef van 150 declaraties heeft dan naar verwachting een steekproefgemiddelde van 4% onrechtmatigheden en verder is gegeven dat er sprake is van een steekproef standaarddeviatie van 1,6%. (deze steekproef standaarddeviatie is m.b.v. een speciale formule berekend, later in paragraaf 5.4 hierover meer). Wij gaan nu een grens bepalen waar het percentage onrechtmatigheden in de steekproef met 99% kans beneden blijft. De verdeling van de onrechtmatigheden is nagenoeg normaal. Het gevraagde punt ligt rechts in de normale verdeling met een cumulatieve kans van 0,99. De bijbehorende z-waarde is 2,33 en de genoemde grens is 4% + 2,33 x 1,6% = 7,73%. Het percentage onrechtmatigheden in de steekproef ligt dan met 99% kans onder de 4% + 2,33 x 1,6% = 7,73%. Dit stemt overeen met ca 12 onrechtmatige uitkeringen. Vind je er 13 of meer, dan is de veronderstelde 4% niet langer aannemelijk. WIST, deeltijd F&T - 55 - 4.7 Opgaven bij de normale verdeling Opgave 1 Z is standaardnormaal verdeeld. Bereken de volgende kansen. Hierbij wordt met P[..] bedoeld de kans op wat tussen haakjes staat. P[Z >1] betekent de kans dat Z een waarde boven de 1 heeft. En dit komt neer op een afwijking naar boven van ten minste 1 standaarddeviatie. a. P[Z< 1,7] b. P[Z>-2,3] c. P[0<Z<1,7] d. P[Z>-0,5] e. P[-1,5< Z <1,8] Opgave 2 X is normaal verdeeld met een verwachte waarde van 25 en een standaarddeviatie van 8. Gevraagd: a. P[ X>30] b. P[20<X<30] c. P[X >15] Opgave 3 De gemiddelde middagtemperatuur in Amsterdam is in juli 20 graden met een standaarddeviatie van 2 graden. In Nice zijn de overeenkomstige waarden 30 graden en 1 graad. De gemiddelde middagtemperatuur is normaal verdeeld. a. Bereken voor beide plaatsen het 2 sigma-interval van de gemiddelde middagtemperatuur. b. Bereken voor beide plaatsen het 90% betrouwbaarheidsinterval van de gemiddelde middagtemperatuur. Opgave 4 Het benzineverbruik van een personenauto is normaal verdeeld. Het verbruik over een afstand van 100 km heeft een verwachting van 8,5 liter en een standaarddeviatie van 0,5 liter. a. Tussen welke grenzen ligt het benzineverbruik met 95,44% waarschijnlijkheid? b. Onder welke grens ligt het verbruik met een kans van 99%? Opgave 5 De losse verkopen van een dagblad bedroegen afgelopen maanden gemiddeld 180 stuks per dag met een standaarddeviatie van 15 stuks. Neem aan dat de verkopen normaal verdeeld zijn met verwachting en standaarddeviatie in overeenstemming met deze ervaringsgegevens. Hoeveel stuks moet de winkelier in voorraad hebben om een kans op nee-verkoop van maximaal 5% te hebben? Opgave 6 De verdeling van de maandelijkse inkomsten van 50 studenten is in de volgende tabel samengevat: klasse aantal 300 -< 400 22 400 - < 500 12 500 - < 600 10 600 - < 800 4 800 - < 1000 2 Is er hier sprake van een normale verdeling? (licht je antwoord kort toe) WIST, deeltijd F&T - 56 - Opgave 7 Het saldo van alle rekeninghouders van een bank is normaal verdeeld met gemiddelde € 2.100 en standaarddeviatie € 1.200 a. Hoeveel procent van de rekeninghouders staat negatief ? b. Hoeveel procent van de rekeninghouders heeft een saldo van meer dan € 1.000? Opgave 8 De verkeerspolitie heeft een onderzoek ingesteld naar de snelheid waarmee auto's een bepaalde plaats passeren waar de toegestane maximale snelheid 70 km/uur bedraagt. De verdeling van de gemeten snelheden blijkt een normale verdeling te zijn met een gemiddelde van 79 km/uur en een standaarddeviatie van 5 km/uur. a. Hoeveel % van de automobilisten houdt zich aan de snelheidsbeperking ? b. Hoeveel % overschrijdt de max. snelheid met meer dan 15 km/uur ? Opgave 9 De levensduur van een bepaald onderdeel van een auto, gemeten in aantal afgelegde kilometers, is normaal verdeeld met een gemiddelde van 100.000 km en een standaarddeviatie van 20.000 km De auto (en dus ook het betreffend onderdeel) heeft 80.000 km gereden. a. Hoe groot is de kans dat het onderdeel nog niet vervangen is ? b. Hoe groot is de kans dat het onderdeel een levensduur heeft tussen de 80.000 en 100.000 km ? Opgave 10 Het rendement op aandelen op de Nederlandse beurs is normaal verdeeld met een verwachte waarde van 12% en een standaarddeviatie van 18%. Bereken: a. de kans op winst in het komende jaar. b. de kans op verlies in het komende jaar. c. het 95% betrouwbaarheidsinterval voor het rendement in het komend jaar. Korte antwoorden paragraaf 4.7, Opgaven bij de Normale Verdeling 1. 2. 3. 4. 5. 6. 7. 8.. 9 10. a. 0,9554 b. 0,9893 c. 0,4554 d. 0,6915 e. 0,8973 a. 0,2643 b. 0,4714 c. 0,8944 a. Amsterdam [16 ; 24] en Nice [28;32] Beide in graden Celsius. b. Amsterdam: [16,7 ;23,3] en Nice [28,35 ;31,65] a. [7,5; 9,5]liter per 100 km. b. 9,67 liter 205 stuks Teken de frequentieverdeling a. 4,01% b. 82,12% a. 3,6% b. 11,5% a. 84,13% b. 34,13% a. 0,7486 b. 0,2514 c [-23,3% ;47,3%] WIST, deeltijd F&T - 57 - 5 (introductie tot) de √n -wet 5.1 Inleiding Eerder in deze reader hebben we de kansverdelingen gezien bij het gooien met een dobbelsteen. Hieronder zie je nog de toen gebruikte grafiek van de kansverdeling bij het gooien met één dobbelsteen. In 3.2 hebben we de μ bepaald op 3,5 en de σ bepaald op 1,7078. Wat is het effect op de μ en de σ als we het experiment nu uitbreiden naar het gooien met twee dobbelstenen? En we gaan dan kijken naar de som van het aantal ogen dat is gegooid. WIST, deeltijd F&T - 58 - Ook de grafiek bij dit experiment (gooien met twee dobbelstenen) hebben we al eerder gezien. We hebben toen niet verder uitgewerkt wat de bij dit experiment horende μ en σ zijn. Nu gaan we dat alsnog doen. Voor de bepaling van de μ bij dit experiment zijn eigenlijk geen ingewikkelde berekeningen nodig. Eenvoudig is in te zien dat bij het twee maal gooien met een dobbelsteen de μ gelijk is aan het tweevoud van de μ die we hebben gevonden bij het één maal gooien met een dobbelsteen. En ook aan de grafiek is duidelijk te zien dat de μ bij het experiment met twee dobbelstenen gelijk is aan 7 (alle uitkomsten liggen verspreid rondom het midden ‘7’).. Maar wat nu ten aanzien van de bepaling van de σ? Is de σ bij dit experiment dan ook twee maal de σ zoals gevonden bij het één maal gooien met een dobbelsteen ? Nee, dat is niet het geval. De spreiding is wezenlijk veranderd bij het gooien met twee dobbelstenen, er zijn ook tussenliggende uitkomsten tevoorschijn gekomen. Net als bij 3.2 kan ook hier aan de hand van de kansverdeling de μ en ook de σ worden bepaald. Op de volgende pagina is een begin gemaakt met de berekening die hier bij hoort. WIST, deeltijd F&T - 59 - Y = totale uitkomst van de twee worpen Y 1 2 3 4 5 6 7 8 9 10 11 12 som p 0 1/36 2/36 3/36 p .Y 0 2/36 6/36 12/36 deviatie (Y-) -6 -5 -4 -3 = 7 (Y-)2 36 25 16 9 p. (Y-)2 0 x 36 1/36 x 25 2/36 x 16 3/36 x 9 2 = Maak deze tabel verder af en toon aan dat μ ook hieruit blijkt dat μ gelijk is aan 7. Bereken aan de hand van de tabel ook de standaarddeviatie uit de gevonden variantie. 5.2 Herhaling experiment en effect op σ De σ bij dit experiment is dus niet gelijk aan 2 maal de μ zoals gevonden bij het gooien met één dobbelsteen. Maar de nieuwe σ had je wel eenvoudig kunnen bepalen aan de hand van de wortel n wet. De nieuwe σ is namelijk gelijk aan √2 maal de σ zoals bepaald bij het gooien met één dobbelsteen. Controleer dit met wat je op grond van bovenstaande tabel hebt gevonden. Door het experiment twee keer te doen is de standaarddeviatie σ dus gelijk geworden aan √2 maal de standaarddeviatie in de situatie dat je het experiment maar één keer uit voert. Als je een experiment doet waarbij je vijfentwintig maal gooit met een dobbelsteen en je de som van het totaal aantal gegooide ogen telt, kun je als volgt de μ en de σ bepalen. De μ is dan gelijk aan 25 maal 3,5 = 87,5 De σ is dan gelijk aan √25 maal 1,7078 = 5 maal 1,7078 = 8,539. WIST, deeltijd F&T - 60 - 5.3 Gemiddelde van waarnemingen Voorbeeld Stel de tijdsduren van een APK-keuring bij een bepaalde garage zijn volgens een normale verdeling verdeeld met μ is gelijk aan 70 (minuten) en σ is gelijk aan 10 (minuten). Zoals in hoofdstuk 4 behandeld, kunnen we op grond van het bovenstaande de volgende vraag beantwoorden: wat is de kans dat een willekeurige keuring langer duurt dan 85 minuten? Op grond van een z-waarde van 1,50 (ga na !) kom je tot het antwoord 6,68% (zoek na !). Ook kunnen we de volgende vraag beantwoorden: hoe lang duren de keuringen van de 10% keuringen die de meeste tijd vergen. Je bent hier dus op zoek naar het rechtergebied van de normale verdeling. Op grond van de gegeven kans van 10%, kun je de bijbehorende z-waarde van 1,28 vinden (ga na !). En de duur van de APK-keuring waarbij er sprake is van een z-waarde van 1,28 (bij de gegeven μ is 70 en σ is 10 is gelijk aan 82,8 (reken na!). Dan weten we dus dat 10% van alle APK-keuringen bij deze garage langer duren dan 82,8 minuten. In de praktijk gaan we vaak een aantal waarnemingen doen om daar conclusies uit te trekken. Voor de APK-keuringen wordt dan voor een aantal auto’s vastgesteld hoeveel minuten de keuring duurt. Stel dat we vier metingen hebben gedaan. En hiervan bereken we dan het gemiddelde. Wat kun je dan zeggen van het gemiddelde van deze vier waarnemingen? 5.4 Gemiddelde van standaarddeviatie bij groepje waarnemingen, de √n -wet Het gemiddelde van de vier onzekere uitkomsten (APK1, APK2, APK3, APK4) is zelf een onzekere grootheid. Als je op een bepaalde dag vier metingen van de tijdsduur van een APKkeuring doet, dan is het gemiddelde misschien 72 minuten. Maar als je een week later opnieuw vier metingen doet, is dan het gemiddelde misschien 67 minuten. Er is echter wel iets bijzonders statistisch aan de hand bij deze metingen. Gemiddelden van groepjes waarnemingen hebben de neiging om dichter in de buurt te komen van het populatiegemiddelde dan losse waarnemingen… ze liggen minder uit elkaar, minder verspreid. De standaarddeviatie van een groepje van ‘n’ waarnemingen geven we aan met σ / √n. Deze laatste formule noemen we de √n -wet. En wiskundig gezien kunnen we die standaarddeviatie ook berekenen aan de hand van onze eerdere introductie tot de √n -wet. Als we bijvoorbeeld gaan kijken naar de som (de totale tijd) van de vier metingen bij de APK keuringen en uit gaan van μ is 70 en σ is 10, dan is de verwachte som 280 minuten met een standaarddeviatie van √4 x 10 = 20 minuten. Die laatste berekening hebben we gezien in paragraaf 5.2. Maar als we nu naar het gemiddelde van de vier waarnemingen gaan kijken, dan krijgen we een gemiddelde APK-tijd van 280/4 = 70 minuten met een standaarddeviatie van 20/4 = 5 minuten. Het gemiddelde is dus gelijk aan het gemiddelde van de gehele populatie, maar de standaarddeviatie die hoort bij de vier waarnemingen is dus duidelijk kleiner. En de berekening van die standaarddeviatie is uit te rekenen met de formule σ / √n, hier 10 / √4 = 5. WIST, deeltijd F&T - 61 - Met behulp van deze rekentechniek kunnen we nu ook uitrekenen wat de kans is dat de gemiddelde keuringstijd van vier APK-keuringen langer is dan 85 minuten (vergelijk met eerdere vraag in deze paragraaf) ?! Op grond van de gegevens van de gemiddelde keuringstijd van vier APK-keuringen moet je uit gaan van een voor dit groepje waarnemingen geldende μ is 70 en σ is 5. Op grond van een z-waarde van 3,00 (ga na !) kom je tot het antwoord 0,13% (zoek na !). Terwijl bij één meting de kans op een APK-keuringstijd van langer dan 85 minuten dus 6,68% is, is in het geval van vier metingen de kans op een (gemiddelde) APK-keuringstijd van langer dan 85 minuten dus slechts 0,13%. We hebben hier een groepje van vier waarnemingen beschouwd. Het beschouwen van een klein groepje waarnemingen uit de hele populatie noemen we het nemen van een steekproef. Meer over steekproeven in het volgende hoofdstuk. WIST, deeltijd F&T - 62 - 5.5 Opgaven bij de (introductie tot) de √n -wet Opgave 1 Bij een distributiecentrum komen zeer veel vrachtwagens aan. De waarde van de ladingen die worden gedistribueerd moeten worden verzekerd tegen schade, verlies of diefstal. Wekelijks wordt er gemiddeld voor euro 1,12 miljoen gedistribueerd met een standaarddeviatie van euro 0,12 miljoen. Volgens de logistiek manager van het centrum is de wekelijkse waarde van de lading ongeveer normaal verdeeld. Voor de verzekerde waarde gaan we kijken naar het zogenaamde 3σ gebied. a. Wat is het 3σ gebied op basis van de wekelijkse waarde? b. Wat is het 3σ gebied op basis van de jaarlijkse waarde (jaar stellen op 49 weken)? c. Wat valt je op aan beide gebieden en geef hier een verklaring voor? Opgave 2 Van studenten is bekend dat de tijdsduur van hun internetgebruik per dag kan worden beschreven door een normale verdeling. Hiervoor geldt: μ is 140 minuten per dag en σ is 24 minuten. a. Hoe groot is de kans dat een willekeurige student meer dan 170 minuten per dag op het internet zit? b. Er worden 25 studenten ondervraagd. Hoe groot is de kans dat zij gemiddeld meer dan 170 minuten per dag op internet zitten? c. Er worden 25 studenten ondervraagd. Hoe groot is de kans dat zij gemiddeld minder dan 130 minuten per dag op internet zitten? d. Hoe verklaar je het verschil tussen het antwoord bij a. en het antwoord bij b. Opgave 3 In een onderzoek wordt gekeken naar de uitgaven per huishouden per kwartaal aan ‘video on demand’ (het bestellen van digitale films via de kabel). Vorig kwartaal bleek dat deze uitgaven onder de huishoudens die digitale televisie hebben, normaal verdeeld zijn met een gemiddelde besteding van μ is 40 euro per kwartaal en een standaarddeviatie van σ is 12 euro. De kabelmaatschappij heeft in de laatste week van het vorige kwartaal een reclame campagne gelanceerd en wil nagaan of hierdoor de gemiddelde besteding is toegenomen. Er is een onderzoek gedaan naar de bestedingen door te kijken naar 225 waarnemingen, namelijk de bestedingen van 225 willekeurig geselecteerde huishoudens. Pas als het gemiddelde van deze 225 waarnemingen flink afwijkt van de oorspronkelijke euro 40 per kwartaal, ziet men dit echt als een toename in de gemiddelde uitgaven aan ‘video on demand’. a. Wat is de kans dat het gemiddelde van de 225 waarnemingen boven de euro 42 ligt, als er verder niets veranderd is aan de huishoudens? b. De kans dat een dergelijk gemiddelde gevonden wordt is dus erg klein. Wat is dus de conclusie als het gemiddelde van de 225 waarnemingen wel degelijk boven de euro 42 blijkt te liggen? Korte antwoorden paragraaf 5.4., opgaven bij de (introductie tot) de de √n -wet 1. a. [euro 0,76 milj.; euro 1,48 milj.] b. [euro 52,36 milj.; euro 57,4 milj.] 2. a. 10,56% b. 0,00% c. 1,88% d. zie paragraaf 5.4 3. a. 0,62% b. …. WIST, deeltijd F&T - 63 - c. … 6 Steekproeven 6.1 Inleiding De groep waarin je geïnteresseerd bent in een onderzoek noem je de populatie. Het is vaak niet haalbaar of om kostentechnische redenen niet verantwoord om de hele populatie te onderzoeken. Je neemt daarom een steekproef. In dit hoofdstuk leer je of (en zo ja, hoe) je de eigenschappen van de steekproef kunt gebruiken om de eigenschappen van je populatie te schatten. In de praktijk neem je natuurlijk nooit steekproeven uit een populatie waarvan je alles al weet, daar neem je juist een steekproef omdat je niet alles van de populatie weet. De theorie over steekproeven die je hier leert, kun je uiteindelijk gebruiken om uitspraken te doen over één steekproef die je neemt uit een onbekende populatie. In het vorige hoofdstuk waren de vier waarnemingen met betrekking tot de APK-keuringen een steekproef. Overigens is het dan nog wel de vraag of een dergelijke kleine steekproef wel voldoende groot is om er conclusies aan te mogen verbinden. Op de vereiste grootte van een steekproef gaan wij in de volgende paragraaf nog kort in. 6.2 Representatieve steekproef, aselecte steekproef Als je onderzoek doet, bekijk je vaak specifieke eigenschappen van objecten die bij een bepaalde groep horen. Die objecten kunnen van alles zijn: mensen, bedrijven, dagen, studenten. De groep waarin je geïnteresseerd bent, noem je de populatie; de eigenschap een variabele. Soms weet je alles van de populatie. Zo weet het KNMI van elke dag in de afgelopen honderd jaar wat de temperatuur was in De Bilt. In andere situaties weet je lang niet alles van je populatie. Het is bijvoorbeeld niet haalbaar om van alle Nederlanders te weten te komen voor welke politieke partij ze zouden stemmen als er vandaag Tweede Kamerverkiezingen waren. Om hier dan toch meer over te weten te komen, kun je het wel aan een aantal Nederlanders vragen. Je neemt dan een steekproef. Bij het nemen van zo’n steekproef is het wel zaak om te letten op de achtergrond van de mensen die je een vraag omtrent hun politieke voorkeur gaat stellen. Je kunt bijvoorbeeld niet je steekproef alleen maar laten bestaan uit mensen die woonachtig zijn in de Randstad. Je moet hier dus zorgen dat je steekproef representatief is. Bepaalde groepen mensen moeten dan in dezelfde verhouding in de steekproef vertegenwoordigd zijn. Dat kan bijvoorbeeld ook gelden voor de verdeling van mannen en vrouwen. Als de populatie bestaat uit 45% vrouwen, kun je dat percentage ook terug laten komen in je steekproef. Er zou ook sprake kunnen zijn van een aselecte steekproef. Dan is sprake van een willekeurige trekking uit de populatie, iedereen heeft dan evenveel kans om gevraagd te worden om deel te nemen aan de steekproef. In de praktijk kan dit niet wenselijk zijn, omdat er dan ook een kans is dat de steekproef uit veel meer mannen bestaat dan volgens de gegevens van de gehele populatie mag worden verondersteld. WIST, deeltijd F&T - 64 - 6.3 Populatie en steekproeven, verschil in termen en symbolen Tot op heden hebben wij in deze reader geen echt onderscheid gemaakt tussen de situatie bij steekproeven en populaties ten aanzien van het gebruik van de tekens en formules. Nu is het tijd om daar wel specifieker in te zijn. De eigenschappen van een populatie, zoals centrum/ en spreidingsmaten, worden ook wel parameters genoemd. Je kunt een steekproef gebruiken om deze parameters te schatten. Daarom noem je die eigenschappen van de steekproef ook wel schatters. Voor populatiekenmerken gebruiken we: = populatiegemiddelde σ = populatiestandaardafwijking N = aantal elementen in de populatie (populatiegrootte) Voor steekproefkenmerken gebruiken we: x = steekproefgemiddelde (soms wordt hiervoor ook wel de letter ‘m’ gebruikt) s = steekproefstandaardafwijking n = aantal elementen in de steekproef (steekproefgrootte) Voorbeeld In een enquête wordt onderzocht hoeveel geld een eenpersoonshuishouden maandelijks te besteden heeft aan vrije tijd. De exacte formulering van de vraag was: “Hoeveel geld geeft u maandelijks uit aan uitgaven die verband houden met vrijetijdsbesteding.?” De enquête werd naar 750 adressen verstuurd. Omdat er nogal persoonlijke vragen werden gesteld was de respons vrij laag. Slechts 151 ingevulde enquêtes werden terug ontvangen. Ondanks de lage respons willen de onderzoekers de gegevens gebruiken voor een berekening. Het risico bestaat dat de 151 ontvangen enquêtes niet representatief zijn voor de gehele groep van 750. Aan de hand van berekeningen met een Excel-sheet en de theorie zoals ook eerder in deze reader behandeld, komt men aan de hand van de steekproef uit op de volgende gegevens. x = steekproefgemiddelde = euro 147,83 s = steekproefstandaardafwijking = euro 82,67 De onderzoekers vragen zich af hoe groot de kans is dat de gemiddelde besteding boven de euro 175 per maand lag. En hiervoor worden dus de gegevens van de steekproef gebruikt. Op grond van het grote aantal gegevens (151 enquêtes) mag verondersteld worden dat de gemiddelde besteding normaal verdeeld is (dit wordt ook wel de centrale limietstelling genoemd: bij voldoende grote steekproeven is het steekproefgemiddelde normaal verdeeld ook als de variabele in de populatie dat niet is). Voor de kwalificatie van voldoende omvang (grootte) bij een steekproef wordt vaak een grens van ongeveer dertig waarnemingen aangehouden. Er is hier dus sprake van een normale verdeling met een gelijk aan (151 x 147,83) / 151 ofwel euro 147,83 (wat op zich logisch is, het gemiddelde verandert immers niet). De berekening van de σ verloopt anders, een en ander zoals in het vorige hoofdstuk bij de √n-wet toegelicht. De σ van de gemiddelde besteding per maand is bij deze normale verdeling dan gelijk aan 82,67 / √151 = euro 6,73 De kans op een gemiddelde besteding van boven de euro 175 per maand vinden we dan aan de hand van de z-tabel bij een z-waarde van 4,04 (ga deze waarde na !). De kans er op is nihil. De uiteindelijke conclusie is dus dat er een te verwaarlozen kans is dat de gemiddelde besteding voor vrije tijd van eenpersoonshuishoudens meer bedraagt dan euro 175 per maand. WIST, deeltijd F&T - 65 - 6.4 Opgaven bij steekproeven Opgave 1 De leeftijd van eerstejaars studenten op een hogeschool voor deeltijdonderwijs is gemiddeld 22,3 jaar met een standaarddeviatie van 1,8 jaar. Stel dat je n = 36 studenten gaat loten als steekproef. a. Op welke wijze zou je kunnen loten voor deze steekproef? b. Wat is bij deze steekproef de te verwachten gemiddelde leeftijd? c. Wat is bij deze steekproef de te verwachten gemiddelde standaarddeviatie? Opgave 2 Stel dat in Nederland de gemiddelde lengte 1,78 meter is van mannen met een leeftijd tussen de veertig en zestig jaar. Verder is bekend dat voor hen de standaarddeviatie van de lengtes gelijk is aan 8 centimeter. We gaan een voldoende grote steekproef nemen. a. Wat is bij deze steekproef de te verwachten gemiddelde lengte? b. Waarom hoeft bij vraag a. de exacte grootte van de steekproef nog niet bekend te zijn? We nemen een steekproef van 64 mannen uit de genoemde leeftijdscategorie. c. Is deze steekproef groot genoeg voor de centrale limietstelling (licht je antwoord toe)? d. Wat is bij deze steekproef de te verwachten gemiddelde standaarddeviatie? e. In welk gebied of interval ligt de waarde van het steekproefgemiddelde met 95% kans? f. De steekproef is door een student genomen tijdens een veteranen basketball wedstrijd. Beïnvloedt deze informatie jouw beantwoording van de eerdere vragen (licht je antwoord in woorden toe). Korte antwoorden paragraaf 6.4., opgaven bij Steekproeven 1. a. … b. x = 22,3 jaar c. s = 0,3 2. a. x =1,78 m b. … c. ja d.. s = 1 cm e. [176,04 cm; 179,96 cm] WIST, deeltijd F&T - 66 - f. … 7 Big data (zelfstudie) 7.1 Inleiding ‘Big data’ is al enkele jaren een van de meest besproken onderwerpen. Ook de grotere accountantskantoren hebben ‘Big data’ als nieuw markt ontdekt, de big-data controle. Maar wat is ‘Big data’ eigenlijk? De grens tussen gewone gegevens, gewone data en big data wordt vaak aangeduid met de drie v’s maar soms worden er ook wel meerdere v’s aangegeven. De drie v’s betreffen de volgende belangrijkste kenmerken * Volume, het gaat om een grote hoeveelheid data; * Variety (verscheidenheid), vaak is de data niet schoon of gestructureerd maar onvolledig en ongestructureerd; * Velocity (snelheid), er komt voortdurend nieuwe data bij. De overige v’s die soms ook nog genoemd worden zijn: Value (welke waarde je uit welke gegevens kunt halen), Veracity (kwaliteit en oorsprong van gegevens) en Variability (in hoeverre en hoe snel is de structuur van de data te veranderen). 7.2 Mogelijkheden van ‘Big data’ Vandaag de dag heeft bijna elk bedrijf de mogelijkheid om een gigantische hoeveelheid data over klanten, prospects en websitebezoekers te verzamelen. Maar wat kun je daar dan vervolgens mee doen. Enkele voorbeelden: Voorbeeld, producten op maat Wanneer je de interesses, gewoonten en persoonlijke situatie van iedere klant kent, kun je je (digitale) producten op hun profiel afstemmen. Niet iedereen hoeft bijvoorbeeld dezelfde homepage van je website te zien. En je kunt bijvoorbeeld sportfans een andere startpagina tonen dan mensen die vooral affiniteit hebben met politiek. Voorbeeld, gerichte advertenties Als het over big data gaat, komt vroeg of laat Facebook ter sprake. Er is waarschijnlijk geen ander bedrijf dat zoveel van zijn klanten weet als Facebook. Het platform heeft tenslotte als doel om gebruikers zo veel mogelijk over zich zelf te laten delen. Facebook verdient enorme bedragen door adverteerders de mogelijkheid te bieden om campagnes te richten op bijna elke denkbare doelgroep, gespecificeerd naar demografische kenmerken of interesses. Adverteerders zijn bereid veel geld te investeren om precies de juiste doelgroep te bereiken. Iedere traditionele uitgever droomt van dit soort advertentie-inkomsten. Voorbeeld, datamining en voorspelmodellen Een van de meest intrigerende mogelijkheden van ‘Big data’ is de kans om er verborgen diamanten in te vinden. Dit werkt als volgt: je slaat alle klantdata die je kunt vergaren op in de cloud. Maakt niet uit als je nog geen idee hebt wat je ermee wilt gaan doen. Vervolgens ga je met datamining op zoek naar patronen in de data. De algoritmes (rekenmodellen) vinden patronen in de data die je niet had kunnen voorzien. Dit soort analyses wordt bijvoorbeeld gebruikt om verbanden te vinden tussen eigenschappen in de dna-structuur en het succes% van bepaalde medicijnen. Ook kun je wellicht samenhang ontdekken tussen eigenschappen van klanten en opzeggingen van abonnementen. Zo’n analyse kan onverwachte uitkomsten opleveren. Zo bleek bij het NRC dat abonnees met een Hotmail-adres een significant kleinere kans opleveren om op te zeggen dan abonnees met een Gmail-adres. WIST, deeltijd F&T - 67 - Een dergelijke samenhang of correlatie zegt overigens vaak nets over de causaliteit (oorzaak), abonnees zeggen niet op omdát ze een Gmail-adres hebben. Maar ergens is er een verband. Voorbeeld, voorspelmodellen Wanneer algoritmes samenhang vinden tussen bepaalde variabelen in data, kun je daar voorspellingen mee doen. De rekenmodellen van Netflix voorspellen bijvoorbeeld welke series en films passen bij jouw kijkgedrag. Telecombedrijven weten welke klanten waarschijnlijk hun abonnement gaan opzeggen. Deze voorspellingen worden automatisch gegenereerd en het voorspelmodel kan zichzelf verbeteren, dankzij zogeheten machine learning. 7.3 Meer achtergrondinformatie, bron en extra artikelen Voor dit hoofdstuk is gebruikt gemaakt van een online artikel d.d. 15 augustus 2017, Het hele artikel is hier te vinden: www.adformatie.nl/blog/het-grote-risico-van-de-big-data-hype. Meer achtergrondinformatie over ‘Big data’, de risico’s er van en de invloed van ‘Big data’ op de accountancy wereld, kun je vinden in de hierna volgende twee artikelen (bladzijde 69 en 70). Op het Blackboard zijn de pdf-files van deze twee artikelen (t.z.t.) nog te vinden. N.B. … ‘Big data’, niet alleen bij Accountancy en bij Finance & Control… Algemeen Dagblad, 8 maart 2019 WIST, deeltijd F&T - 68 - WIST, deeltijd F&T - 69 - WIST, deeltijd F&T - 70 - 8 Samenhang tussen 2 variabelen (correlatie) 8.1 Inleiding In dit hoofdstuk gaan we de samenhang tussen 2 variabelen bekijken. Het gaat dan om variabelen die we kunnen meten in getallen. Zo kun je bijvoorbeeld kijken naar de samenhang tussen het jaarinkomen van iemand en het vakantiebudget van die persoon. Het ligt voor de hand dat daar een samenhang tussen is. Op grond van metingen kunnen we die samenhang aantonen en als er inderdaad een samenhang is, dan zeggen we dat er sprake is van correlatie. Zo kan er correlatie bestaan tussen het jaarinkomen en het vakantiebudget (toenemend jaarinkomen betekent toenemend vakantiebudget) maar ook tussen de lengte en het gewicht bij volwassen mensen (toenemende lengte betekent veelal toenemend gewicht). Het effect kan overigens ook omgekeerd zijn. Er is immers ook correlatie tussen de buitentemperatuur en het aantal verkochte winterjassen per dag (dalende temperatuur betekent veelal een toename van het aantal verkochte winterjassen). Correlatie kan, maar hoeft niet perse altijd op een causaal (oorzakelijk) verband te duiden. Zo is er correlatie tussen sociale klasse en het jaarinkomen gebaseerd op de genoten opleiding (dat is dan dus de oorzaak). Maar er is ook wel eens correlatie aangetoond tussen het aantal ooievaars in een gebied en het aantal geboortes in datzelfde gebied… en dat is dus niet echt een oorzakelijk verband… we spreken in dat geval dan ook wel van nonsenscorrelatie. Afhankelijk van de soort variabelen die we meten zijn er verschillende correlatiecoëfficiënten om de correlatie te meten. De meest gebruikte, die van Karl Pearson, gaan wij in dit hoofdstuk gebruiken. 8.2 Spreidingsdiagram en puntenwolk Bij het doen van een onderzoek maak je gebruik van een populatie. Wanneer je op twee kenmerken onderzoekt, dan kun je de resultaten weergeven in een spreidingsdiagram. Voorbeeld Is er een samenhang tussen de schoenmaat van iemand en de lengte van die persoon? Op grond van een aantal metingen die zijn gedaan, krijgen we een spreidingdiagram dat er als volgt uit ziet. Omdat de combinaties hier worden weergegeven met punten, spreken we bij dit soort grafieken ook wel van een ‘puntenwolk’. WIST, deeltijd F&T - 71 - Op grond van het spreidingsdiagram op de vorige pagina kun je de conclusie trekken dat als iemand een grotere schoenmaat heeft, dat ie dan ook een grotere lengte heeft (of omgekeerd). Het gaat hier om een positief verband (hoe groter de schoenmaat, hoe groter de lengte). Het vermoeden is hier dus dat er een samenhang is, dat er correlatie is tussen schoenmaat en lengte, en wel een positieve correlatie. 8.3 Positieve correlatie, negatieve correlatie of geen correlatie Aan de hand van een spreidingsdiagram of puntenwolk kun je een eerste, voorzichtige conclusie trekken over de samenhang, over de correlatie. Daarbij zijn er dan een aantal mogelijkheden. De drie hoofdsoorten zijn dat er sprake is van een positieve correlatie, dat er sprake is van een negatieve correlatie of dat er sprake is van geen correlatie. De bijbehorende puntenwolken zie je hier. De mate van samenhang kan berekend worden aan de hand van de door de zogenaamde correlatiecoëfficiënt. Hiervoor wij verderop in dit hoofdstuk berekeningen uitvoeren. In de linker en middelste grafiek zie je dat er ook al een soort van trendlijn is getekend, dat is dan de best passende lijn bij de punten van de puntenwolk. De richting van die lijnen wordt bepaald door de correlatiecoëfficiënt. Aan de hand van de berekeningen van de correlatiecoëfficiënt gaan wij uiteindelijk ook nog berekeningen uitvoeren om te komen tot het opstellen van de vergelijking van de trendlijn. Met behulp van de trendlijn kunnen we dan uiteindelijk ook nog voorspellingen doen. Tip: voor deze inleiding van correlatie kun je ook terecht bij het volgende Youtube filmpje van de Wiskunde Academie: https://www.youtube.com/watch?v=FvZw74gz0Aw. WIST, deeltijd F&T - 72 - 8.4 Statistische analyse, enkelvoudige lineaire regressie De statistische analysemethode die we op grond van het voorgaande gaan gebruiken wordt officieel ook wel omschreven als enkelvoudige lineaire regressie. De essentie van de methode is dat we een passend model maken bij de aangeleverde data. En met dit model voorspellen we dan de waarde van een variabele (de afhankelijke variabele) op basis van de waarde van een onafhankelijke variabele (verklarende of voorspellende variabele). We gaan er bij regressie analyse dan dus wel van uit dat er sprake is van een oorzaak en een gevolg. Met al die termen klinkt het behoorlijk ingewikkeld, maar eenvoudigweg gaat het er dus eigenlijk om of je bijvoorbeeld op grond van diverse historische omzetcijfers van de ijsjes verkoop kunt voorspellen hoeveel ijs er wordt verkocht bij een bepaalde buitentemperatuur. De buitentemperatuur is dan de onafhankelijke (verklarende of voorspellende variabele) en het aantal ijsjes dat verkocht wordt is de afhankelijke variabele (die bepaalt wordt door de buitentemperatuur). De trendlijn (zie grafiek hieronder) wordt dan ook wel (lineaire) regressielijn genoemd. WIST, deeltijd F&T - 73 - 8.5 Statistische analyse, regressielijn en correlatiecoëfficiënt (Karl Pearson) Aan de hand van een eenvoudig voorbeeld zullen we de stappen doorlopen die nodig zijn om te komen tot het opstellen van de lineaire regressielijn en het berekenen van de correlatiecoëfficiënt (volgens de methode van Karl Pearson). Aan de hand daarvan kunnen we dan eventueel ook voorspellingen doen. In het voorbeeld gaan we kijken naar het verband tussen de advertentiekosten die in een bepaald kwartaal worden gemaakt en de omzet in dat kwartaal. We gaan hierbij dus van het vermoeden uit dat de omzet wordt beïnvloed door de (hoogte van de) advertentiekosten. We gaan uit van de volgende gegevens X Y Kwartaal Kosten (x 1.000) Omzet (x 1.000) 1 € 10 € 200 2 € 12 € 230 3 € 14 € 270 4 € 16 € 300 Som € 52 € 1.000 Stap 1, spreidingsdiagram (puntenwolk) Aandachtspunt bij het spreidingsdiagram is het bepalen van de afhankelijke variabele (noemen we Y) en de onafhankelijke variabele (noemen we X) De afhankelijke variabele in het voorbeeld is de omzet, immers de omzet is afhankelijk van de advertentiekosten en niet andersom. We tekenen de advertentiekosten dus op de x-as en de omzet op de y-as. Het spreidingsdiagram komt er dan als volgt uit te zien. Verband advertentiekosten en omzet €350 Omzet in (x 1.000) €300 €250 Omzet (x 1.000) €200 €150 €100 €50 €0 €0 €5 €10 €15 Advertentiekosten (x 1.000) WIST, deeltijd F&T - 74 - €20 Stap 2, het lineaire verband (met zwaartepunt of met vergelijking) Als je naar het spreidingsdiagram lijkt, dan zie je dat de omzet toeneemt naarmate de advertentiekosten stijgen. Je zou een lijn in het spreidingsdiagram kunnen tekenen. Verband advertentiekosten en omzet €350 Omzet in (x 1.000) €300 €250 Omzet (x 1.000) €200 €150 €100 €50 €0 €0 €5 €10 €15 €20 Advertentiekosten (x 1.000) De rechte lijn ligt zo dicht mogelijk langs de punten, maar je kunt zien dat de punten niet precies op de lijn liggen. De getekende lijn zou je kunnen gebruiken als eenvoudige benadering voor het doen van een voorspelling. Als hulpmiddel voor het handmatig opstellen van een rechte lijn wordt vaak gebruik gemaakt van het zogenaamde zwaartepunt van de grafiek . Dat punt heeft als x-coördinaat het gemiddelde van de x-waarden en als y-coördinaat het gemiddelde van de y-waarden. Het gemiddelde van de x-waarden is hier 52/4 = 13. Het gemiddelde van de y-waarden is hier 1.000/4 = 250. Dus een goede benadering van de rechte lijn zou dan een rechte lijn zijn die gaat door het zwaartepunt (13, 250). In plaats van een benadering van de rechte lijn, gaan wij echter de wiskundige vergelijking van de rechte lijn opstellen. Vanuit de wiskunde is bekend dat bij dit voorbeeld een lineair (rechtlijnig) verband kan worden weergegeven als Y = a + bX. Let er overigens op dat wij eerder de letters a en b andersom hebben gebruikt bij lineaire vergelijkingen. Maar in de statistische modellen wordt de hier aangegeven formule als uitgangspunt gebruikt (dit is blijkbaar historisch zo gegroeid in de statistiek…). Bij deze statistische formule is de letter a nu dus de constante en de b de richtingscoëfficiënt. Het makkelijkste om te onthouden is dat de letter waarmee de X (de onafhankelijke variabele) wordt vermenigvuldigd altijd de richtingscoëfficiënt is. WIST, deeltijd F&T - 75 - Stap 3, het lineaire model Onze gegevens zijn gebaseerd op een steekproef (het gaat maar om vier kwartalen). Het lineaire verband dat we gaan berekenen op basis van de steekproef noteren we als volgt: Y = a + bX We noemen deze functie de regressievergelijking. We gaan dus wiskundig een vergelijking bepalen van de rechte lijn die het beste past bij onze gegevens uit de steekproef. Voor het wiskundig uitwerken hebben we een aantal formules nodig. De afleiding van die formules ga je hier niet terug vinden. Het is wel de bedoeling dat je aan de hand van een aantal gegevens zelf handmatig de verwerking van de formules kunt uitvoeren. De beste methode om een rechte lijn door de meetgegevens te trekken is met behulp van de kleinste-kwadratenmethode (bedacht door Carl Friedrich Gauss). Deze methode zorgt ervoor dat de afstand van de meetpunten tot de rechte lijn zo klein mogelijk is. Met behulp van deze methode zijn de volgende twee formules voor a en b gevonden. In deze formules stelt de X bij ons voorbeeld dus de advertentiekosten voor en de Y de omzet. De letters met een streep erboven zijn de gemiddelden. ofwel Xgem is dus het gemiddelde van de advertentiekosten en ofwel Ygem is het gemiddelde van de omzet We hebben die gemiddelden al bepaald bij de bepaling van het zwaartepunt. Daar hebben we vastgesteld dat Xgem = 13 en dat Ygem = 250. De berekening van de letter ‘b’ ziet er het moeilijkst uit en daarvoor maken we (net als in eerdere statistiek hoofdstukken) weer gebruik van een tabel. De letter ‘b’ levert ons overigens uiteindelijk de richtingscoëfficiënt van de regressielijn op. Het teken dat in de formule van ‘b’ wordt gebruikt is het sommatie-teken (het is eigenlijk een Griekse hoofdletter, en spreek je uit als ‘sigma’). Dat betekent dat je een optelling moet maken op basis van alle metingen die zijn gedaan. Aan de hand van een uitwerking van de tabel voor dit voorbeeld moet een en ander duidelijker worden… WIST, deeltijd F&T - 76 - We nemen de gegevens van het voorbeeld als uitgangspunt en gaan in de kolommen van de volgende tabel de waarden bepalen die we nodig hebben volgens de formule van ‘b’. De formule voor ‘b’ is De tabel die we daarvoor nodig hebben ziet er als volgt uit. Kwartaal X Kosten (x 1.000) Y Omzet (x 1.000) X -Xgem Y-Ygem (X-Xgem)*(Y-Ygem) (X-Xgem)^2 (Y-Ygem)^2 1 € 10 € 200 € -3 € -50 € 150 €9 € 2.500 2 € 12 € 230 € -1 € -20 € 20 €1 € 400 3 € 14 € 270 €1 € 20 € 20 €1 € 400 4 € 16 € 300 €3 € 50 € 150 €9 € 2.500 Som € 52 € 1.000 €0 €0 € 340 € 20 € 5.800 Gemiddelde € 13 € 250 De gemiddelden van X en Y vind je nog eens linksonder. Om de ‘b’ te kunnen bepalen moeten we het volgende in de tabel doen * Haal van de gegevens bij X het gemiddelde van X af. Dit zie je in de tabel in de 4e kolom. * Haal van de gegevens bij Y het gemiddelde van Y af. Dit zie je in de tabel in de 5e kolom. * Vermenigvuldig de gegevens van de 4e en 5e kolom twee aan twee, dit levert de 6e kolom op. Tel deze kolom ook nog op (dat is dan de sommatie). * kwadrateer de 4e en 5e kolom term voor term. Dit staat dan uiteindelijk in de 7e en 8e kolom. Tel de gegevens van de 7e kolom op. En van de 8e kolom ook. Zo heb je een hulptabel gemaakt die het mogelijk maakt om de ‘b’ uit te rekenen. Aan de hand van de resultaten in de tabel gaan we de gegevens in de formule van ‘b’ invullen. WIST, deeltijd F&T - 77 - Boven de breukstreep staat de som van de uitkomsten van de 6e kolom (= 340). Onder de breukstreep staat de som van de uitkomsten van de 7e kolom (= 20). N.B. de som van de uitkomsten van de 8e kolom is hier nog niet nodig, maar later wel… 340 Dus b = ------- = 17 20 En nu we dan de ‘b’ hebben berekend, kunnen we ook de ‘a’ berekenen. Ofwel a = 250 - 17 * 13 = 29. Nu we ‘a’ en ‘b’ hebben bepaald kunnen we het lineaire verband opstellen. Y = a + bX wordt dan Y = 29 + 17X Stap 4, het doen van een voorspelling Als je een voorspelling moet doen, dan kun je dat nu doen aan de hand van de door ons gevonden regressievergelijking. Als iemand zou willen weten wat de verwachte omzet is bij een uitgavenpost aan advertentiekosten van € 18.000 (ofwel X =18). Dan vinden we de verwachte omzet door X=18 in te vullen in de vergelijking: Y = 29 + 17X. Dat levert dan als omzet op Y = 29 + 17* 18 = 29 + 306 = 335 (x € 1.000) ofwel € 335.000. WIST, deeltijd F&T - 78 - Stap 5, de kwaliteit van de voorspelling, berekenen correlatiecoëfficiënt (Karl Pearson) Om de kwaliteit van onze voorspelling te beoordelen gaan we nog de correlatiecoëfficiënt berekenen. Die coëfficiënt geeft aan of er op grond van onze gegevens (een steekproef) eigenlijk überhaupt wel sprake van samenhang was tussen de advertentiekosten en de omzet. Natuurlijk vermoeden wij dat wel op grond van stap 1 (het spreidingsdiagram). Maar wiskundig gezien hebben dat nog niet voldoende aangetoond. We gaan de formule voor de correlatiecoëfficiënt niet afleiden, maar kunnen daarvoor wel onze hulptabel van eerder gebruiken. De formule die wij gebruiken voor de berekening van de correlatiecoëfficiënt is de meest gebruikte formule, namelijk die van Karl Pearson (een Engels wiskundige en statisticus die leefde van 1857 tot 1936). De algemene formule voor de correlatiecoëfficiënt die wij gebruiken luidt als volgt: N.B. er wordt soms ook een andere formule gehanteerd, een formule die o.a. gebruikt maakt van de standaarddeviatie van x en y, de uitkomst van beide formules is echter exact hetzelfde. Hierbij staat de letter ‘r’ uiteindelijk dus voor de (steekproef) correlatiecoëfficiënt. En als we de waarde van ‘r’ gevonden hebben, dan gaan we die als volgt interpreteren. Als r = -1, dan hebben we een perfect dalend lineair verband Als r = 0, dan hebben we geen lineair verband Als r = 1, dan hebben we een perfect stijgend lineair verband Maar eerst de uitwerking van de formule van de (steekproef) correlatiecoëfficiënt. Aan de hand van de hulptabel berekenen we ‘r’. 340 r = ---------------------- = √ (20) * (5800) 340 ---------------- = √ 116.000 340 -------------- = 0,998 340,5877 En wat betekent nu een correlatiecoëfficiënt van 0,998… ?! Gezien onze interpretatiemogelijkheden van hierboven komen we aan de hand van een correlatiecoëfficiënt van 0,998 (bijna 1 !) tot de conclusie dat er sprake is van een bijna perfect stijgend lineair verband. N.B. er zijn behalve lineaire verbanden ook nog andere verbanden mogelijk, dus als er geen goed lineair verband is, dan kan er bijvoorbeeld nog wel een tweedegraads of derdegraads verband zijn. In dit hoofdstuk beperken wij ons echter tot de lineaire verbanden. WIST, deeltijd F&T - 79 - 8.6 Opgaven samenhang tussen 2 variabelen (correlatie) Opgave 1 Bij een onderzoek wordt gekeken naar de relatie tussen het aantal bezoekers in een supermarkt per dag en de omzet per dag. Een van de uitkomsten van het onderzoek is dat de correlatiecoëfficiënt tussen het aantal bezoekers per dag en de omzet per dag gelijk is aan r = 0,960 Wat is de interpretatie van deze waarde ? Opgave 2 Gegeven zijn vier waarden voor de correlatiecoëfficiënt Onderzoek A => r = 0,600 Onderzoek B => r = 1,000 Onderzoek C => r = -0,900 Onderzoek D => r = 0,000 En gegeven zijn de vier bijbehorende spreidingsdiagrammen, Welke waarde hoort bij welk spreidingsdiagram WIST, deeltijd F&T - 80 - Opgave 3 Op grond van een door een touroperator opgestelde vragenlijst aan klanten zijn de volgende gegevens beschikbaar gekomen. Het gaat om de leeftijd van de klant en de uitgaven die worden gedaan aan vakantie X Y Respondent Leeftijd Uitgaven (in €) 1 37 € 1.500 2 42 € 2.000 3 22 € 500 4 38 € 1.000 5 55 € 3.000 6 52 € 2.200 a. Maak aan de hand van de gegevens een spreidingsdiagram b. Bepaal het zwaartepunt van de puntenwolk c. Bepaal de lineaire regressievergelijking (‘a’ op helen afronden en ‘b’ op één decimaal) d. Bereken de correlatiecoëfficiënt (afronden op twee decimalen) en interpreteer deze e. Doe een voorspelling van de vakantie uitgaven van iemand van 40 jaar oud. Korte antwoorden paragraaf 8.6., opgaven samenhang tussen 2 variabelen (correlatie) 1. sterk stijgend lineair verband 2. A: rechtsboven, B: rechtsonder, C: linksonder, D: linksboven 3. a. zelf tekenen b. (41,1700) c. Y = 70,6* X - € 1.195 d. r = 0,94 e. €1.629 WIST, deeltijd F&T - 81 - Opgave 4 Leg onderstaande begintekst van een congresverslag uit in eigen woorden. Het gaat dan met name om het inzicht in het begrip correlatie. Extra….. nog uitwerken… Korte antwoorden paragraaf 8.6., opgaven samenhang tussen 2 variabelen (correlatie) 4. normaal negatieve correlatie tussen aandelen en obligatie… zie 8.3 wellicht steeds vaker positieve correlatie tussen aandelen en obligaties… zie 8.3 WIST, deeltijd F&T - 82 - 9 Gebruik van Excel (hoofdstuk 9 wordt niet praktisch getoetst bij tentamen) 9.1 Inleiding In deze cursus is regelmatig gebruik gemaakt van Excel voor het maken van (hulp)tabellen. Voor de berekeningen van begrippen zoals variantie, standaarddeviatie en correlatie zijn in Excel zelfs standaard functies aanwezig. Bij de opzet van deze cursus zijn wij vooralsnog uitgegaan van het handmatig (met de gewone rekenmachine) uitwerken van dergelijke berekeningen. Het is aan de studenten zelf om aan de hand van de in deze cursus gebruikte (hulp)tabellen en formules gebruik te maken van Excel bij de uitwerkingen van opgaven. Bij het tentamen zal echter geen gebruik kunnen worden gemaakt van Excel. Om studenten de mogelijkheid te bieden om zichzelf te bekwamen in het (basis)gebruik van Excel is er bij de voltijdsopleiding van AVANS een aparte course gemaakt. Die course is hier te vinden: https://bb.avans.nl/webapps/blackboard/execute/launcher?type=Course&id=_5695_1&url= (N.B. de internetlink zal nog wijzigen in verband met de overgang naar Brightspace) In die course staan allerlei video’s voor het gebruik van Excel. Die video’s beginnen met eenvoudige berekenen en eindigen uiteindelijk met activiteiten voor gevorderden, zoals het maken van draaitabellen en analyses. Met name de basisberekeningen zullen in de loop van de studie nog van pas komen. Mede daarom verwijzen wij deeltijdstudenten F&T dan ook naar het onderdeel basisvaardigheden van deze course. Ondanks dat dit onderdeel geen onderdeel vormt van het tentamen WIST, raden wij de studenten aan om deze onderwerpen als vorm van zelfstudie voorafgaand aan de start van het tweede collegejaar door te nemen. WIST, deeltijd F&T - 83 - Het onderdeel basisvaardigheden wordt onderverdeeld in de volgende onderwerpen. Voor de introductie en ook voor de daarna volgende 5 onderwerpen is een video beschikbaar. Introductie Excel basisbegrippen werkblad • • • • • • • Start Invoegen Pagina-indeling Formules Gegevens Controleren Beeld Onderwerp 1 Werkbladen • • • • • • • • Invoegen Herbenoemen Verplaatsen Kopieren Verwijderen Verbergen Beveiliging van werkbladen Afdrukken van werkbladen Onderwerp 2 Navigeren door het werkblad • • • • Schuifbalken Zoomen Vensterweergave Zoeken en selecteren Onderwerp 3 Gegevensinvoer • • • • • Celinhoud Formules invoeren Tekst invoeren Getallen invoeren Verwijzingen Onderwerp 4 Absolute en relatieve celadressen • • Celadressen Absolute en relatieve celadressen Onderwerp 5 Bewerken van de gegevens • • • • Kopiëren en verplaatsen Opmaak en opslaan Celopmaak Voorwaardelijke celopmaak WIST, deeltijd F&T - 84 - 9.2 Om uit te proberen… toepassing van hoofdstuk 8 met Excel. De uitwerking zoals verwerkt in hoofdstuk 8, paragraaf 5 kan geheel met Excel worden nagebootst (zelfs het spreidingsdiagram). Voor het tekenen van het spreidingsdiagram geven we nog een aparte instructie. Uitgangspunt is de volgende gegevenstabel (zie ook 8.5) Kwartaal Kosten (x € 1.000) Omzet (x 1.000) 1 10 200 2 12 230 3 14 270 4 16 300 Uiteindelijk moet de grafiek er dus ongeveer als volgt komen uit te zien Advertentiekosten - Omzet €350 Omzet in (x 1.000) €300 €250 Omzet (x 1.000) €200 €150 €100 €50 €0 €0 €5 €10 €15 Advertentiekosten (x 1.000) WIST, deeltijd F&T - 85 - €20 9.3 Opgave correlatie handmatig (met rekenmachine) dan wel met Excel Opgave 1 WIST, deeltijd F&T - 86 - Korte antwoorden paragraaf 9.3., opgave correlatie (handmatig dan wel met Excel)) Korte antwoorden paragraaf 9.3., opgave correlatie (handmatig dan wel met Excel)) 1. a. r = 0,8763 b. ja c. Y = 1,4430* X + 19,93 d. halfjaars 63 e. aanname 18 (afgerond naar boven) WIST, deeltijd F&T - 87 - 10 Internal Rate of Return (IRR) (hoofdstuk 10 wordt niet getoetst bij tentamen) 10.1 Inleiding Eerder (in paragraaf 2.8) hebben we al kennis gemaakt met dit begrip. De omschrijving ‘Rate of Return’ verwijst naar de snelheid waarmee het geld terugkomt (in het geval van bijvoorbeeld een investeringsproject). De Internal Rate of Return (IRR) ofwel de interne-opbrengstvoet of het effectief rendement is een getal, meestal uitgedrukt als percentage, dat het netto rendement van de investeringen in een project weergeeft. Het is de rekenrente waarbij de netto contante waarde van het geheel van opbrengsten en uitgaven van een project per saldo nul is. Een project is aantrekkelijk als de interne-opbrengstvoet hoog is. 10.2 Toepassing NPV Investment Rule (ofwel NPV Rule) Essentieel bij de toepassingen is het contant maken van de toekomstige geldstromen. Voorbeeld project Een nieuw op te starten project leidt tot de volgende geldstromen. Men betaalt nu euro 250 en krijgt na één jaar euro 35, na twee jaar euro 35, na drie jaar euro 35 enzovoorts, eeuwigdurend jaarlijks een opbrengst van euro 35 dus. De netto contante waarde is gelijk aan de contante waarde van de opbrengsten minus de contante waarde van de uitgaven. De contante waarde van de uitgave is gelijk aan euro 250 (de uitgave was direct) De contante waarde van de opbrengsten hangt af van de te hanteren rekenrente. Stel we hanteren een rekenrente van r. Omdat de opbrengsten eeuwigdurend zijn, kunnen we de contante waarde van de opbrengsten eenvoudig als volgt op te schrijven (contante waarde eeuwigdurende rij): (N.B. de gebruikte r is de rekenrente in procenten) 1 35 35 * ------ ofwel -------r r En de netto contante waarde (NCW) die hoort bij het voorbeeld is dan als volgt (35/r) - 250 Deze vergelijking geeft dus de berekening van de netto contante waarde bij een bepaalde rekenrente (omdat het om een eeuwigdurende opbrengst gaat, is de formule zelfs redelijk eenvoudig). Stel dat de financieel manager die verantwoordelijk is voor dit project een rendement eist van 10% per jaar (r = 0,10). Hij eist dit omdat het alternatief voor dit project is om het geld op een rendementsrekening te zetten van 10% per jaar en dan verder (letterlijk) niets te ondernemen. Dus daarom gaan we kijken wat het project opbrengt, uitgaande van dit rendement. Bij r = 0,10 is de NCW gelijk aan (35/0,10) - 250 = 350 - 250 = 100. Dit is positief en is de NCW van de investering. Dus de waarde van de onderneming neemt nu toe met dit bedrag als gevolg van de investering. WIST, deeltijd F&T - 88 - 10.3 Netto contante waarde (NCW) en interne opbrengstvoet (IRR) De hiervoor te hanteren rekenrente was bij het voorbeeld hiervoor al gegeven. En ook bij de NCW berekeningen bij Bedrijfscalculatie (module van het eerste kwartaal) was de rekenrente al vaak gegeven. Maar nu gaan we dus met behulp van wiskunde de rekenrente vinden waarbij de netto contante waarde precies uit komt op nul. De netto contante waarde (NCW ) wordt daarbij natuurlijk weer bepaald als de contante waarde van de opbrengsten minus de contante waarde van de uitgaven. Vervolg voorbeeld project, wiskundig bepalen interne-opbrengstvoet Op grond van het voorbeeld hiervoor hadden we vastgesteld dat de netto contante waarde kon worden bepaald met de volgende formule (35/r) - 250 Deze vergelijking geeft dus de berekening van de netto contante waarde bij een bepaalde rekenrente (in dit voorbeeld gaat het om een eeuwigdurende opbrengst, alleen daarom is de formule zelfs redelijk eenvoudig). De netto contante waarde is nul als de NCW gelijk is aan nul. Dus we moeten gaan oplossen (35/r) - 250 = 0. Het omzetten van deze vergelijking gaat als volgt (35/r) - 250 = 0 (Links en Rechts vermeerderen met 250) (35/r) = 250 (Links en Rechts vermenigvuldigen met ‘r’) 35 = r * 250 (Links en Recht omwisselen, stuk van de vergelijking met de variabele Links zetten) r * 250 = 35 (Links en Rechts delen door 250) r = 35 / 250 r = 0,14 (in procenten dus 14%) Voor een rekenrente van 14% vind je dus een netto contante waarde van nul. Bij dit voorgaande voorbeeld vinden we dus dat als er sprake is van een rekenrente van 14%, dat er dan sprake is van een netto contante waarde die gelijk is aan nul. De interneopbrengstvoet (de IRR) bij het voorbeeld is dus14% per jaar. Het voorbeeld geeft dus een investering weer met een jaarlijks rendement van 14%. WIST, deeltijd F&T - 89 - In een grafiek kunnen we nog de netto contante waardes laten zien die we kunnen vinden bij een andere rekenrente. We gebruiken dan de formule van de NCW = (35/r) - 250. En bij een rekenrente van 10% (r = 0,10) is de NCW dan gelijk aan (35/0,10) - 250 = 350 - 250 = 100. Zoals ook blijkt uit de grafiek, is de NCW alleen positief voor rekenrentes lager dan de IRR (dus hier is de NCW alleen positief voor rekenrentes lager dan 0,14 ofwel 14%). WIST, deeltijd F&T - 90 - 10.4 IRR Investment Rule (IRR Rule) Naast de NPV Investment Rule (ofwel de NPV Rule) hebben we ook nog een andere regel op grond waarvan beslissingen omtrent investeringen genomen kunnen worden. In de vorige paragraaf hebben we de achterliggende gedachte van deze IRR Investment Rule (ofwel de IRR Rule) al gezien. Eenvoudigweg komt het op het volgende neer: kies voor een project als de IRR hoger is dan het (markt)rendement dat je investeringskapitaal zou opbrengen als je niet investeert. En sla de mogelijkheid voor een project af als de IRR van dat project lager is dan het (markt)rendement dat je investeringskapitaal opbrengt als je niet investeert. Net als de NPV Rule is de IRR Rule van toepassing op op zichzelf staande projecten. Het gaat dus puur om het effect van een enkel nieuw investeringsproject. Verder is de IRR rule met name van toepassing als de investeringen voorafgaan aan de uiteindelijke opbrengsten (zie ook later in paragraaf 10.6 voor het tegenovergestelde). Voorbeeld nieuw project, investeringen voorafgaand aan de opbrengsten N.B. een soortgelijk voorbeeld hebben we in paragraaf 2.8 gezien. Een nieuw op te starten project leidt tot de volgende geldstromen. Men betaalt nu euro 180 en krijgt na één jaar euro 120 en na twee jaar euro 120. De netto contante waarde is gelijk aan de contante waarde van de opbrengsten minus de contante waarde van de uitgaven. De contante waarde van de uitgave is gelijk aan euro 180 (de uitgave was direct) De contante waarde van de opbrengsten hangt af van de te hanteren rekenrente. Stel we hanteren een rekenrente van r. (N.B. de gebruikte r is de rekenrente in procenten) Dan is de contante waarde van de opbrengsten als volgt op te schrijven: 1 120 * --------(1 + r) + 1 120 * ------------(1 + r ) ^2 Voor de factor 1 / (1 + r) schrijven we nu een x. Ofwel de contante waarde van de opbrengsten is dan 120 * x + 120 * x^2 En de netto contante waarde die hoort bij het voorbeeld is dan als volgt 120 * x + 120 * x^2 - 180 De vergelijking die we dan hebben is een tweedegraads vergelijking en ziet er eenvoudigweg dus zo uit NCW = 120 x2 + 120 x - 180. Deze vergelijking geeft dus de berekening van de netto contante waarde bij een bepaalde rekenrente. De netto contante waarde is nul bij de nulpunten van deze functie. Dus we moeten gaan oplossen 120 x 2 + 120 x - 180 = 0. WIST, deeltijd F&T - 91 - Eerst vereenvoudigen we (door te delen door 60), dan resteert 2 x2 + 2 x - 3 = 0. En met behulp van de ABC-formule vinden we dan de mogelijke antwoorden voor x. N.B. de waarden die we vinden zijn de waarden bij benadering, omdat de wortel geen mooie hele antwoorden geeft. Bepaal zelf de waarden voor a, b en c die we moeten gebruiken bij de ABC-formule (zie ook paragraaf 2.5). En reken nu zelf uit wat de nulpunten zijn. Als het goed is, vind je nulpunten voor x = 0,823 en voor x = -1,823. Dat betekent dat bij deze waarden van x de netto contante waarde gelijk is aan nul. En welke waarden van de te hanteren rekenrente ‘r’ horen hier dan bij? Als we weten dat 1 / (1 + r) gelijk is aan x, en we weten hoeveel de x is, dan kunnen we de r als volgt vinden. We nemen dan voor x = 0,823 (omdat de andere waarde van x negatief is en niet tot een praktische uitkomst leidt). 1 0,823 = --------(1 + r) (Links en Rechts met de factor (1 + r ) vermenigvuldigen) 0,823 * (1 + r) = 1 (Haakjes uit vermenigvuldigen) 0,823 + 0,823 * r = 1 (Links en Rechts verminderen met 0,823) 0,823 * r = 0,177 (Links en Rechts delen door 0,823) r = 0,177 : 0,823 r = 0,215 De r die we vinden bij x = 0,823 is dus gelijk aan 0,215 ofwel 21,5% (controleer maar of de x dan inderdaad gelijk is aan 0,823). N.B. Als x gelijk wordt gesteld aan 1 / (1 + r), dan kunnen we met een omrekening ook gebruiken dat r dan gelijk is aan (1 - x) / x. Bij x = 0,823 vind je dan op die manier direct ook de r, die is dan (1 - 0,823) / 0,823 = 0,177 / 0,823 = 0,215 ofwel 21,5%. Er is weliswaar wiskundig gezien nog een oplossing, namelijk bij x = -1,823 maar voor het economische voorbeeld is die oplossing niet van belang. WIST, deeltijd F&T - 92 - Bij het voorgaande voorbeeld vonden we dus dat als er sprake was van een rekenrente van 21,5%, dat er dan sprake was van een netto contante waarde die nagenoeg gelijk is aan nul. De interne-opbrengstvoet (de IRR) bij het voorbeeld was dus 21,5% per jaar. Het voorbeeld gaf dus een investering weer met een jaarlijks rendement van 21,5%. De tekening van de tweedegraadsvergelijking met de r ziet er als volgt uit. Bij de waarde r = 0,215 ofwel 21,5% (zie eerder) vind je dus een NCW van nul. En bij r = 0 ofwel 0% vind je in de grafiek dat dan de NCW gelijk is aan 60, maar dat had je ook eenvoudig kunnen concluderen op grond van het voorbeeld. Want in dat geval was de contante waarde van de opbrengsten gelijk aan euro 120 plus euro 120 = euro 240. En per saldo was dan dus de NCW gelijk aan euro 240 - euro 180 = euro 60. Tip: voor een soortgelijk (maar wel Engelstalige) uitleg van dit soort voorbeelden kun je ook terecht bij de volgende Youtube filmpjes: https://www.youtube.com/watch?v=KKqzSGMz9Sk en https://www.youtube.com/watch?v=3jY5o0Sl2L0 N.B. bij deze filmpjes wordt met de methode van ‘trial and error’ de IRR bepaald. WIST, deeltijd F&T - 93 - 10.5 Bepaling IRR met Excel (gebruik Excel wordt sowieso niet getoetst bij tentamen) Als sprake is van meerder jaren van opbrengsten of investeringen bij een project dan is de methode zoals gehanteerd bij het voorbeeld van paragraaf 10.4 niet toepasbaar. Zie ook de kanttekening aan het eind van paragraaf 2.8. Wiskundig gezien ontstaat dan een vergelijking van een hogere graad. Bij een investeringsperiode van 10 jaar zou het voorbeeld leiden tot een tiendegraads vergelijking. Een vergelijking met een x^10 er in dus. Dergelijke vergelijkingen zijn door ons niet meer met de hand op te lossen, maar wiskundig gezien zijn ze wel degelijk oplosbaar ! Met behulp van Excel zijn dat soort voorbeelden echter eenvoudig op te lossen. Voorbeeld nieuw project, investering voorafgaand aan de opbrengsten Een nieuw op te starten project leidt tot de volgende geldstromen. Men betaalt nu euro 45.000 en krijgt op grond van het volgende schema een aantal opbrengsten: na één jaar euro 15.000, na twee jaar euro 20.000, na drie jaar euro 25.000, na vier jaar euro 10.000 en na vijf jaar euro 5.000. Met behulp van een rekenmachine of Excel kunnen we dan de contante waardes bepalen bij verschillende rekenrentes. Maar we kunnen met behulp van een IRR functie in Excel ook meteen de IRR vinden waarbij de NCW dus gelijk is aan nul. Het onderstaande screenshot hoort bij de uitleg in het volgende Youtube filmpje (een filmpje zonder gesproken commentaar maar met Engelstalig Excel): https://www.youtube.com/watch?v=Ug74NbL81CE WIST, deeltijd F&T - 94 - Probeer het voorgaande voorbeeld thuis zelf maar eens uit te werken met Excel. Als het goed gaat komt er dus een IRR uit van bijna 23%. Dat is dus de rekenrente waarbij de NCW van het project gelijk is aan nul. In het college bij dit hoofdstuk wordt de berekening in Excel nog besproken. De berekening in Excel vormt overigens geen onderdeel van het uiteindelijke tentamen, eenvoudigweg omdat dan geen gebruik gemaakt mag worden van Excel. Op het tentamen kan wel een opdracht gegeven worden waarbij een uitwerking ook zonder Excel kan geschieden. In de Nederlandstalige versie van Excel ziet het screenshot er als volgt uit, de te gebruiken functie is dan IR. Als we gebruik kunnen maken van een dergelijke berekening in Excel, kunnen we dus ook allerlei ingewikkelde investeringsprojecten doorrekenen (zonder gebruik te hoeven maken van wiskundige formules). WIST, deeltijd F&T - 95 - 10.6 NPV Rule en IRR Rule, soms tegenstrijdig In het voorbeeld van paragraaf 10.4 was er sprake van een investering vooraf en opbrengsten daarna. We hebben toen gekeken naar onder andere de IRR Rule. In deze paragraaf kijken we nu naar een principieel ander voorbeeld. Een voorbeeld waarbij de eenmalige opbrengst vooraf wordt ontvangen en waarbij de diverse investeringen pas in de loop van het project worden gedaan. Vervolgens kijken we naar het effect op de berekeningen en gaan we na of de IRR Rule nog wel van toepassing is. Met behulp van Excel is ook een dergelijk voorbeeld op zich eenvoudig op te lossen. Voorbeeld nieuw project, opbrengst voorafgaand aan de opbrengsten Een nieuw op te starten project leidt tot de volgende geldstromen. Men ontvangt nu euro 1.000 en investeert hiervoor op grond van het volgende schema: na één jaar euro 500, na twee jaar euro 500 en na drie jaar euro 500. Met behulp van Excel komen we dan tot de volgende oplossing Bedragen Moment € 1.000 0 € -500 1 € -500 2 € -500 3 23,38% IRR De eerste conclusie is dus dan bij een rente van 23,38% er sprake is van een NCW gelijk aan nul. Dat is dan de IRR. Maar wat is nu de vervolgconclusie als de marktrente op het moment van starten van het project gelijk is aan 10%? Bij de voorgaande voorbeelden in paragraaf 10.3 en 10.4 was de NCW positief als de rekenrente lager lag dan de IRR. En bij een lagere rekenrente dan de IRR moest je het project dus eigenlijk altijd uitvoeren (dat is dan de IRR Rule). Maar is in het nieuwe voorbeeld de NCW van het project nog altijd positief als we uit gaan van een rekenrente die lager ligt dan de IRR van 23,38% ? Als je hier de NCW uitrekent bij een r van 0,10 (10%) dan komt daar het volgende uit NPV = 1.000 - 500/1,10 - 500/(1,10)^2 - 500 / 1,10^3 = -243 (een negatieve NCW !) Dus bij een rekenrente van 10% is de NPV negatief… dus het starten van dit project zou in het geval van een marktrente van 10% helemaal niet verstandig zijn. WIST, deeltijd F&T - 96 - In de grafiek de je zou kunnen tekenen bij dit project kun je ook nog het effect van de rente zien op de NCW Bij een rekenrente langer dan de IRR van 23,38% is de NCW dus lager dan nul. Dus de IRR Rule gaat hier niet op. Het is niet verstandig om bij een marktrente van 10% te kiezen voor dit project (ondanks dat de IRR hoger is dan de marktrente). Maar bij een marktrente van 10% is de NCW negatief en de NPV Rule (dat je zoekt naar een project met een hoge NCW) gaat hier dus voor. N.B. de grafiek is een stijgende grafiek, en bij de voorbeelden van paragraaf 10.3 en 10.4 waren de grafieken dalend. Dat is de wiskundige verklaring van het niet geldig zijn van de IRR Rule. WIST, deeltijd F&T - 97 - 10.7 Praktische verklaring falen IRR Rule in sommige situaties Maar hoe moeten we dat wat we geconstateerd hebben in paragraaf 10.6 nu begrijpen c.q. uitleggen ? De uitleg gaat als volgt: als je met het project van paragraaf 10.6 zou starten, zou je eigenlijk geld lenen… je krijgt eerst euro 1.000 en dat ga je dan terugbetalen met elke keer euro 500. En als je geld leent.. dan wil je eigenlijk een zo laag mogelijke rente… en dus niet een project met een IRR van 23,38% als de markrente gelijk is aan 10%. Als je het geld had kunnen lenen tegen 10%, dan had je het beste op die manier aan je geld van euro 1.000 kunnen komen. En dan had je dus niet drie keer euro 500 hoeven terug te betalen. Nee, dan had je bij een marktrente van 10% maar ongeveer euro 402 per jaar terug hoeven te betalen. Kijk maar. Bedragen € 1.000,00 € -402,10 € -402,10 € -402,10 Moment 0 1 2 3 10,00% IRR Conclusie: de IRR Rule voldoet bij het voorbeeld van paragraaf 10.6 dan weliswaar niet maar de berekening van de IRR geeft nog altijd wel de benodigde informatie. Je beslist hier uiteindelijk dan nog wel altijd op basis van de NPV Rule, en je kiest daarbij dan natuurlijk voor de hoogste NCW ! WIST, deeltijd F&T - 98 - 10.8 Opgaven Internal Rate of Return (IRR) Opgave 1 a. Onder welke voorwaarden geven de NPV Rule en de IRR Rule dezelfde conclusies bij een op zichzelf staand investeringsproject? b. Als de NPV Rule en de IRR Rule een tegenstrijdige conclusie voor het uitvoeren van een op zichzelf staand investerinsproject geven, aan welke regel dient dan de voorkeur gegeven te worden? Opgave 2 Gegeven is het volgende investeringsverloop van een op zichzelf staand investeringsproject Men betaalt nu euro 175.000 en krijgt na één jaar euro 10.000 en na twee jaar euro 10.000 en na drie jaar euro 10.000 enzovoorts, eeuwigdurend jaarlijks dus euro 10.000 als opbrengst. a. Bepaal de NCW (in hele euro’s) bij een marktrente van 5%. b. Bepaal de IRR in één decimaal nauwkeurig (geef ook de berekening). c. Licht in eigen woorden de betekenis van wat je bij vraag b. hebt berekend toe. d. Geldt bij dit voorbeeld de NPV Rule? e. Geldt bij dit voorbeeld de IRR Rule? Opgave 3 Gegeven is het volgende investeringsverloop van een op zichzelf staand investeringsproject Men betaalt nu euro 450.000 en krijgt na één jaar euro 200.000 en na twee jaar euro 300.000. a. Bepaal de NCW (in hele euro’s) bij een marktrente van 4%. b. Bepaal de IRR in twee decimalen nauwkeurig (geef ook de berekening met ABC-formule). c. Licht in eigen woorden de betekenis van wat je bij vraag b. hebt berekend toe. d. Geldt bij dit voorbeeld de NPV Rule? e. Geldt bij dit voorbeeld de IRR Rule? Korte antwoorden paragraaf 10.8., opgaven Internal Rate of Return (IRR) 1. a. zie paragraaf 10.6 b. zie paragraaf 10.6 2. a:€ 25.000 b. 5,7% c. eigen woorden... d. ja e. ja 3. a:€ 19.675 b. 6,84% (met ABC-formule !!) c. eigen woorden... d. ja WIST, deeltijd F&T - 99 - e. ja Bijlage, blad 1 De standaardnormale verdeling. Cumulatieve kansen. Bij een gegeven z geeft de tabel de kans op een waarde < z. Z -3,0 -2,9 -2,8 -2,7 -2,6 -2,5 -2,4 -2,3 -2,2 -2,1 0,00 0,0013 0,0019 0,0026 0,0035 0,0047 0,0062 0,0082 0,0107 0,0139 0,0179 0,01 0,0013 0,0018 0,0025 0,0034 0,0045 0,0060 0,0080 0,0104 0,0136 0,0174 0,02 0,0013 0,0018 0,0024 0,0033 0,0044 0,0059 0,0078 0,0102 0,0132 0,0170 0,03 0,0012 0,0017 0,0023 0,0032 0,0043 0,0057 0,0075 0,0099 0,0129 0,0166 0,04 0,0012 0,0016 0,0023 0,0031 0,0041 0,0055 0,0073 0,0096 0,0125 0,0162 0,05 0,0011 0,0016 0,0022 0,0030 0,0040 0,0054 0,0071 0,0094 0,0122 0,0158 0,06 0,0011 0,0015 0,0021 0,0029 0,0039 0,0052 0,0069 0,0091 0,0119 0,0154 0,07 0,0011 0,0015 0,0021 0,0028 0,0038 0,0051 0,0068 0,0089 0,0116 0,0150 0,08 0,0010 0,0014 0,0020 0,0027 0,0037 0,0049 0,0066 0,0087 0,0113 0,0146 0,09 0,0010 0,0014 0,0019 0,0026 0,0036 0,0048 0,0064 0,0084 0,0110 0,0143 -2,0 -1,9 -1,8 -1,7 -1,6 -1,5 -1,4 -1,3 -1,2 -1,1 0,0228 0,0287 0,0359 0,0446 0,0548 0,0668 0,0808 0,0968 0,1151 0,1357 0,0222 0,0281 0,0351 0,0436 0,0537 0,0655 0,0793 0,0951 0,1131 0,1335 0,0217 0,0274 0,0344 0,0427 0,0526 0,0643 0,0778 0,0934 0,1112 0,1314 0,0212 0,0268 0,0336 0,0418 0,0516 0,0630 0,0764 0,0918 0,1093 0,1292 0,0207 0,0262 0,0329 0,0409 0,0505 0,0618 0,0749 0,0901 0,1075 0,1271 0,0202 0,0256 0,0322 0,0401 0,0495 0,0606 0,0735 0,0885 0,1056 0,1251 0,0197 0,0250 0,0314 0,0392 0,0485 0,0594 0,0721 0,0869 0,1038 0,1230 0,0192 0,0244 0,0307 0,0384 0,0475 0,0582 0,0708 0,0853 0,1020 0,1210 0,0188 0,0239 0,0301 0,0375 0,0465 0,0571 0,0694 0,0838 0,1003 0,1190 0,0183 0,0233 0,0294 0,0367 0,0455 0,0559 0,0681 0,0823 0,0985 0,1170 -1,0 -0,9 -0,8 -0,7 -0,6 -0,5 -0,4 -0,3 -0,2 -0,1 -0,0 0,1587 0,1841 0,2119 0,2420 0,2743 0,3085 0,3446 0,3821 0,4207 0,4602 0,5000 0,1562 0,1814 0,2090 0,2389 0,2709 0,3050 0,3409 0,3783 0,4168 0,4562 0,4960 0,1539 0,1788 0,2061 0,2358 0,2676 0,3015 0,3372 0,3745 0,4129 0,4522 0,4920 0,1515 0,1762 0,2033 0,2327 0,2643 0,2981 0,3336 0,3707 0,4090 0,4483 0,4880 0,1492 0,1736 0,2005 0,2296 0,2611 0,2946 0,3300 0,3669 0,4052 0,4443 0,4840 0,1469 0,1711 0,1977 0,2266 0,2578 0,2912 0,3264 0,3632 0,4013 0,4404 0,4801 0,1446 0,1685 0,1949 0,2236 0,2546 0,2877 0,3228 0,3594 0,3974 0,4364 0,4761 0,1423 0,1660 0,1922 0,2206 0,2514 0,2843 0,3192 0,3557 0,3936 0,4325 0,4721 0,1401 0,1635 0,1894 0,2177 0,2483 0,2810 0,3156 0,3520 0,3897 0,4286 0,4681 0,1379 0,1611 0,1867 0,2148 0,2451 0,2776 0,3121 0,3483 0,3859 0,4247 0,4641 WIST, deeltijd F&T - 100 - Bijlage, blad 2 De standaardnormale verdeling. Cumulatieve kansen. Bij een gegeven z geeft de tabel de kans op een waarde < z. Z 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0,00 0,5000 0,5398 0,5793 0,6179 0,6554 0,6915 0,7257 0,7580 0,7881 0,8159 0,8413 0,01 0,5040 0,5438 0,5832 0,6217 0,6591 0,6950 0,7291 0,7611 0,7910 0,8186 0,8438 0,02 0,5080 0,5478 0,5871 0,6255 0,6628 0,6985 0,7324 0,7642 0,7939 0,8212 0,8461 0,03 0,5120 0,5517 0,5910 0,6293 0,6664 0,7019 0,7357 0,7673 0,7967 0,8238 0,8485 0,04 0,5160 0,5557 0,5948 0,6331 0,6700 0,7054 0,7389 0,7704 0,7995 0,8264 0,8508 0,05 0,5199 0,5596 0,5987 0,6368 0,6736 0,7088 0,7422 0,7734 0,8023 0,8289 0,8531 0,06 0,5239 0,5636 0,6026 0,6406 0,6772 0,7123 0,7454 0,7764 0,8051 0,8315 0,8554 0,07 0,5279 0,5675 0,6064 0,6443 0,6808 0,7157 0,7486 0,7794 0,8078 0,8340 0,8577 0,08 0,5319 0,5714 0,6103 0,6480 0,6844 0,7190 0,7517 0,7823 0,8106 0,8365 0,8599 0,09 0,5359 0,5753 0,6141 0,6517 0,6879 0,7224 0,7549 0,7852 0,8133 0,8389 0,8621 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 0,8643 0,8849 0,9032 0,9192 0,9332 0,9452 0,9554 0,9641 0,9713 0,9772 0,8665 0,8869 0,9049 0,9207 0,9345 0,9463 0,9564 0,9649 0,9719 0,9778 0,8686 0,8888 0,9066 0,9222 0,9357 0,9474 0,9573 0,9656 0,9726 0,9783 0,8708 0,8907 0,9082 0,9236 0,9370 0,9484 0,9582 0,9664 0,9732 0,9788 0,8729 0,8925 0,9099 0,9251 0,9382 0,9495 0,9591 0,9671 0,9738 0,9793 0,8749 0,8944 0,9115 0,9265 0,9394 0,9505 0,9599 0,9678 0,9744 0,9798 0,8770 0,8962 0,9131 0,9279 0,9406 0,9515 0,9608 0,9686 0,9750 0,9803 0,8790 0,8980 0,9147 0,9292 0,9418 0,9525 0,9616 0,9693 0,9756 0,9808 0,8810 0,8997 0,9162 0,9306 0,9429 0,9535 0,9625 0,9699 0,9761 0,9812 0,8830 0,9015 0,9177 0,9319 0,9441 0,9545 0,9633 0,9706 0,9767 0,9817 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 0,9821 0,9861 0,9893 0,9918 0,9938 0,9953 0,9965 0,9974 0,9981 0,9987 0,9826 0,9864 0,9896 0,9920 0,9940 0,9955 0,9966 0,9975 0,9982 0,9987 0,9830 0,9868 0,9898 0,9922 0,9941 0,9956 0,9967 0,9976 0,9982 0,9987 0,9834 0,9871 0,9901 0,9925 0,9943 0,9957 0,9968 0,9977 0,9983 0,9988 0,9838 0,9875 0,9904 0,9927 0,9945 0,9959 0,9969 0,9977 0,9984 0,9988 0,9842 0,9878 0,9906 0,9929 0,9946 0,9960 0,9970 0,9978 0,9984 0,9989 0,9846 0,9881 0,9909 0,9931 0,9948 0,9961 0,9971 0,9979 0,9985 0,9989 0,9850 0,9884 0,9911 0,9932 0,9949 0,9962 0,9972 0,9979 0,9985 0,9989 0,9854 0,9887 0,9913 0,9934 0,9951 0,9963 0,9973 0,9980 0,9986 0,9990 0,9857 0,9890 0,9916 0,9936 0,9952 0,9964 0,9974 0,9981 0,9986 0,9990 WIST, deeltijd F&T - 101 - Bijlage, normale verdeling WIST, deeltijd F&T - 102 - Bijlage, normale verdeling WIST, deeltijd F&T - 103 - Bijlage, voorbeeldtentamen X (alleen onderdelen Statistiek) OPGAVE 1 De enquêtevraag hoeveel fietsen er in Nederland in een gezin zijn leidt tot het volgende overzicht (aantal gezinnen dat gereageerd heeft is 1.250). aantal fietsen per gezin aantal gezinnen (=frequentie) 0 50 1 100 2 300 3 500 4 200 5 100 Totaal 1.250 De variabele is het aantal fietsen per gezin a. Bepaal de modus, de mediaan en het rekenkundig gemiddelde. b. Bereken de standaarddeviatie. c. Hoeveel procent van de gezinnen heeft meer dan 3 fietsen ? OPGAVE 2 Van een groep eerstejaars studenten is het gemiddelde cijfer voor een tentamen berekend. De behaalde cijfers hebben een gemiddelde van 5,9 en een standaarddeviatie van 2,09. We nemen aan dat de tentamencijfers normaal verdeeld zijn. Bij het gebruiken van de bijgevoegde tabel mag je na het eventueel bepalen van de z deze afronden op twee cijfers achter de komma z = -0,564 wordt dan dus z = -0,56. a. (5 punten) Hoeveel procent van de studenten heeft (uitgaande van de normale verdeling) een tentamencijfer lager dan een 5 ? b. (5 punten) Hoeveel procent van de studenten heeft een 8 of meer voor het tentamen. c. (5 punten) De docent wil als gevolg van een onjuistheid die in een opgave was geslopen een correctie toepassen en hij wil daarom elk tentamencijfer vermenigvuldigen met 1,1. Bereken hoeveel procent van de leerlingen nu een tentamencijfer lager dan een 5 heeft. d. (5 punten) Een collega docent geeft als alternatief voor de correctie dat de oorspronkelijke cijfers worden aangepast door ze met 0,5 (een half punt) te verhogen. Bereken hoeveel procent van de leerlingen nu een tentamencijfer lager dan een 5 heeft. WIST, deeltijd F&T - 104 - OPGAVE 3 Op pakjes margarine staat meestal 250gr e. Dit betekent dat volgens Europese norm niet meer dan 5% van die pakjes minder dan 250 gram mag bevatten. a. De gewichten van pakjes margarine van merk X zijn normaal verdeeld en hebben een standaarddeviatie van 7 gram. Bereken het gemiddelde gewicht zodat precies voldaan wordt aan de Europese norm. b. De pakjes margarine van de firma Y hebben een gemiddeld gewicht van 256 gram. Ook de gewichten van deze pakjes zijn normaal verdeeld en voldoen precies aan de Europese norm. Bereken de standaarddeviatie. OPGAVE 4 Van de vrouwen die een kledingbeurs bezochten zijn de gewichten bepaald. Het gewicht was normaal verdeeld met een gemiddelde van 65 kilo en een standaarddeviatie van 9 kilo. Een kledingwinkel heeft als doelgroep de 40% vrouwen met gewichten die rond het geconstateerde gemiddelde liggen. a. Welke boven- en onder gewichtsgrens hoort hierbij? WIST, deeltijd F&T - 105 - Bijlage, voorbeeldtentamen Y (alleen onderdelen Statistiek) OPGAVE 1, GEISER ‘OLD FAITHFUL’ Een geiser is een natuurfenomeen waarbij zich ondergronds stoom ophoopt, tot de druk zo hoog is dat er zich een eruptie voordoet, een beetje te vergelijken met een vulkaanuitbarsting. Tussen twee erupties in kun je gerust dichterbij komen, maar dat houdt risico’s in. In Yellowstone Parc in de VS is een geiser die bekend stond om zijn regelmaat, iedere 62 minuten een eruptie. Daarom werd hij ‘Old Faithful’ genoemd. Echter in de loop van de tijd is hij trager geworden en is de regelmaat een beetje verloren gegaan. Het is jouw taak als veiligheidsadviseur om een zicht te krijgen op de nieuwe situatie en te adviseren om ongelukken met toeristen te voorkomen. Hieronder 170 waarnemingen van de tijd tussen twee erupties. Tijd tussen twee erupties 55 tot 60 60 tot 65 65 tot 70 70 tot 75 75 tot 80 80 tot 85 85 tot 90 90 tot 95 95 tot 100 Aantal keer voorgekomen 3 9 14 29 44 49 13 8 1 170 a Wat is de gemiddelde tijd tussen twee erupties? b Als veiligheidsadviseur kun je geen enkel risico op een ongeluk permitteren. Hoe lang zou je bezoekers toelaten tot Old Faithfull? c Wat vind je van het aantal waarnemingen dat is gedaan en heeft dit gevolgen voor je beslissing bij b.? d Stel dat de opgemeten waarden representatief zijn voor de toekomst en dat sprake is van een normale verdeling. Hoe groot schat je de kans op een ongeluk als de toeristen (omwille van economische redenen) maximaal 69 minuten bij de geiser worden toegelaten? N.B.: dit is niet zo maar een geiser… zie hier: https://nl.wikipedia.org/wiki/Old_Faithful En zie ook website reislustige student AVANS… http://steve-patty.blogspot.com/2010/07/dag-13-4-yellowstone-national-park-wy.html WIST, deeltijd F&T - 106 - OPGAVE 2 Een ondernemer overweegt een nieuw artikel in de collectie op te nemen. Hij heeft een marketingbureau gevraagd om de kans op een verkoopsucces in te schatten. Zij rapporteren dat er 70% kans is dat het product een hype wordt en 30% kans dat het niet echt aan zal slaan. Als het een hype wordt, kan er door de concurrentie een gelijksoortig artikel gemaakt worden en dat zal de te verwachten verkopen vrijwel direct beïnvloeden. In geval het artikel een hype wordt, is er 50% kans dat de concurrentie meteen op deze markt zal inspringen met een gelijkwaardig alternatief. De te verwachten jaarlijkse verkopen schat de ondernemer als volgt in: - Hype zonder concurrentie : 20.000 stuks - Hype met concurrentie : 11.000 stuks - Product slaat niet echt aan : 1.000 stuks a. Bereken de verwachtingswaarde en standaarddeviatie van de jaarlijkse verkoopaantallen. De verkoopprijs van het artikel is € 20,- en de variabele productiekosten zullen naar verwachting € 15,- per stuk bedragen. Daarnaast is nog sprake van een jaarlijks bedrag aan vaste kosten van € 30.000,-. b. Bereken de verwachtingswaarde en standaarddeviatie van de jaarwinst. OPGAVE 3 Het gewicht van een reep chocolade kan benaderd worden met een normale verdeling met een verwacht gewicht van 300 gram en een standaarddeviatie van 5 gram. a. Schets de normale verdeling en geef de verwachtingswaarde en standaarddeviatie aan. b. Bereken de kans dat een bepaalde chocoladereep zwaarder is dan 310 gram. WIST, deeltijd F&T - 107 - Bijlage, voorbeeldtentamen april 2018 (niet alle onderwerpen van huidige reader komen hierin terug) WIST, deeltijd F&T - 108 - Bijlage, voorbeeldtentamen april 2018, vervolg WIST, deeltijd F&T - 109 - Bijlage, voorbeeldtentamen april 2018, vervolg WIST, deeltijd F&T - 110 - Bijlage, voorbeeldtentamen april 2018, vervolg WIST, deeltijd F&T - 111 - Bijlage, voorbeeldtentamen april 2018, vervolg WIST, deeltijd F&T - 112 - Bijlage, voorbeeldtentamen april 2018, vervolg WIST, deeltijd F&T - 113 - Bijlage, voorbeeldtentamen juni 2019 (stemt overeen met onderwerpen huidige reader) WIST, deeltijd F&T - 114 - Bijlage, voorbeeldtentamen juni 2019, vervolg WIST, deeltijd F&T - 115 - Bijlage, voorbeeldtentamen juni 2019, vervolg WIST, deeltijd F&T - 116 - Bijlage, voorbeeldtentamen juni 2019, vervolg WIST, deeltijd F&T - 117 - Bijlage, voorbeeldtentamen juni 2019, vervolg WIST, deeltijd F&T - 118 - Bijlage, voorbeeldtentamen juli 2019 (stemt overeen met onderwerpen huidige reader) WIST, deeltijd F&T - 119 - Bijlage, voorbeeldtentamen juli 2019, vervolg WIST, deeltijd F&T - 120 - Bijlage, voorbeeldtentamen juli 2019, vervolg WIST, deeltijd F&T - 121 - Bijlage, voorbeeldtentamen juli 2019, vervolg WIST, deeltijd F&T - 122 - Bijlage, voorbeeldtentamen juli 2019, vervolg WIST, deeltijd F&T - 123 - Bijlage, voorbeeldtentamen juli 2019, vervolg WIST, deeltijd F&T - 124 - Bijlage, voorbeeldtentamen juni 2020 (hoofdstuk 9 en hoofdstuk 10 geen onderdeel van tentamen) WIST, deeltijd F&T - 125 - Bijlage, voorbeeldtentamen juni 2020, vervolg WIST, deeltijd F&T - 126 - Bijlage, voorbeeldtentamen juni 2020, vervolg WIST, deeltijd F&T - 127 - Bijlage, voorbeeldtentamen juni 2020, vervolg WIST, deeltijd F&T - 128 - Bijlage, voorbeeldtentamen juni 2020, vervolg WIST, deeltijd F&T - 129 - Bijlage, voorbeeldtentamen juni 2020, vervolg N.B. zie ook onderstaande hyperlink voor inspiratie voor opdracht 8… ! http://energietransitie.blogspot.com/2015/05/correlatie-straling-en-toekomstige.html WIST, deeltijd F&T - 130 - Bijlage, voorbeeldtentamen oktober 2020 (hoofdstuk 9 en hoofdstuk 10 geen onderdeel van tentamen) WIST, deeltijd F&T - 131 - Bijlage, voorbeeldtentamen oktober 2020, vervolg WIST, deeltijd F&T - 132 - Bijlage, voorbeeldtentamen oktober 2020, vervolg WIST, deeltijd F&T - 133 - Bijlage, voorbeeldtentamen oktober 2020, vervolg WIST, deeltijd F&T - 134 - Bijlage, voorbeeldtentamen oktober 2020, vervolg WIST, deeltijd F&T - 135 - Bijlage, voorbeeldtentamen oktober 2020, vervolg WIST, deeltijd F&T - 136 -