Макет на решена задача чрез Excel Задача: Проведена е анкета във връзка с проучване мнението на потребителите за нов вид бонбони „Био сурови бонбони“ сред 25 случайно избрани души от клиентите на магазин „Х“, посетили магазина на 27.12.2019г. Събрани са следните данни, отнасящи се до възрастта на анкетираните в навършени години: 18 40 25 20 19 58 23 23 42 22 24 32 24 37 29 35 38 - 37 21 - 20 52 - 36 63 - 37 24 - 1. Иска се: 1. Да се характеризира центъра на разпределението чрез изчисляване на средна аритметична величина, мода и медиана. 2. Да се измери разсейването чрез средно квадратично (стандартно) отклонение, дисперсия и коефициент на вариация на стандартното отклонение. 3.Да се измерят асиметрията и ексцеса. 4. Да се интерпретират получените резултати. Решение: Данните в таблицата, за удобство, са представени в три реда, но те представляват един статистически ред. Затова следва да се поставят в една колона или един ред. Това се прави понеже в Excel отделните колони или редове от данни се възприемат като отделни статистически редове. След това се използва следната последователност: 1. Data /Data Analysis /Descriptive Statistics. 2. В новоотворения прозорец Descriptive Statistics се извършват следните настройки: 3. В полето Input Range се въвежда адресът на статистическия ред (маркират се данните). 4. Тъй като в указания по-горе адрес е маркирано и името на променливата (етикета), се избира опцията Labels in First Row. По този начин се предотвратява генерирането на грешка и се улеснява визуализацията на резултатите. 5. Избира се опцията Summary statistics. 6. Избира се опцията Confidence Level for Mean и ако гаранционната вероятност се различава от тази по подразбиране, се задава избраната гаранционна вероятност. 7. Настройките се потвърждават с OK. Получава се следната таблица с резултати: Възраст в навършени години Mean 31.96 Standard Error 2.457288 Median 29 Mode 24 Standard Deviation 12,28644 Sample Variance 150.9567 Kurtosis 1.072073 Skewness 0.639189 Range 45 Minimum 18 Maximum 63 Sum 799 Count 25 Confidence Level(95.0%) 5.071594 Оцветените в червено показатели са свързани с темата „Статистическо оценяване“ и ще бъдат обяснени в друго упражнение с помощта на същия пример. В таблицата по-долу са представени съответните български термини за изчислените от Excel показатели, както и вградените функции, които могат да се използват за изчисляването им. Вградена Показатели Стойност функция Средна аритметична Mean 31.96 AVERAGE() величина Стандартна (средна Standard Error стохастична) грешка на 2.46 оценката Median Медиана 29 MEDIAN() Mode Мода 24 MODE() Оценка на средното Standard квадратично 12.29 STDEV.S() Deviation (стандартно) отклонение Оценка на дисперсията Sample Variance 150.96 VAR.S() по данни от извадката Kurtosis Показател за ексцес 1.07 KURT() Показател за Skewness 0.64 SKEW() асиметрия Range Вариационен размах 45 MAX()-MIN() Минимална стойност Minimum на значението на 18 MIN() признака Максимална стойност Maximum на значението на 63 MAX() признака Сума на значенията на Sum 799 SUM() признака Count Обем на извадката 25 COUNT() Максимална Confidence стохастична грешка на 5.07 CONFIDENCE.T() Level(95.0%) оценката (1-α=0,95) Средната аритметична величина при негрупирани данни се изчислява по n следната формула: x x i 1 n i 799 31,96г. Изследваният признак е „възраст в 25 навършени години“ и затова можем да кажем, че средната възраст на анкетираните лица, измерена чрез средна аритметична величина е 31 години. Определената от Excel стойност на медианата е значението на признака за единицита, която се намира в средата на подредения по възходящ ред статистически ред. Тя е с номер 13, като значението на признака е 29 год. Следователно половината от лицата, включени в извадката, са на възраст по-малка от 29 год., а другата половина са на възраст по-голяма от 29 год. Чрез Descriptive Statistics Excel определя само една стойност на модата. Тя показва, че сред лицата, включени в извадката, най-често срещаната възраст е 24 год. В случай на мултимодално разпределение е необходимо да се използва вградената функция MODE.MULT(). В разглеждания пример тази функция дава две стойности – 24 и 37, което показва, че разпределението има две моди. Оценката на стандартното отклонение се изчислява по следната формула: k s x i 1 i x n 1 2 3646 151,92 12,33г. 25 1 Тъй като признакът е „възраст в навършени години“ стандартното отклонение се тълкува по следния начин: средно с 12 години се различава възрастта на анкетираните лица от изчислената средна възраст 31год. Подкоренната величина е дисперсията и тя е 151,92 г.² Excel не определя коефициента на вариация. Той може да се изчисли като отношение между стандартното отклонение и средна аритметична величина. Коефициентът на асиметрия на Фишер се изчислява от Excel по следната формула: 𝑛 𝑛 𝑥𝑖 − 𝑥̅ 3 𝑠𝑘 = .∑( ) = 0,64 (𝑛 − 1). (𝑛 − 2) 𝑠 𝑖= Изчисленият коефициент на асиметрия показва наличието на умерена дясна (положителна) асиметрия в изследваното емпирично разпределение. По желание вместо изчисленият коефициент на Фишер може да се посочи коефициент на асиметрия на Пирсън или коефициент на асиметрия на Юл. Коефициентите на асиметрия получават приблизително едни и същи стойности и се тълкуват по един и същ начин. Коефициентът на ексцес на Фишер се изчислява по следната формула: x nn 1 kr n 1n 2n 3 i 1 4 n i x s4 3n 1 1,07 n 2n 3 2 Полученият резултат показва, че изследваното разпределение се характеризира с наднормален ексцес. емпирично