Uploaded by hidesharron

Решена-задача-Анализ-на-емпирични-разпределения-чрез-Excel

advertisement
Макет на решена задача чрез Excel
Задача: Проведена е анкета във връзка с проучване мнението на
потребителите за нов вид бонбони „Био сурови бонбони“ сред 25 случайно
избрани души от клиентите на магазин „Х“, посетили магазина на
27.12.2019г. Събрани са следните данни, отнасящи се до възрастта на
анкетираните в навършени години:
18
40
25
20
19
58
23
23
42
22
24
32
24
37
29
35
38
-
37
21
-
20
52
-
36
63
-
37
24
-
1. Иска се: 1. Да се характеризира центъра на разпределението чрез
изчисляване на средна аритметична величина, мода и медиана. 2. Да
се измери разсейването чрез средно квадратично (стандартно)
отклонение, дисперсия и коефициент на вариация на стандартното
отклонение. 3.Да се измерят асиметрията и ексцеса. 4. Да се
интерпретират получените резултати.
Решение:
Данните в таблицата, за удобство, са представени в три реда, но те
представляват един статистически ред. Затова следва да се поставят в една
колона или един ред. Това се прави понеже в Excel отделните колони или
редове от данни се възприемат като отделни статистически редове. След
това се използва следната последователност:
1. Data /Data Analysis /Descriptive Statistics.
2. В новоотворения прозорец Descriptive Statistics се извършват следните
настройки:
3. В полето Input Range се въвежда адресът на статистическия ред
(маркират се данните).
4. Тъй като в указания по-горе адрес е маркирано и името на
променливата (етикета), се избира опцията Labels in First Row. По
този начин се предотвратява генерирането на грешка и се улеснява
визуализацията на резултатите.
5. Избира се опцията Summary statistics.
6. Избира се опцията Confidence Level for Mean и ако гаранционната
вероятност се различава от тази по подразбиране, се задава избраната
гаранционна вероятност.
7. Настройките се потвърждават с OK.
Получава се следната таблица с резултати:
Възраст в навършени години
Mean
31.96
Standard Error
2.457288
Median
29
Mode
24
Standard Deviation
12,28644
Sample Variance
150.9567
Kurtosis
1.072073
Skewness
0.639189
Range
45
Minimum
18
Maximum
63
Sum
799
Count
25
Confidence Level(95.0%) 5.071594
Оцветените в червено показатели са свързани с темата „Статистическо
оценяване“ и ще бъдат обяснени в друго упражнение с помощта на същия
пример.
В таблицата по-долу са представени съответните български термини
за изчислените от Excel показатели, както и вградените функции, които
могат да се използват за изчисляването им.
Вградена
Показатели
Стойност
функция
Средна аритметична
Mean
31.96
AVERAGE()
величина
Стандартна (средна
Standard Error
стохастична) грешка на
2.46
оценката
Median
Медиана
29
MEDIAN()
Mode
Мода
24
MODE()
Оценка на средното
Standard
квадратично
12.29
STDEV.S()
Deviation
(стандартно)
отклонение
Оценка на дисперсията
Sample Variance
150.96
VAR.S()
по данни от извадката
Kurtosis
Показател за ексцес
1.07
KURT()
Показател за
Skewness
0.64
SKEW()
асиметрия
Range
Вариационен размах
45
MAX()-MIN()
Минимална стойност
Minimum
на значението на
18
MIN()
признака
Максимална стойност
Maximum
на значението на
63
MAX()
признака
Сума на значенията на
Sum
799
SUM()
признака
Count
Обем на извадката
25
COUNT()
Максимална
Confidence
стохастична грешка на
5.07
CONFIDENCE.T()
Level(95.0%)
оценката
(1-α=0,95)
Средната аритметична величина при негрупирани данни се изчислява по
n
следната формула: x 
x
i 1
n
i

799
 31,96г. Изследваният признак е „възраст в
25
навършени години“ и затова можем да кажем, че средната възраст на
анкетираните лица, измерена чрез средна аритметична величина е 31
години.
Определената от Excel стойност на медианата е значението на
признака за единицита, която се намира в средата на подредения по
възходящ ред статистически ред. Тя е с номер 13, като значението на
признака е 29 год. Следователно половината от лицата, включени в
извадката, са на възраст по-малка от 29 год., а другата половина са на
възраст по-голяма от 29 год.
Чрез Descriptive Statistics Excel определя само една стойност на
модата. Тя показва, че сред лицата, включени в извадката, най-често
срещаната възраст е 24 год. В случай на мултимодално разпределение е
необходимо да се използва вградената функция MODE.MULT(). В
разглеждания пример тази функция дава две стойности – 24 и 37, което
показва, че разпределението има две моди.
Оценката на стандартното отклонение се изчислява по следната формула:
k
s
 x
i 1
i
 x
n 1
2

3646
 151,92  12,33г.
25  1
Тъй като признакът е „възраст в навършени години“ стандартното
отклонение се тълкува по следния начин: средно с 12 години се различава
възрастта на анкетираните лица от изчислената средна възраст 31год.
Подкоренната величина е дисперсията и тя е 151,92 г.²
Excel не определя коефициента на вариация. Той може да се изчисли като
отношение между стандартното отклонение и средна аритметична
величина.
Коефициентът на асиметрия на Фишер се изчислява от Excel по
следната формула:
𝑛
𝑛
𝑥𝑖 − 𝑥̅ 3
𝑠𝑘 =
.∑(
) = 0,64
(𝑛 − 1). (𝑛 − 2)
𝑠
𝑖=
Изчисленият коефициент на асиметрия показва наличието на умерена
дясна (положителна) асиметрия в изследваното емпирично разпределение.
По желание вместо изчисленият коефициент на Фишер може да се посочи
коефициент на асиметрия на Пирсън или коефициент на асиметрия на Юл.
Коефициентите на асиметрия получават приблизително едни и същи
стойности и се тълкуват по един и същ начин.
Коефициентът на ексцес на Фишер се изчислява по следната
формула:
 x
nn  1
kr 
n  1n  2n  3
i 1

4
n
i
x
s4
3n  1

 1,07
n  2n  3
2
Полученият резултат показва, че изследваното
разпределение се характеризира с наднормален ексцес.
емпирично
Download