Uploaded by nahooy tak live

Теория вероятности и мат

advertisement
1 Случайные события. Определение случайного события, виды событий
Событие – это базовое понятие ТВ.
События бывают: достоверными, невозможными, случайными.
События, которые обязательно происходят в данном опыте называются достоверными (например,
после понедельника вторник).
Событие которые никогда не происходит в данном опыте, называется невозможным (напр. при
бросании двух кубиков получится больше 15 очков).
Случайные события (СС) связаны с некоторым опытом называются всякие события, которые при
осуществлении этого опыта, либо происходят, либо не происходят.
Событие называется равновозможными если не одно из них не является более возможным чем
другое (может выпасть как орел так и решка).
События А, В называются равными, если А происходит тогда и только тогда, когда происходит событие В.
Событие противоположное соб. А, называется событие А, состоящая в том, что событие А не произошло.
Событие А и В называются не совместимыми, если их одновременное появление не возможно, т.е
Α ∩ Β = ∅, пустое множество невозможно.
Событие А1 , А2 , … А𝑛 называются попарно несовместимыми, если в одном и том же опыте, не
какие 2 из них не могут произойти вместе.
Событие называется совместимым, если в отдельно взятом опыте появление одного из них, не исключает появление другого (прим. извлечен ТУЗ, извлечен пиковый ТУЗ).
2 Действия над случайными величинами
Объединение (суммой) двух событий А,В, наз. событие А В (или А+В), в случае появления хотя бы
одного действия.
Произведение или пересечение А В или А*В называется состоящие одновременно появление А и
В.
Разностью 2-х соб. А и В (А-В) называется событие состоящие в том, что происходит событие А, но
не происходит событие В.
3 Классическая вероятность, свойства классической вероятности
Классическое определение вероятности – вероятность события А равняется отношению числа М,
благоприятных событию А исходов к числу n – общего числа исходов, попарно не совместимых и образующих полную группу событий.
М
Таким образом Р(А) = ; Р(А) – вероятность события
𝑛
C- ва вероятности Р(А)
1. вероятность любого события есть неотрицательное число, не превышающее единицы.
2. Вероятность невозможного события равна нулю.
Действительно, если событие А невозможно, то число благоприятных ему элементарных
исходов
= 0 и мы имеем
3. Вероятность достоверного события равна единице.
4. Вероятность противоположного события Р(А) = 1 − Р(А)
4. Условная вероятность. Независимые события. Теорема умножения.
Вероятность события B , вычисляемая при условии, что имеет место событие , A называется условной вероятностью события: 𝑷𝑨 (𝑩) = 𝑷(𝑩|𝑨) =
𝑷(𝑨∙𝑩)
.
𝑷(𝑨)
Событие A называется независимым от события B, если вероятность события A не зависит от того,
произошло событие B или нет.
Теорема 3 (умножение вероятностей независимых событий). Вероятность произведения двух независимых событий A и B равна произведению вероятностей этих событий: 𝑷(𝑨 ∙ 𝑩) = P(A) ∙ P(B);
Теорема 4 (умножение вероятностей зависимых событий). Вероятность совместного появления
двух зависимых событий равна произведению вероятности одного из них на условную вероятность другого, вычисленную при условии, что первое событие уже наступило: 𝑷(𝑨 ∙ 𝑩) = P(A) ∙ P(B|A);
5. Формула полной вероятности. Формула Байеса.
Полная вероятность события A , которое может произойти вместе с одним из событий 𝐻1 , 𝐻2 , …
𝐻𝑛 , равна сумме парных произведений вероятностей каждого из этих событий на соответствующие им
условные вероятности наступления события A:
𝑛
P(A) = ∑ P(𝐻𝑖 ) ∙ P(A|𝐻𝑖 )
𝑖=1
Вероятность гипотезы после испытания равна произведению вероятности гипотезы до испытания
на соответствующую ей условную вероятность события, которое произошло при испытании, деленному на
полную вероятность этого события. Формула Байеса:
P(𝐻𝑖 ) ∙ P(A|𝐻𝑖 )
P(𝐻𝑖 |A) = 𝑛
∑𝑖=1 P(𝐻𝑖 ) ∙ P(A|𝐻𝑖 )
6. Схема независимых испытаний Бернулли. Формула Бернулли.
Рассмотрим конечную последовательность n независимых испытаний, в результате каждого из которых может произойти событие A с вероятностью P(A) = p или же противоположное ему событие 𝐴̅ с вероятностью P(𝐴̅) = 𝑞 = 1 − 𝑝. Считается, что вероятность p события A в каждом испытании одна и та же.
По условию результат любого испытания не зависит от его порядкового номера и от того, какие исходы
были в предыдущих испытаниях. Такую последовательность испытаний принято называть схемой испытаний Бернулли (или схемой независимых повторных испытаний).
Вероятность того, что в результате n испытаний событие A произойдет ровно k раз, обозначается
𝑃𝑛 (𝑘).
При нахождении нужной вероятности необходимо учитывать заданные значения n и p .
Форма Бернулли применяется в случае, если задано число испытаний n и оно не больше 10; тогда
𝑛!
𝑃𝑛 (𝑘) определяется по формуле Бернулли: 𝑃𝑛 (𝑘) = 𝐶𝑛𝑘 ∙ 𝑝𝑘 ∙ 𝑞 𝑛−𝑘 или 𝑃𝑛 (𝑘) = 𝑘!(𝑛−𝑘)! ∙ 𝑝𝑘 ∙ (1 − 𝑝)𝑛−𝑘
7. Теорема Пуассона.
(Как я поняла, теорема и формула Пуассона – это одно и то же)
8. Локальная и интегральная предельные теоремы Муавра-Лапласа.
9. Теорема Бернулли.
(Как я поняла, теорема и формула Бернулли – это одно и то же)
10. Дискретные случайные величины и их характеристики.
Случайной называют величину, которая в результате испытания примет одно, и только одно числовое значение, зависящее от случайных факторов, и заранее непредсказуемое. Случайные величины, как
правило, обозначают буквами X, Y…, а их значения – соответствующими маленькими буквами с подстрочными индексами, например, x1, x2, …, xn.
Дискретная (прерывная) случайная величина – величина, принимающая отдельно взятые, изолированные значения. Количество этих значений конечно либо бесконечно, но счётно.
Если для дискретной случайной величины X известны все значения x1 , x2 ,…, xn , которые она может
принимать, и все вероятности р1 , р2 ,…, рn , с которыми эти значения принимаются, то указанное соответствие между возможными значениями величины X и их вероятностями называется законом распределения дискретной случайной величины X.
Закон распределения может быть задан аналитически, в виде таблицы (в первой строке записываются все значения xk случайной величины, а во второй (под ними) – соответствующие значения вероятности pk P X xk , причем pk 1) или графически.
Таблица соответствия значений случайной величины и их вероятностей называется рядом распределения. Графическое представление этой таблицы называется многоугольником (полигоном) распределения.
11. Непрерывные случайные величины и их характеристики.
12. Функция распределения вероятностей и ее свойства.
Вероятность попадания СВ в интервал равна приращению функции распределения на этом интервале.
13. Плотность распределения вероятности и ее свойства.
Случайная величина X называется непрерывной случайной величиной, если существует такая неотрицательная функция f ( x),называемая плотностью распределения вероятности, что вероятность попадания случайной величины X в промежуток [a;b] равна определенному интегралу от f ( x) по этому проме𝑏
жутку, т. е. 𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) = ∫𝑎 𝑓(𝑥)𝑑𝑥 .
14. Числовые характеристики случайных величин: математическое ожидание.
К числовым характеристикам случайной величины относят: математическое ожидание, дисперсия, мода и др.
Математическим ожиданием дискретной случайной величины называют сумму произведений
всех её возможных значений на их вероятности. Обозначают математическое ожидание случайной величины Х через МХ=М(Х)=ЕХ.
Если случайная величина Х принимает конечное число значений, то
МХ=
.
Если случайная величина Х принимает счетное число значений, то
МХ=
, причём математическое ожидание существует, если ряд сходится абсолютно.
Математическое ожидание - некоторое число, приближённо равное определённому значению случайной величины.
15. Числовые характеристики случайных величин: дисперсия, свойства.
Дисперсией случайной величины называется число DX=M(X-MX)2.
Дисперсия является мерой разброса значений случайной величины вокруг её математического
ожидания. Она всегда неотрицательна. Для подсчёта дисперсии удобнее пользоваться другой формулой:
DX = M(X - MX)2 = M(X2 - 2X∙MX + (MX)2) = M(X2) - 2M(X∙MX) + M(MX)2 =M(X2)-MX∙ MX+(MX)2= M(X2) (MX)2.
Отсюда DX= M(X2) - (MX)2.
16. Числовые характеристики случайных величин: среднее квадратическое отклонение, свойства.
Среднее квадратическое отклонение СВ есть корень квадратный из дисперсии, т.е. √𝐷(𝑥) = 𝜎(𝑥). Свойства среднего квадратического отклонения вытекают из свойств дисперсии:
1) Среднее квадратическое отклонение постоянной величины равно нулю.
2) Постоянный множитель можно выносить за знак среднего квадратического отклонения.
3) Среднее квадратическое отклонение суммы (разности) двух независимых СВ равна квадратному корню
от суммы квадратов квадратических отклонений этих величин.
17. Числовые характеристики случайных величин: моменты, их свойства.
Среди числовых характеристик случайной величины особое место занимают моменты – начальные и центральные. Моменты - универсальные характеристики распределения случайной величины, наиболее часто
используемые в математической статистике.
Начальным моментом k-го порядка СВ Х называется математическое ожидание k-ой степени этой величины: 𝑣𝑘 = М(Х𝑘 ). Для дискретной случайной величины формула начального момента имеет вид: 𝑣𝑘 =
+∞
∑𝑛𝑖=1 𝑥𝑖𝑘 𝑝𝑖 . Для непрерывной случайной величины: 𝑣𝑘 = ∫−∞ 𝑥 𝑘 𝑓(𝑥)𝑑𝑥 .
Центральным моментом k-го порядка случайной величины Х называется математическое ожидание k-ой
степени отклонения случайной величины Х от ее математического ожидания: 𝜇𝑘 = 𝑀[𝑋 − 𝑀(𝑋)]𝑘 . Для дискретной случайной величины формула центрального момента имеет вид: 𝜇𝑘 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑎)𝑘 𝑝𝑖 . Для не+∞
прерывной случайной величины: 𝜇𝑘 = ∫−∞ (𝑥 − 𝑎)𝑘 𝑓(𝑥)𝑑𝑥 .
При k = 1 первый начальный момент случайной величины Х есть ее математическое ожидание (𝑣1 = 𝑀(𝑋));
при k = 2 второй центральный момент – дисперсия (𝜇2 = 𝐷(𝑋)). Т.е. первый начальный момент характеризует среднее значение распределения случайной величины Х; второй центральный момент – степень рассеяния распределения Х относительно математического ожидания. Для более подробного описания распределения служат моменты высших порядков.
Свойства моментов СВ:
1) начальный момент 1 порядка равен математическому ожиданию (по определению);
2) центральный момент 1 порядка всегда равен нулю;
3) центральный момент 2 порядка характеризует разброс случайной величины вокруг ее математического
ожидания.
18. Числовые характеристики случайных величин: мода, медиана, квантиль.
Мода – это наиболее вероятное значение случайной величины (то для которого вероятность pi, или плотность распределения f(x) достигает максимума). Обозначение:  .
Различают унимодальные распределения (имеют одну моду), полимодальные распределения (имеют несколько мод) и анимодальные (не имеют моды).
f(х)
унимодальное
х
полимодальное
f(х)
f(х)
х
х
анимодальное
f(х)
f(х)
х
х
Медиана – это такое значение случайной величины хm, для которого выполняется следующее равенство:
P{X < хm} = P{X > хm}
Медиана делит площадь, ограниченную f(x), пополам.
Если плотность распределения случайной величины симметрична и унимодальна, то М[X],  и хm совпадают.
М[X], , хm – неслучайные величины
Квантилем, отвечающий заданному уровню вероятности Р, называют такое значение
ром функция распределения
вень вероятности.
x = xp
, при кото-
F ( x ) принимает значение, равное Р, т.е. F[ x p ] = P, где Р– заданный уро-
x , при котором F[ x  x p ] = P,
x
Вероятность Р, задаваемая в процентах, дает название соответствующему квантилю, например 0.4 , назыДругими словами, квантиль есть такое значение случайной величины
вается 40%-ым квантилем.
Квантили стандартного нормального распределения (распределение с параметрами
значаются буквой
up
mx = 0,  = 1) обо-
. Они легко находятся в соответствующих таблицах.
Квантиль общего нормального распределения
 p = mx +  u p
p
mx и  выражается через квантиль u p
F[ x p  x  x q ] = q − p,
с параметрами
x
x
. Если известны 2 квантиля СВ p и q , то
Понятие квантиля используется не только для нормального, но и для большинства встречающихся
распределений.
:
Квантиль
рично, то
x1
2
называется медианой распределения. Если распределение случайной величины симмет-
x 1 = M (x )
2
.
19–20. Основные распределения случайных величин: биномиальное, Пуассона, нормальное, показательное, равномерное
Биномиальный закон распределения описывает вероятность наступления события А m раз в n независимых испытаниях, при условии, что вероятность р наступления события А в каждом испытании постоянна.
Случайная величина Х имеет распределение Пуассона, если закон ее распределения имеет вид:
λ = np = const
n - число испытаний, стремящиеся к бесконечности
p - вероятность наступления события, стремящаяся к нулю
m - число появлений события А
Случайная величина распределена по нормальному закону распределения, если ее плотность вероятности
имеет вид:
а - математическое ожидание случайной величины
σ - среднее квадратическое отклонение
Закон распределения случайной величины Х называется показательным (экспоненциальным), если плотность вероятности имеет вид:
где λ - параметр обратно-пропорциональный математическому ожиданию
Функция распределения случайной величины Х, которая имеет показательное распределение, имеет вид:
Если функцию распределения случайной величины выразить через плотность вероятности при х ≥ а, то она
примет вид:
Если плотность вероятности ϕ(х) есть величина постоянная на определенном промежутке [a,b], то закон
распределения называется равномерным
21. Многомерные случайные величины. Функция распределения и плотность распределения двумерной
случайной величины.
Совместное рассмотрение двух или нескольких случайных величин приводит к понятию системы случайных величин. Условимся систему нескольких случайных величин X,Y,…,W обозначать (X,Y,…,W). Такая система называется также многомерной случайной величиной
Функцией распределения вероятностей системы двух случайных величин называется функция двух аргументов F(x;y), равная вероятности совместного выполнения двух неравенств X<x и Y<y, т. е.
Функция распределения обладает следующими свойствами:
1. Значения функции распределения удовлетворяют двойному неравенству 0≤F(x,y)≤1.
2. Функция распределения есть неубывающая функция по каждому аргументу:
3. Имеют место предельные соотношения:
4. а) При у= ∞ функция распределения системы становится функцией распределения, составляющей X: F(x,
∞ )=F1(х).
б) При X= ∞ функция распределения системы становится функцией распределения, составляющей Y: F(
∞ ,y)=F2(y)
Плотностью распределения двумерной случайной величины называют вторую смешанную производную
от функции распределения:
22. Дискретные и непрерывные случайные величины
В математике величина – это общее название различных количественных характеристик предметов
и явлений. Длина, площадь, температура, давление и т.д. – примеры разных величин.
Величину, которая принимает различные числовые значения под влиянием случайных обстоятельств, называют случайной величиной.
Примерами случайных величин являются: число больных на приеме у врача; количество рецептов,
поступивших в аптеку в течение рабочего дня; продолжительность человеческой жизни и др.
Случайные величины обозначают прописными буквами латинского алфавита X, Y, Z, …, а их возможные значения – соответствующими строчными буквами x, y, z, …
Вероятности случайных величин обозначают буквами с соответствующими индексами:
P (X = x1) = P (x1) = P1 и т.д.
Различают дискретные и непрерывные величины.
Случайная величина называется дискретной, если она принимает только определенные, отдельные друг от друга значения, которые можно установить и перечислить.
Примерами дискретной случайной величины являются:
– число студентов в аудитории – может быть только целым положительным числом: 0, 1, 2, 3, …,
20;
– цифра, которая появляется на верхней грани при бросании игральной кости – может принимать
лишь целые значения от 1 до 6;
– относительная частота попадания в цель при 10 выстрелах – ее значения: 0; 0,1; 0,2; …, 1;
– число событий, происходящих за одинаковые промежутки времени: частота пульса, число вызовов скорой помощи за 1 час, количество операций в месяц с летальным исходом и т.д.
Случайная величина называется непрерывной, если она может принимать любые значения внутри
определенного интервала, конечного или бесконечного.
К непрерывным случайным величинам относятся, например, масса тела и рост взрослых людей,
объем мозга, продолжительность жизни, количественное содержание ферментов у здоровых людей, размеры форменных элементов крови, pH крови и т.д.
Понятие случайной величины играет определяющую роль в современной теории вероятностей,
разработавшей специальные приемы перехода от случайных событий к случайным величинам.
Если случайная величина зависит от времени, то можно говорить о случайном процессе.
23. Условный закон распределения. Независимость случайных величин. Проверка условий независимости случайных величин
Условным законом распределения с.в. X при условии Y называется любое соотношение, ставящее
в соответствие значениям с.в. X условные вероятности их принятия при условии PX|Y (xi |yj) = P(X = xi |Y =
yj) =
𝑷(𝑿=𝒙𝒊,𝒀=𝒚𝒋)
𝑷(𝒀=𝒚𝒋)
Дискретные случайные величины X и Y независимы тогда и только тогда, когда для любых i и j, i =
1, . . . , n, j = 1, . . . , m pij = P(X = xi ,Y = yj) = P(X = xi) · P(Y = yj).
Эту формулу можно использовать для проверки независимости двух дискретных случайных величин.
Пример 1. Рассмотрим случайные величины X и Y
Являются ли эти случайные величины независимыми?
Рассмотрим вероятность p11 = P (X = 0, Y = 0) = 21/36. Мы уже находили маргинальные распределения X и
Y
В частности: P(X = 0) = 25/36 и P(Y = 0) = 27/36.
Проверим выполнение условий независимости:
P(X = 0,Y = 0) = P(X = 0) · P(Y = 0)
21/36 ≠ 25/36 · 27/36.
Следовательно, X и Y зависят друг от друга. В этом примере нам повезло, так как проверка ограничилась лишь исследованием равенства для i = 1 и j = 1. Так бывает не всегда. Если бы условие независимости выполнялось бы для p11, то нам пришлось бы проверять это условие для всех остальных pij.
24. Закон больших чисел. Центральная предельная теорема. Неравенство Чебышева. Теорема
Чебышева
Под законом больших чисел в широком смысле понимается общий принцип, согласно которому, совокупное действие большого числа случайных факторов приводит к результату, почти не зависящему
от
случая.
Т.е., при большом числе случайных величин их средняя величина перестает быть случайной и может
быть
предсказана
с
большой
степенью
определенности.
Под законом больших чисел в узком смысле понимается ряд математических теорем, в каждой из
которых для тех или иных условий устанавливается факт приближения средних характеристик большого
числа опытов к определенным постоянным, неслучайным величинам.
Законы больших чисел не учитывают формы распределения случайных величин. Центральная
предельная теорема устанавливает условия, при которых распределение случайных величин стремится к
нормальному. Частными случаями ЦПТ являются теоремы Муавра-Лапласа.
Неравенство Чебышева дает оценку верхней границы для вероятности отклонения величины от
её среднего значения; или оценку нижней границы вероятности того, что величина попадет в ε-окрестность
её среднего значения. Что интересно, распределение величины x при этом может быть неизвестно. Достаточно знать D(x)
Если случайные величины
тические ожидания
попарно независимые, имеют одинаковые матемаи ограниченные дисперсии
кова бы ни была положительная постоянная ε, вероятность осуществления неравенства
стремится к единице при n →  , т.е.
, то, ка-
Таким образом, теорема Чебышева утверждает, что если рассматривается достаточно большое
число независимых случайных величин, имеющих ограниченные дисперсии, то почти достоверным можно
считать событие, состоящее в том, что отклонение среднего арифметического случайных величин от среднего арифметического их математических
сколь угодно малым.
ожиданий будет по абсолютной величине
Обозначим математическое ожидание каждой из случайных величин через μ; в рассматриваемом
случае среднее арифметическое математических ожиданий, как легко видеть, также равно μ. Мы можем
сформулировать теорему Чебышева для рассматриваемого частного случая. Если
–
попарно независимые случайные величины, имеющие одно и то же математическое ожидание μ, и если
дисперсия этих величин равномерно ограничены, то как бы мало ни было число ε>0, вероятность неравенства
будет как угодно близка к единице, если число случайных
величин достаточно велико. Другими словами, в условиях теоремы будет иметь место равенство
Сущность данной теоремы такова: отдельные случайные величины могут иметь значительный разброс, а их среднее арифметическое рассеянно мало.
25. Выборка. Графическое изображение выборки. Количественная, порядковая, номинальная
шкалы измерения
Выборка, выборочная совокупность – некоторая часть генеральной совокупности, отбираемая
специальным образом и исследуемая с целью получения выводов о генеральной совокупности.
Графическое изображение выборки: если выборка задана значениями и их частотами или статистическим рядом, то строится полигон:
Полигон частот - это ломаная с вершинами в точках
Полигон относительных частот - это ломаная с вершинами в точках
Полигон
При большом объеме выборки строится гистограмма: Гистограмма частот и гистограмма относительных частот
Для построения гистограммы промежуток от наименьшего значения выборки до наибольшего разбивают
на несколько частичных промежутков длины h
Для каждого частичного промежутка подсчитывают сумму частот значений выборки, попавших в этот промежуток
(Si)
Значение
выборки, совпавшее с правым концом частичного промежутка (кроме последнего промежутка), относится к
следующему промежутку
Затем
на
каждом
промежутке, как на основании, строим прямоугольник с высотой
Ступенчатая фигура, состоящая из таких прямоугольников, называется гистограммой частот
Площадь такой фигуры
равна объёму выборки
Гистограммой относительных частот называют ступенчатую фигуру, состоящую из прямоугольников, основанием которых
являются частичные промежутки длины h, а высотой отрезки длиной
где i – сумма
относительных частот значений выборки, попавших в i промежуток
Площадь такой
фигуры равна 1
Гистограмма
Измерения, осуществляемые с помощью шкалы наименования и порядковой шкалы, считаются качественными, а измерения, осуществляемые с помощью интервальной шкалы и шкалы отношений, – количественными. Принято также шкалы, приводящие к качественным измерениям, называть дискретными, а шкалы, приводящие к количественным измерениям, – непрерывными
Номинальная шкала – шкала наименований.
Данный вид шкалы отражает прямые свойства объекта, имеющие объективный характер: пол, возраст, национальность, образование, род занятий, должность, место проживания, принадлежность к политическим партиям и т.п.
Такая шкала ничего не измеряет, а только указываются свойства объекта.
Порядковая (ранговая) шкала – это полностью упорядоченная шкала, в которой значения переменных даны в определенной последовательности, в определенном порядке (ранге), чаще от более важного значения до менее значимого, в которых выражается отношение респондента к чему-либо, комулибо. Ее называют еще ординальной шкалой. Она упорядочивает объекты по степени выраженности их
свойств, признаков в рамках отношений "больше–меньше", представляя тем самым определенную иерархию этих признаков, свойств и сравнений.
Данная
шкала с помощью чисел может показывать порядок расположения субъективных оценок респондента,
предлагаемых в анкете или оценок его самоощущения. Такая шкала чаще всего измеряет степень согласия
с утверждением или уровень удовлетворенности чем-либо, кем-либо. Варианты ответов идут от максимально положительного к отрицательному или наоборот.
26. Вариационный ряд. Полигон и гистограмма
Вариационный ряд – ранжированный в порядке возрастания или убывания ряд вариант с соответствующими им весами (частотой, частостью …). То есть вариационный ряд – двойной числовой ряд, показывающий, каким образом численные значения изучаемого признака связаны с их повторяемостью в выборке.
Полигон и гистограмма указана в вопросе 25.
27. Эмпирическая функция распределения, её свойства, график
Эмпирической функцией распределения или функцией распределения выборки называют такую
функцию, которая определяет для каждого значения x частоту событий X<x и предназначена для оценке
теоретической функции распределения генеральной совокупности в математической статистике.
Эмпирическая функция распределения находится по формуле:
где n – объем выборки, nx – количество наблюдений/вариантов меньше х.
Свойства:
1) Значения эмпирической функции принадлежит отрезку [0; 1];
2) F*(x) – неубывающая функция;
3) Если x1 ─ наименьшая варианта, то F*(x) = 0 при х < х1;
если хk ─ наибольшая варианта, то F*(x) = 1 при х > xk.
Итак, эмпирическая функция распределения выборки служит для оценки теоретической функции распределения генеральной совокупности.
Построение графика эмпирической функции распределения возможно после вычисления ее значений на всей числовой оси. Для рассмотренного примера схематическое изображение будет выглядеть так:
График ступенчатого вида, построенный на отрезках. Совпадение графика с горизонтальной осью означает, что левее минимального значения x=1 функция приобретает значение
нуля. Увеличение в каждой следующей точке xi происходит
на величину вероятности νi. Правее максимального значения х8=13 функция равна 1. Стрелки и точки на концах отрезков указывают на определение функции на полуинтервалах.
28. Точечное оценивание. Требования к точечным оценкам. Несмещенные оценки
математического ожидания и дисперсии.
29. Построение оценок параметров с помощью метода моментов и метода наибольшего правдоподобия
Суть метода моментов: выразить числовые параметры теоретического распределения через моменты распределения, оценённые по выборки. Число моментов должно соответствовать числу неизвестных параметров распределения (чаще всего используют первые два момента). После вычисления приравниваем
теоретические и выборочные моменты друг к другу и выражаем оценки параметров.
Суть метода наибольшего правдоподобия: составить по специальной формуле функцию правдоподобия L,
и найти оценку параметра θ из условия максимизации функции правдоподобия (ФП) на определенной выборке {xi}. Иногда ФП заменяют на логарифмическую функцию правдоподобия l=lnL (ЛФП), что облегчает
расчеты (вычисление производных).
Пример. Найти методом наибольшего правдоподобия оценку параметра p
биномиального распределения 𝑃𝑛 (𝑘) = 𝐶𝑛𝑘 ⋅ 𝑝𝑘 ⋅ (1 − 𝑝)𝑛−𝑘 , если в n1 независимых испытаниях событие
A появилось m1 раз и в n2 независимых испытаниях событие A появилось m2 раз
30. Интервальное оценивание. Доверительные интервалы для оценки параметров нормального распределения.
Интервальной называют оценку, которая определяет интервал, внутри которого находится оцениваемый
параметр распределения. Для того, чтобы делать содержательные выводы, стараются находить не точечные, а интервальные оценки
Интервал (θ̃1 ; θ̃2 ), покрывающий с вероятностью γ (доверительная вероятность) истинное значение параметра θ, называется доверительным интервалом
1- γ=α – вероятность того, что истинное значение параметра θ окажется вне интервала (θ̃1 ; θ̃2 )
Доверительный интервал – это интервал, который с заданной вероятностью накрывает оцениваемый параметр генеральной совокупности.
Доверительный интервал для:
̅−t σ; X
̅+t σ)
• неизвестного M(X)=α при известной дисперсии (X
√n
√n
̅ − 𝑡γ S ; X
̅ + 𝑡γ S )
• для неизвестного М(Х)= α при неизвестной дисперсии X
√n
√n
S – исправленное среднее квадратическое отклонение
S(n−1) S(n−1)
;
)
X21
X22
• неизвестного D(X)= σ2 при неизвестном математическом ожидании (
Доверительный интервал для оценки вероятности успеха при большом числе испытаний Бернулли
31. Минимальный объем выборки для получения оценок заданной надежности и точности.
В зависимости от требований к точности и достоверности результатов моделирования определяется минимальный объём выборки N. Приведем пример.
Пример. Найти минимальный объем выборки, при котором с надежностью 0,975 точность оценки ма-
тематического ожидания а генеральной совокупности по выборочной средней будет равна  = 0 ,3 ,
если известно среднее квадратическое отклонение  = 1,2 нормально распределенной генеральной совокупности.
Решение: воспользуемся выражением, определяющим точность оценки математического ожидания генеральной совокупности по выборочной средней:
=
t
n . Отсюда
 t  
n=

  
2
. По условию  = 0 ,975 или
Ф( t ) =

2
=
0 ,975
= 0 ,4875
2
. По таблице найдем
t=2,24. Подставив полученное значение, получим искомый объем выборки:
 t  
n=

  
2
 2 ,24  1,2 
=

 0 ,3 
2
= (8 ,96 ) = 80 ,2816  81
2
.
Ответ: n = 81 .
32. Проверка статистических гипотез. Уровень значимости и мощность критерия.
Под статистической гипотезой (или просто гипотезой) понимается всякое высказывание (предположение)
о генеральной совокупности, проверяемое по выборке. Статистические гипотезы делятся на гипотезы о параметрах распределения известного вида (параметрические гипотезы) и гипотезы о виде неизвестного распределения (непараметрические гипотезы).
Гипотезу, однозначно фиксирующую распределение наблюдений, называют простой (в ней речь идет об
одном значении параметра), в противном случае - сложной.
Одну из гипотез выделяют в качестве основной (или нулевой) и обозначают Но, а другую (логическое отрицание Но, т. е. противоположную Н0) выделяют в качестве конкурирующей (или альтернативной) гипотезы
и обозначают Н1. Имея две гипотезы Н0 и Н1, следует на основе выборки Х1,Х2,…,Хn принять либо основную гипотезу Но, либо конкурирующую Н1.
Функция выборки Тn = T(Х1,Х2,…,Хn) называется статистикой критерия. Правило, по которому принимается
решение принять или отклонить гипотезу Н0 (соответственно Н1), называется статистическим критерием
(критерием) проверки гипотезы Но.
Критической областью называют совокупность значений критерия, при которых нулевую гипотезу отвергают.
Областью принятия гипотезы называют совокупность значений критерия, при которых гипотезу принимают.
Основной принцип проверки статистических гипотез: если наблюдаемое значение критерия принадлежит
критической области, то гипотезу отвергают; если наблюдаемое значение критерия принадлежит области
принятия гипотезы - гипотезу принимают.
Критическими точками tкр называют точки, отделяющие критическую область от области принятия гипотезы.
Основной принцип проверки гипотез. Множество возможных значений статистики критерия Т, разбивается на два непересекающихся подмножества: критическую область S, т.е. область отклонения гипотезы
Н0, и область 𝑠̅ принятия этой гипотезы. Если фактически наблюдаемое значение статистики критерия, вычисляемое по выборке Тнабл = Т(Х1,Х2,…,Хn), попадает в критическую область S, то основная гипотеза Н0,
отклоняется, а альтернативная гипотеза Н1, принимается, если же Тнабл, попадает в 𝑠̅, то принимается Н0,
и отклоняется H1.
Типы ошибок при проверке гипотез. Ошибка первого рода состоит в том, что отвергается нулевая гипотеза
Но, когда на самом деле она верна. Ошибка второго рода состоит в том, что отвергается альтернативная
гипотеза Н1, когда на самом деле она верна.
Вероятность ошибки первого рода (обозначается через a) называется уровнем значимости критерия, 𝛼 =
Р(Н1/Н0). Чем меньше а , тем меньше вероятность отклонить верную гипотезу. Обычно для а используются стандартные значения а = 0,05; 0,01; 0,005; 0,001.
Вероятность ошибки второго рода обозначается через 𝛽, 𝛽 = Р(Н0 \ Н1).
Величина 1-𝛽 (вероятность недопущения ошибки второго рода) называется мощностью критерия. Чем
больше мощность критерия, тем вероятность ошибки второго рода меньше. Одновременное уменьшение
ошибок первого и второго рода возможно лишь при увеличении объема выборок.
33. Ошибки первого и второго рода.
Ошибка первого рода заключается в том, что верная нулевая гипотеза H0 отвергается и принимается конкурирующая ложная гипотеза Н1. Ошибка второго рода заключается в том, что ложная гипотеза H0
принимается, хотя на самом деле верна конкурирующая гипотеза Н1.
Статистическая проверка осуществляется для нулевой гипотезы H0, поэтому гипотезу H0 и называют
основной. Проверить нулевую гипотезу необходимо так, чтобы возможность ошибок обоих типов свести к
минимуму.
34. Критерий 2 – квадрат проверки гипотез о виде распределения.
Критерием согласия называется статистический критерий проверки гипотезы о предполагаемом законе неизвестного распределении. Он используется для проверки согласия предполагаемого вида распределения с опытными данными на основании выборки.
Критерий согласия Пирсона – наиболее часто употребляемый критерий для проверки гипотезы о
нормальном законе распределения генеральной совокупности.
Проверка гипотезы о нормальном распределении для дискретного вариационного ряда проводится по следующему алгоритму:
35. Критерий Колмогорова-Смирнова проверки гипотез о виде распределения.
Критерий Колмогорова применяется для проверки гипотезы распределения НСВ. Этот критерий использует статистику по формуле: 𝜆 = √𝑛 ⋅ max 𝑥𝑖 |𝐹(𝑥𝑖 ) + 𝐹𝑛 (𝑥𝑖 )|
𝑛 ∗𝑛
Если проводится 2 выборки, то ф-ла критерия Колмогорова имеет вид: 𝜆 = √𝑛 1+𝑛2 ⋅ max 𝑥𝑖 |𝐹(𝑥𝑖 ) +
1
2
𝐹𝑛 (𝑥𝑖 )|
Где Fn(xi) -значение эмпирической функции распределения
F(xi)-значение теоретической функции распределения
Если 𝜆 < 𝜆крит , то различие между значением эмпир-й функции распределения и теоретической
незначительные и гипотеза применяется. Чаще всего критерий Колмогорова применяется для проверки
полученных значений в ходе эксперимента на предмет подчинения их нормальному закону распределения
СВ.
По таблице распределения статистики Колмогорова определяют вероятность, которая может изменяться от 0 до 1. При Р(λ)=1- происходит полное совпадение частот, Р(λ)=0 – полное расхождение. Если
величина вероятности Р значительна по отношению к найденной величине λ, то можно предположить, что
расхождения между теоретическим и эмпирическим распределениями несущественны, т. е. носят случайный характер. Основное условие использования критерия Колмогорова – достаточно большое число
наблюдений.
Рассмотрим, как критерий Колмогорова (λ) применяется при проверке гипотезы о нормальном распределении генеральной совокупности. Выравнивание фактического распределения по кривой нормального распределения состоит из нескольких этапов:
1.
Сравнивают фактические и теоретические частоты.
2.
По фактическим данным определяют теоретические частоты кривой нормального распределения, которая является функцией нормированного отклонения.
3.
Проверяют на сколько распределение признака соответствует нормальному.
36. Критерии однородности.
37. Критерий Стьюдента сравнения двух средних значений.
Т-критерий Стьюдента основан на предположении о нормальности распределения генеральной совокупности, но результаты проверки гипотез удовлетворяют по точности и при небольших отклонениях от
нормальности распределения
38. Критерий фишера сравнения двух дисперсий.
39. Однофакторный и двухфакторный дисперсионный анализ
Однофакторный дисперсионный анализ используется для определения того, как один фактор влияет на переменную отклика.
Однофакторный дисперсионный анализ основан на том, что сумму квадратов отклонений статистического комплекса возможно разделить на компоненты:
SS=SSa+SSe, где
SS – общая сумма квадратов отклонений,
SSa – объяснённая влиянием фактора a сумма квадратов отклонений,
SSe – необъяснённая сумма квадратов отклонений или сумма квадратов отклонений ошибки.
Если через ni обозначить число вариантов в каждом классе градации и a – общее число градаций
фактора, то
∑ni=1 ni = n – общее число наблюдений и можно получить следующие формулы:
ni
SS = ∑ai=1 ∑j=1
(X ij − ̿
X)2 – общее число квадратов отклонений
̅i − ̿
SSa = ∑ai=1 ni (X
X)2 – объяснённая влиянием фактора a сумма квадратов отклонений
ni
a
̅ i )2 = ∑ai=1(ni − 1)si2 = (n1 − 1)s12 + (n2 − 1)s22 + ⋯ + (na − 1)sa2 – необъSSe = ∑i=1 ∑j=1(X ij − X
яснённая сумма квадратов отклонений или сумма квадратов отклонений ошибки, где
i
̿ = 1 ∑ai=1 ∑nj=1
X
X ij – общее среднее наблюдений,
n
1 ni
̅
X i = n ∑j=1
X j – среднее наблюдений в каждой градации фактора.
i
si2 – дисперсия градации фактора.
Чтобы провести однофакторный дисперсионный анализ данных статистического комплекса, нужно
найти фактическое отношение Фишера – отношение дисперсии, объяснённой влиянием фактора, и необъMS
яснённой дисперсии: F = a и сравнить его с критическим значением Фишера Fa;va;ve .
MSe
Дисперсии рассчитываются следующим образом:
SS
MSa = a−1a – объяснённая дисперсия,
SS
MSe = e – необъяснённая дисперсия, при этом
n−a
va=a−1 – число степеней свободы объяснённой дисперсии,
ve=n−a – число степеней свободы необъяснённой дисперсии,
v=n−1 – общее число степеней свободы.
Если фактическое значение отношения Фишера больше критического (F > Fa;va;ve ), то нулевая гипотеза отклоняется с уровнем значимости α. Это означает, что фактор существенно влияет на изменение
данных и данные зависимы от фактора с вероятностью P=1−α.
Если фактическое значение отношения Фишера меньше критического (F < Fa;va;ve ), то нулевая гипотеза не может быть отклонена с уровнем значимости α. Это означает, что фактор не оказывает существенного влияния на данные с вероятностью P=1−α.
Двухфакторный дисперсионный анализ применяется для того, чтобы проверить возможную зависимость результативного признака от двух факторов – A и B. Тогда a – число градаций фактора A и b – число
градаций фактора B. В статистическом комплексе сумма квадратов остатков разделяется на три компоненты:
SS=SSa+SSb+SSe,
где
SS = ∑ai=1 ∑bj=1(X ij − ̿
X)2 – общая сумма квадратов отклонений
̅i − ̿
SSa = b ∑ai=1(X
X)2 – объяснённая влиянием фактора A сумма квадратов отклонений
̅i − ̿
SSb = a ∑bj=1(X
X)2 – объяснённая влиянием фактора B сумма квадратов отклонений
SSe = ∑ai=1 ∑bj=1(X ij − ̅
Xi − ̅
Xj + ̿
X)2 – необъяснённая сумма квадратов отклонений или сумма
квадратов отклонений ошибки, где
1
̿
X = n ∑ai=1 ∑bj=1 X ij – общее среднее наблюдений,
̅ i = 1 ∑bj=1 X ij – среднее наблюдений в каждой градации фактора A
X
b
1
̅
X j = a ∑ai=1 X ij – среднее наблюдений в каждой градации фактора B
Дисперсии вычисляются следующим образом:
SS
MSa = a−1a – дисперсия, объяснённая влиянием фактора A,
SS
MSb = b−1b – дисперсия, объяснённая влиянием фактора B,
SS
e
MSe = (a−1)(b−1)
– необъяснённая дисперсия или дисперсия ошибки,
где
va=a−1 – число степеней свободы дисперсии, объяснённой влиянием фактора A,
vb=b−1 – число степеней свободы дисперсии, объяснённой влиянием фактора B,
ve=(a−1)(b−1) – число степеней свободы необъяснённой дисперсии или дисперсии ошибки,
v=ab−1 – общее число степеней свободы.
MS
Чтобы определить влияние фактора A, нужно фактическое отношение Фишера Fa = MSa сравнить с
e
критическим отношением Фишера Fa;va;ve .
MS
Чтобы определить влияние фактора B, нужно фактическое отношение Фишера Fb = MSb сравнить с
e
критическим отношением Фишера Fa;vb ;ve .
Если фактическое отношение Фишера больше критического отношения Фишера, то следует отклонить нулевую гипотезу с уровнем значимости α. Это означает, что фактор существенно влияет на данные:
данные зависят от фактора с вероятностью P=1−α.
Если фактическое отношение Фишера меньше критического отношения Фишера, то следует принять нулевую гипотезу с уровнем значимости α. Это означает, что фактор не оказывает существенного влияния на данные с вероятностью P=1−α.
40. Элементы регрессионного и корреляционного анализа.
41 Парная линейная и нелинейная регрессия
42 Парный коэффициент кореляции, его свойства. Проверка гипотезы о его достоверности
Парный коэффициент корреляции представляет собой меру линейной зависимости между двумя
переменными на фоне действия остальных переменных, входящих в модель.
Свойства:
1. Если величины х и у с точностью до случайных погрешностей одновременно возрастают или убывают, то
г > 0. Если с возрастанием одной из величин другая убывает, то г < 0.
2. Коэффициент корреляции независимых величин равен 0, но г может быть равен 0 и для некоторых зависимых величин.
3. Коэффициент корреляции не меняется от прибавления к х и у каких-либо постоянных (неслучайных) слагаемых и от умножения х и у на положительные числа.
Download