Теория вероятностей: Учебно-методическое пособие

Министерство образования и науки Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего образования «Ивановский государственный энергетический университет имени В.И. Ленина» УДК 517(075.8) C 50 Сметанин Е.В., Иванова Н.Б. Организация самостоятельной работы и лабораторных работ по курсу «МАТЕМАТИКА» (5-й семестр): Учеб.-метод. пособие / ФГБОУВО «Ивановский государственный энергетический университет имени В.И. Ленина». − Иваново, 2018. − 152 c. Учебно-методическое пособие содержит материалы для организации самостоятельной работы и лабораторных работ по курсу математики (5-й семестр). Предназначено для студентов третьего курса, обучающихся по специальности 14.05.02 «Атомные станции: проектирование, эксплуатация и инжиниринг». Табл. 15. Ил. 18. Библиогр.: 13 назв. Е.В. Сметанин, Н.Б. Иванова Организация самостоятельной работы и лабораторных работ по курсу «МАТЕМАТИКА» (5-й семестр) Учебно-методическое пособие Печатается по ФГБОУВО «Ивановский имени В.И. Ленина» решению редакционно-издательского совета государственный энергетический университет НАУЧНЫЙ РЕДАКТОР доктор технических наук, профессор В.К. Семенов РЕЦЕНЗЕНТ кафедра атомных электрических станций ФГБОУВО «Ивановский государственный энергетический университет имени В.И. Ленина» Сметанин Евгений Валентинович Иванова Наталья Борисовна Организация самостоятельной работы и лабораторных работ по курсу «МАТЕМАТИКА» (5-й семестр) Учебно-методическое пособие Редактор Н.С. Работаева ИВАНОВО 2018 Подписано в печать 23.03.18 г. Формат 60×84 1/16. Печать плоская. Усл. печ. л. 8,83. Уч.-изд. л. 9.6. Тираж 150 экз. Заказ № ФГБОУВО «Ивановский государственный энергетический университет имени В.И. Ленина». Отпечатано в УИУНЛ ИГЭУ 153003, г. Иваново, ул. Рабфаковская, 34. © Е.В. Сметанин, Н.Б. Иванова, 2018 ПРЕДИСЛОВИЕ Данное учебно-методическое пособие является продолжением ранее изданных пособий для курса «Математика» в первом – четвертом семестрах. Пособие содержит программы практических занятий, лабораторных работ, информацию о формах проведения промежуточных и итогового контролей, список рекомендуемой учебной литературы, список вопросов к зачету, а также материалы для проведения самостоятельной работы студентов. В программу пятого семестра включены следующие темы теории вероятности и математической статистики: основные понятия теории вероятности, комбинаторика, теоремы сложения и умножения вероятностей, условная вероятность, формула Байеса, формула Бернулли, формула Пуассона, формулы Муавра–Лапласа, основные законы распределения дискретных и непрерывных случайных величин и их характеристики, многомерные случайные величины, корреляция случайных величин, генеральная совокупность, оценка параметров генеральной совокупности по выборочным данным, доказательство статистических гипотез. Предлагаемый студентам материал для самостоятельной работы сгруппирован в шесть тематических разделов. Каждый раздел содержит две части: теоретическое введение (определения, теоремы, формулы, примеры) и подбор задач, что способствует более активному и неформальному усвоению студентами изучаемого предмета. Студенческие расчетно-графические работы включают в себя решение задач по каждой теме. Материал для лабораторных работ посвящен изучению наиболее часто встречающихся распределений. Особое внимание уделено обработке статистических данных. 3 I. ТЕМАТИЧЕСКОЕ ПЛАНИРОВАНИЕ И КРАТКОЕ СОДЕРЖАНИЕ РАЗДЕЛОВ (по темам) № п/п Наименование разделов Всего часов 1 Теория вероятности Математическая статистика Всего 72 2 Аудиторные занятия СамоЛекСеми- Лабор. стоят. ции нары работы работа 22 16 8 26 0 12 6 18 36 108 34 16 14 44 II. ПЛАН ПРОВЕДЕНИЯ ПРАКТИЧЕСКИХ ЗАНЯТИЙ, ЛАБОРАТОРНЫХ РАБОТ И КОНТРОЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ 1 Номер практического занятия 2 4 1 Номер учебной недели 6 2 8 3 10 4 Название темы практического занятия 3 Геометрическое и классическое определения вероятностей. Комбинаторные задачи. Теорема сложения вероятностей Условная вероятность, теорема умножения вероятностей, формула полной вероятности. Формула Байеса Повторные независимые испытания Контрольная работа 4 Форма контроля самостоятельной работы 4 15 - минутная контрольная работа 15 - минутная контрольная работа. Проверка решения домашних задач 15 - минутная контрольная работа. Проверка решения домашних задач 1 2 3 Дискретные величины 12 случайные 5 Непрерывные величины 14 случайные 6 Многомерные величины 16 18 Номер учебной недели 1 5 случайные 7 8 4 15 - минутная контрольная работа. Проверка решения домашних задач 15 - минутная контрольная работа. Проверка решения домашних задач 15 - минутная контрольная работа. Проверка решения домашних задач Контрольная работа Номер лабораторной работы 2 1 Название темы лабораторной работы 3 Самостоятельное решение задач по темам: Геометрическое и классическое определения вероятностей. Комбинаторные задачи. Теорема сложения вероятностей 5 Форма контроля самостоятельной работы 4 Работа в тестирующей программе 1 2 3 Самостоятельное решение задач по темам: Условная вероятность, теорема умножения вероятностей, формула полной вероятности. Формула Байеса. Повторные независимые испытания 7 2 9–11 3–4 13 5 Описательная статистика 15 6 Двумерные случайные величины. Теория корреляций. ЦПТ. Проверка статистических гипотез Защита отчета по лаборатор. работе 17 7 Статистическая обработка результатов эксперимента Защита отчета по лаборатор. работе Изучение типовых распределений 4 Работа в тестирующей программе Защита отчета по лаборатор. работе Защита отчета по лаборатор. работе III. ФОРМЫ ПРОМЕЖУТОЧНОГО И ИТОГОВОГО КОНТРОЛЯ Промежуточный контроль: а) 15-минутные контрольные работы на каждом семинаре, проверка решения домашних задач, РГР по теме каждого семинара; б) две промежуточные контрольные работы. Итоговый контроль: зачет. В пособии приведены типовые задачи к каждому тематическому разделу. Все они являются задачами удовлетворительного уровня сложности. Умение решать такие задачи является необходимым требованием к знаниям студентов при удовлетворительной оценке их подготовки на зачете. 6 IV. СПИСКИ ЛИТЕРАТУРЫ СПИСОК РЕКОМЕНДУЕМОЙ УЧЕБНОЙ ЛИТЕРАТУРЫ 1. 2. 3. 4. 5. Список основной литературы Гмурман, В. Е. Теория вероятностей и математическая статистика / В. Е. Гмурман. – 12-е изд. – М.: Юрайт, 2013. Вентцель, Е. С. Теория вероятностей: учеб. для вузов / Е. С. Вентцель. – М.: КНОРУС, 2010. Вентцель, Е. С. Задачи и упражнения по теории вероятностей: учеб. пособие для вузов / Е. С. Вентцель, Л. А. Овчаров. – 8-е изд., стер. – М.: КНОРУС, 2010. Список дополнительной литературы Кремер, Н. Ш. Теория вероятностей и математическая статистика / Н. Ш. Кремер. – М.: Юнити, 2003. Алентьев, А. В. Статистические методы обработки результатов физического эксперимента: учеб. пособие / А. Н. Алентьев, А. Г. Ильченко, А. Ю. Токов; Иван. гос. энерг. ун-т им. В.И. Ленина. – Иваново, 2007. СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 1. 2. 3. 4. 5. 6. 7. 8. Гмурман, В. Е. Теория вероятностей и математическая статистика / В. Е. Гмурман. – 12-е изд. – М.: Юрайт, 2013. Вентцель, Е. С. Теория вероятностей: учеб. для вузов / Е. С. Вентцель. – М.: КНОРУС, 2010. Вентцель, Е. С. Задачи и упражнения по теории вероятностей: учеб. пособие для вузов / Е. С. Вентцель, Л. А. Овчаров. – 8-е изд., стер. – М.: КНОРУС, 2010. Дьяконов, В. П. Энциклопедия Mathcad 2001i и Mathcad 11 / В. П. Дьяконов. – М.: Солон-Пресс, 2004. Китайгородский, А. И. Невероятно – не факт / А. И. Китайгородский. – М.: Молодая гвардия, 1972. Орлов, А. И. Математика случая: вероятность и статистика – основные факты: учеб. пособие. – М.: МЗ–Пресс, 2004. Рыжкин, А. А. Основы теории надежности: учеб. пособие / А. А. Рыжкин, Б. Н. Слюсарь, К. Г. Шучев. – Ростов-н/Д: Издательский центр ДГТУ, 2002. Теория вероятности и математическая статистика в задачах: учеб. пособие для вузов / В. А. Ватутин [и др.]. – 2-е изд., испр. – М.: Дрофа, 2003. 7 V. ВОПРОСЫ К ЗАЧЕТУ 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. Основные понятия теории вероятностей, классификация событий, вероятность события и ее основные свойства. Основные формулы комбинаторики, действия над событиями. Теорема сложения вероятностей несовместных событий, условная вероятность, теорема умножения вероятностей. Независимые события, теорема сложения вероятностей совместных событий. Формула полной вероятности, формула Байеса. Повторные независимые испытания, формула Бернулли, формула Пуассона, формула Муавра–Лапласа. Понятие случайной величины. Математические операции над случайными величинами. Дискретные случайные величины, примеры законов распределения дискретных случайных величин. Характеристики дискретных случайных величин. Непрерывные случайные величины, примеры законов распределения непрерывных случайных величин. Характеристики непрерывных случайных величин. Многомерная случайная величина и её характеристики. Понятие корреляции, линейная и среднеквадратичная регрессия. Закон больших чисел. Центральная предельная теорема. Понятие генеральной совокупности и выборки, выборочные характеристики. Точечные оценки параметров распределений и их свойства. Метод моментов и метод максимального правдоподобия оценки параметров распределений. Интервальные оценки, построение доверительных интервалов для параметров распределений. Статистическое оценивание и проверка гипотез. Оценка корреляции случайных величин по выборочным данным. 8 VI. МАТЕРИАЛЫ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ СТУДЕНТОВ ТЕМА 1 Основные определения теории вероятностей. Комбинаторика Случайным (стохастическим) экспериментом, или испытанием, или опытом называется осуществление какого-либо комплекса условий, который можно практически или мысленно воспроизвести сколь угодно большое число раз. Примеры случайного эксперимента: подбрасывание монеты или игральной кости (кубика), извлечение одной карты из перетасованной колоды. Явления, происходящие в результате испытания, называются элементарными исходами. Считается, что при проведении случайного эксперимента реализуется только один из возможных элементарных исходов. Элементарные исходы обозначаются wi, где i может принимать значения от одного до максимума по числу возможных вариантов результата опыта. Совокупность всех возможных результатов опыта в теории вероятности называется пространством элементарных исходов, обозначим его W: W={w1, w2, w3 ...}. Если W конечно или счетно, то случайным событием или просто событием называется любое подмножество W . События будем обозначать заглавными буквами латинского алфавита: A, В, С, ... . Событие A, принадлежащее пространству W, наступает тогда и только тогда, когда наступает один из элементарных исходов wi, входящих в А. Пример 1. Пусть событием А считается выпадение четной цифры при бросании игральной кости. Пространство элементарных исходов W состоит из следующих элементарных исходов: w1={1}, w2={2}, w3={3}, w4={4}, w5={5}, w6={6}. Событие А можно записать как A={w2, w4, w6}. Два события называются равновероятными (или равновозможными), если нет никаких объективных причин считать, что одно из них может наступить чаще, чем другое. Так, например, появления герба или надписи при бросании монеты представляют собой равновероятные события. 9 Для того чтобы дать классическое определение вероятности, необходимо ввести еще несколько новых понятий. 1. События E1,E2, ..., EN в данном опыте образуют полную группу, если в результате опыта должно произойти хотя бы одно из них. Так, в примере 1 полная группа событий состоит из шести событий — появлений цифр 1, 2, 3, 4, 5 и 6. 2. Событие B называется благоприятствующим событию A, если наступление события B влечет за собой наступление события A. Так, в примере 1 появление цифры 4 представляет собой событие, благоприятствующее событию A. Пусть события E1,E2, ..., EN в данном опыте образуют полную группу равновероятных и попарно несовместных событий. Будем называть их исходами испытания. Предположим, что событию A благоприятствуют M исходов испытания. Вероятностью P(A) события в данном опыте называется отношение числа M исходов опыта, благоприятствующих событию A, к общему числу N возможных исходов опыта, образующих полную группу равновероятных попарно несовместных событий: M . (1) P( A) = N Пример 2. На завод привезли партию из 1000 подшипников. Случайно в эту партию попало 30 подшипников, не удовлетворяющих стандарту. Определите вероятность P(A) того, что взятый наудачу подшипник окажется нестандартным. Решение. Р(А)=30/1000. Геометрическое определение вероятностей Недостаток классического определения вероятности заключается в том, что оно не применимо к испытаниям с бесконечным числом исходов. Обобщением классического определения вероятности на случайный эксперимент с бесконечным числом равновозможных случайных исходов, изображаемых точками, прямой, плоскостью, пространством и т.д., служит геометрическое определение вероятности. В эксперименте с равновозможными элементарными исходами, изображаемыми точками пространства Rn (прямой n=1, плоскости n=2, пространства n=3 и т.д.), вероятность события А µA множества точек, равна отношению меры 10 благоприятствующих событию А, к мере µW точек, повторяться любое число раз. Число размещений с повторениями из n (2) элементов по k элементов определяется по формуле An = nk. Пример 6. Сколько вариантов трехзначных кодовых комбинаций можно составить из 5-элементного множества? изображающих все возможные элементарные исходы. P ( A) = µA . µW Пример 3. В круг радиуса R наудачу брошена точка. Найдите вероятность того, что эта точка окажется внутри данного вписанного правильного треугольника. Решение. Искомая вероятность равна отношению площади 3 3R 2 3 3 треугольника к площади круга: P ( A) = = . 4πR 2 4π k 3 Решение. A5 = 53 = 125 . Элементы комбинаторики Пусть имеется множество Un, состоящее из n элементов. 1. Перестановкой из n элементов называется заданный порядок во множестве Un. Число перестановок определяется по формуле Pn=n! Пример 4. Сколько существует вариантов замещения пяти различных вакантных должностей пятью кандидатами? Решение. P5=5!=5·4·3·2=120. 4. Сочетаниями из n элементов по k элементов называются подмножества, состоящие из k элементов множества Un. Одно сочетание от другого отличается только составом выбранных элементов (но не порядком их расположения, как у размещений). Число сочетаний из n элементов по k элементов n! обозначается C nk и определяется по формуле Cnk = . k!(n − k!) Пример 7. Сколько подмножеств можно составить из четырехэлементного множества? 4! Решение. C42 = = 6 , то есть из 4-элементного 2!(4 − 2!) множества {А, Б, В, Г} можно составить шесть подмножеств, состоящих из 2 букв: {А,Б}, {А,В}, {А,Г}, {Б,В}, {Б,Г}, {В,Г}. 2. Размещениями без повторений из n элементов по k элементов будем называть упорядоченные подмножества, состоящие из k элементов множества Un. Число размещений из n элементов по k n! . элементов определяется по формуле Ank = (n − k )! Одно размещение из n элементов по k элементов может отличаться от другого как набором элементов, так и порядком их расположения. Каждый из элементов множества Un может встречаться только один раз. В задачах о размещениях полагается k<n. Пример 5. Сколько существует различных вариантов выбора 4 кандидатур из 9 специалистов для поездки в 4 различные страны? 9! 9! = = 9 ⋅ 8 ⋅ 7 ⋅ 6 = 3024 . Решение. A94 = (9 − 4)! 5! 3. Размещениями с повторениями из n элементов по k элементов будем называть упорядоченные подмножества, состоящие из k элементов множества, причем элементы множества Un могут Теорема сложения вероятностей Пусть A и В — несовместные события. Тогда вероятность того, что произойдет хотя бы одно из этих двух событий, равна сумме их вероятностей: P(A+B)=P(A)+P(B). (3) Теорема сложения вероятностей (3) справедлива только для несовместных событий. В случае, когда события А и В совместны, вероятность суммы этих событий выражается формулой Р(А+В)=Р(А)+Р(В)-Р(АВ). (4) Пример 8. В урне 30 шаров: 10 красных, 5 синих и 15 белых. Какова вероятность достать из коробки цветной шар? Решение. Пусть событие А состоит в том, что достали красный шар. Очевидно, что Р(А)=10/30. Пусть событие В состоит в том, что достали синий шар, Р(В)=5/30. Очевидно, что события А и В несовместны. Если событие С состоит в том, что достали цветной, то есть не белый, шар, то Р(С) = Р(А) + Р(В) = 1/2. 11 12 ЗАДАЧИ 1.1. Семь букв разрезной азбуки А, А, Б, Б, К, У, Ш положены в мешок, откуда их вынимают наудачу и располагают одну за другой в порядке, в котором они появляются. В результате получается слово БАБУШКА. Найдите вероятность этого события. 1.2. Кондуктор трамвая за смену продал билеты с номера 110101 до номера 112345. Студент, едущий на экзамен на этом трамвае, мечтает, чтобы ему достался билет, в котором цифра 2 не встречалась бы ни разу. Какова вероятность этого события? 1.3. Бросаются две игральные кости. Число очков, выпавших на верхних гранях костей, складывается. Найдите вероятность того, что в сумме получится четное число. 1.4. Четыре буквы разрезной азбуки А, А, М, М положены в мешок, откуда их вынимают наудачу и располагают одну за другой в порядке, в котором они появляются. В результате получается слово МАМА. Найдите вероятность этого события. 1.5. Какова вероятность того, что случайно выбранное значение 5 − 1 будет действительным числом? 1.6. Какова вероятность того, что случайно выбранный рациональный корень уравнения ( x 2 − 2)(3 x 2 − 7 x + 2) = 0 будет являться также решением уравнения 5 x 2 − 11x + 2 = 0 ? 1.7. На зачет выносятся 55 задач разного уровня сложности. Из них 10 задач очень сложные, 20 задач среднего уровня сложности, остальные задачи простые. Студенту необходимо решить две задачи, поэтому он тащит два билета наугад. Каждый раз билеты тщательно перемешиваются. Найдите вероятность вытащить хотя бы один билет с простой задачей. 1.8. Известно, что в школе с 900 учащимися 60 учеников по всем предметам имеют отличные оценки, 180 учеников только по одному предмету имеют хорошую или удовлетворительную оценку, а по остальным отличные, 150 учащихся не имеют ни одной отличной оценки, а 20 учащихся имеют отличные оценки по всем предметам, кроме одного, по которому у них оценка неудовлетворительная. Чему равна вероятность увидеть ученика, у которого хотя бы по одному предмету нет отличной оценки? 13 1.9. Два геккона охотятся на потолке комнаты размером 2 х 3 м. Отсчет координат ящериц будем производить от одного из углов потолка. Первый геккон сидит в точке А(0,5; 0,7), а другой в точке В(1,2; 1,8). В случайную точку потолка садится бабочка. Найдите вероятность того, что она будет съедена первым гекконом, если предположить, что оба хищника перемещаются по потолку с одинаковой скоростью. 1.10. Фокусник предлагает взять из тщательно перемешанной колоды карт (36 штук) верхнюю и нижнюю карты. Какова вероятность, что это будут дама и валет? 1.11. Известно, что в школе с 900 учащимися 60 учеников по всем предметам имеют отличные оценки, 180 учеников только по одному предмету имеют хорошую или удовлетворительную оценку, а по остальным отличные, 150 учащихся не имеют ни одной отличной оценки, а 20 учащихся имеют отличные оценки по всем предметам, кроме одного, по которому у них оценка неудовлетворительная. Чему равна вероятность увидеть ученика, у которого только по одному предмету нет отличной оценки? 1.12. Игральная кость бросается два раза. Какая из возможных сумм (2, 3, … 12) имеет наибольшую вероятность? 1.13. Прямоугольный двор размером 2 х 5,5 м охраняется двумя собаками, которые привязаны к серединам меньших сторон друг напротив друга. Длина поводка первой собаки 2 м, а второй – 3 м. В случайное место двора брошен кусочек мяса. Найдите вероятность того, что мясо не достанется ни одной из собак, а достанется кошке, гуляющей неподалеку. Считать, что кошка не заходит в область досягаемости ни одной из собак. 1.14. Какова вероятность того, что случайно выбранный натуральный корень уравнения x ⋅ y = 15 будет являться также решением уравнения x y = 15 ? Изменится ли ответ, если уравнения решаются над множеством целых чисел? 1.15. В маленьком кинозале 7 рядов по 8 мест. Зритель наудачу покупает билет и занимает место. Что вероятнее – сумма ряда и места в ряду окажется четной или нечетной? Найдите соответствующие вероятности. 14 1.16. Имеются две электрические схемы, состоящие каждая из четырех выключателей. Каждый из выключателей с вероятностью 0,5 может быть включен и выключен. Выясните, для какой из схем вероятность того, что ток будет проходить от точки А к точке В, будет наибольшей. Найдите соответствующие вероятности. 1 2 А 2 А В 3 1 4 В 3 4 Схема 1 Схема 2 1.17. Четверо друзей живут вместе. Им нужно сходить в магазин за хлебом, и они решили тянуть жребий, суть которого состоит в вытаскивании одной из четырех бумажек, одна из этих бумажек помечена. Каким по счету выгодней тянуть жребий, чтобы вероятность бежать в магазин была наименьшей? сумма первых трех цифр равнялась бы 5 (сумма вторых трех цифр тоже равнялась бы 5). Какова вероятность этого события? 1.23. Для лотереи было продано 120 билетов, среди которых 25 билетов с выигрышем. Предположим, что вы купили три билета. Какова вероятность получить на них не менее одного выигрыша? 1.24. На полке нужно расставить 7 учебников по различным предметам. Среди них всего три учебника по математике. Студент расставил учебники на полку не глядя. Какова вероятность того, что все учебники по математике будут идти друг за другом? 1.25. Из непрерывного диапазона [0, 2] взяты наугад два числа. Какова вероятность того, что сумма их квадратов будет меньше 1? 1.26. В полученной партии из 150 деталей 2 % брака. Среди оставшихся хороших деталей оказалось 30 штук второго сорта. Какова вероятность вытащить наугад первосортную деталь? 1.18. Два приятеля, не сговариваясь, купили билеты в кино. Какова вероятность для них занять соседние места, если в маленьком кинозале всего 12 мест, расположенных в один ряд? 1.27. В лотерее участвовало 100 билетов, причем билеты с номерами 13 и 66 остались некупленными. Среди купленных билетов было разыграно 15 равнозначных призов. Предположим, что вы купили два билета. Какова вероятность получить на них не менее одного приза? 1.19. Среди 30 бутылок молока, стоящих на полке магазина, случайно оказались 6 бутылок с истекшим сроком годности. Дата изготовления на всех бутылках затерлась. Какова вероятность того, что старушка, пришедшая купить 2 бутылки молока, получит негодный товар (хотя бы одну бутылку)? 1.28. Кондуктор автобуса за смену продал билеты с номера 123456 до номера 132321. Студент, едущий на экзамен на этом автобусе, мечтает, чтобы ему достался билет, первые три цифры на котором совпадали бы с последними тремя цифрами (с учетом порядка). Какова вероятность этого события? 1.20. Две студентки поехали домой на одном поезде. Случайным образом они оказались в одном вагоне. Какова вероятность того, что они попадут в одно купе (предположить, что в вагоне 7 двухместных купе)? 1.29. Фокусник предлагает взять из полной (52 штуки), тщательно перемешанной колоды карт две верхних карты. Какова вероятность, что это будут два туза? 1.21. Внутри равностороннего треугольника со стороной а случайным образом нарисована точка. Найдите вероятность того, что точка окажется внутри вписанного в треугольник круга. Предполагается, что вероятность попадания точки в круг пропорциональна площади круга и не зависит от его расположения относительно треугольника. 1.30. Из непрерывного диапазона [0, 2] взяты наугад три числа. Какова вероятность того, что их сумма будет меньше 1? 1.22. Кондуктор троллейбуса за смену продал билеты с номера 003001 до номера 045111. Студент, едущий на экзамен на этом троллейбусе, мечтает, чтобы ему достался счастливый билет, причем 15 16 ТЕМА 2 Условная вероятность, теорема умножения вероятностей, формула полной вероятности, формула Байеса Условная вероятность Если при вычислении вероятности наступления события А не требуется учитывать наступление или ненаступление других событий, то такую вероятность называют безусловной. Условной вероятностью РВ(А) называют вероятность наступления события А, вычисленную при условии того, что событие В уже наступило. Пример 1. Проведем эксперимент, заключающийся в подбрасывании двух монеток. Полную группу событий в этом случае образуют равновероятные исходы {(o,p), (p,o), (o,o), (p,p)}, где буквой «о» обозначено выпадение орла, а буквой «р» – выпадение решки, на первом месте стоит результат, полученный на первой монете, а на втором – на второй. Пусть событие А состоит в том, что выпало два орла, событие В – в том, что выпал орел на первой монете, событие С – в том, что выпало две решки. Безусловная вероятность события А равна, очевидно, Р(А)=1/4. Найдем вероятность события А при условии того, что событие В наступило. В этом случае множество возможных исходов уменьшается до множества событий, благоприятствующих событию В, то есть {(o,p), (o,o)}. Из них событию А благоприятствует один вариант и РВ(А)=1/2. Аналогично РВ(С)=0. Пример 2. Очевидно, что события А и В из примера 1 являются зависимыми, так как условная и безусловная вероятности события А не совпадают. События В и С являются зависимыми и несовместными. Пример 3. Пусть событие A — появление герба при однократном бросании монеты, а событие B — появление карты бубновой масти при вынимании карты из колоды. Очевидно, что события A и B независимы. В случае независимости событий A к B формула (5) примет более простой вид: P(AB)=P(A)P(B) . (7) Теорему умножения вероятностей можно обобщить на случай трех и большего количества событий: P ( A1 A2 A3 ... An ) = P ( A) ⋅ PA ( A2 ) ⋅ PA A ( A3 ) ⋅ ... ⋅ PA A ... A ( An ) . 1 1 2 1 2 n−1 События А1, А2, ..., Аn называются независимыми в совокупности, если вероятность наступления каждого из них не меняет своего значения после того, как одно или несколько из остальных событий осуществились. Исходя из этого определения, в случае независимости событий А1, А2, ..., Аn между собой, в совокупности на основании формулы (7) имеем P(A1A2A3..An)=P(A1)P(A2) P(A3) …P(An). (8) Пример 4. Какова вероятность того, что при десятикратном бросании монеты герб выпадет 10 раз? Решение. Поскольку мы имеем дело с десятью независимыми 10 событиями, то искомая вероятность равна ⎛⎜ 1 ⎞⎟ = 1 . ⎝2⎠ 1024 Теорема умножения вероятностей Вероятность совмещения событий А и В равна произведению вероятности одного из них на условную вероятность другого, вычисленную в предположении, что первое событие осуществилось, т. е. P(AB)=P(A)PA(B). (5) Два события A и B называются независимыми, если предположение о том, что произошло одно из них, не изменяет вероятность другого, т. е. если PB ( A) = P ( A), PA ( B) = P ( B ) . (6) Событие А называется зависимым от события В, если вероятность события А меняется в зависимости от того, произошло событие В или нет. События H1, H2, ..., Hn часто называют «гипотезами» прохождения испытания. Пример 5. В магазин поступили электрические лампочки одного типа, изготовленные на четырех ламповых заводах: с 1-го завода 250 шт., со 2-го – 525 шт., с 3-го – 275 шт. и с 4-го – 950 шт. 17 18 Формула полной вероятности Пусть событие A может произойти только вместе с одним из попарно несовместных событий H1, H2, ..., Hn, образующих полную группу. Тогда, если произошло событие A, это значит, что произошло одно из попарно несовместных событий H1A, H2A, ..., HnA. Следовательно, A=H1A + H2A + ... + HnA. Применяя теорему о сложении вероятностей, получаем формулу полной вероятности: P ( A) = P ( H 1 ) PH ( A) + P ( H 2 ) PH ( A) + ... + P( H n ) PH ( A) . (9) 1 2 n Вероятность того, что лампочка прогорит более 1500 часов, для 1-го завода равна 0,15, для 2-го – 0,30, для 3-го – 0,20, для 4-го – 0,10. При раскладке по полкам магазина лампочки были перемешаны. Какова вероятность того, что купленная лампочка прогорит более 1500 часов? Решение. В данной задаче гипотеза Hi будет состоять в том, что купленная лампочка была изготовлена i-м заводом. Всего в магазин поступило 2000 лампочек. Тогда P(H1) = 250/2000, P(H2) = 525/2000, P(H3) = 275/2000, P(H4) = 950/2000. Условные вероятности PHi ( A) – это вероятности того, что лампочка, изготовленная на i-м заводе, прослужит более 1500 часов. Тогда искомая вероятность 250 525 275 950 P( A) = 0,15 + 0,30 + 0,20 + 0,10 = 0,172 . 2000 2000 2000 2000 Формула Байеса Предположим, что производится некоторый опыт, причем об условиях его проведения можно высказать n единственно возможных и несовместных гипотез H1, H2, ..., Hn, имеющих вероятности P( H i ) и образующих полную группу. Пусть в результате опыта может произойти или не произойти событие А, причем известно, что если опыт происходит при выполнении гипотезы то Hi , PH ( A) = pi (i = 1,2,...n) . Спрашивается, как изменятся вероятности 1 гипотез, если стало известным, что событие А произошло? Иными словами, нас интересуют значения условных вероятностей гипотез PA ( H i ) . Это значение нам дает формула Байеса: PA ( H i ) = PH i ( A) P( H i ) P ( A) = PH i ( A) P ( H i ) n ∑ PH ( A) P( H k ) k =1 . (10) k Пример 6. Допустим, вы купили электрическую лампочку из примера 3. Лампочка прогорела менее 1500 часов. Какова вероятность, что она была изготовлена четвертым заводом? Решение. Нас интересует условная вероятность четвертой гипотезы. По формуле Байеса имеем: 950 0,10 PH 4 ( A) P( H 4 ) 2000 PA ( H i ) = = = 0,276 . P( A) 0,172 19 ЗАДАЧИ 2.1. Имеются две электрические схемы, состоящие каждая из шести выключателей. Каждый из выключателей с вероятностью 0,5 может быть включен и выключен. Выясните, для какой из схем вероятность того, что ток будет проходить от точки А к точке В, будет наибольшей. Найдите соответствующие вероятности. 1 2 3 2 А В А 4 5 1 5 3 6 Схема 1 4 В 6 Схема 2 2.2. Начинающий стрелок при одном выстреле попадает в мишень с вероятностью р = 0,4. Стрелок произвел 3 выстрела. Найдите вероятность того, что мишень будет поражена хотя бы один раз. 2.3. Дважды бросается игральная кость. Докажите, что события А (при первом бросании выпала шестерка) и В (при втором бросании выпало четное число очков) независимы. 2.4. В Древнем Риме солдаты играли не правильными деревянными или сделанными из бивней слонов игральными костями (такая кость называлась тессера, они были распространены среди богатых людей), а использовали кости коленной чашечки овцы или козы (они назывались таксиллус). Хотя таксиллус имеет шесть граней, выпасть могут только четыре из них, поскольку две остальные выпуклые, причем вероятности выпадения разных граней неодинаковы. Обозначим два наиболее вероятных положения таксиллуса A и B, а два менее вероятных – C и D. Пусть вероятности выпадения граней А и В равны 0,4, а вероятности выпадения граней С и D – 0,1. Предположим, что подкидываются две такие игральные кости. Найдите вероятность того, что они выпадут разными гранями. 2.5. Два игрока играют в кости. Они кидают одну игральную кость по одному разу. Какова вероятность, что второй игрок получит число очков больше, чем первый? 2.6. Студент выучил 1 билет из 10. Сколько нужно сделать попыток, чтобы вероятность вытащить нужный билет была равна 0,9, если «непонравившийся» билет каждый раз возвращается обратно и все билеты тщательно перемешиваются? 20 2.7. Фокусник предлагает взять из полной (52 штуки) колоды карт две карты по очереди. Каждый раз колода тщательно перемешивается. Какова вероятность, что среди вытянутых карт будет хотя бы один туз? 2.8. В урне a белых, b черных и c красных шаров. Три из них вынимаются наугад. Найдите вероятность того, что по крайней мере два из них будут одноцветными. 2.9. Рассмотрим игру в кости в Древнем Риме (см. задачу №2.4). Обычно римляне бросали сразу четыре кости; наибольшую ценность имел тот бросок, при котором каждая из них выпадала своей собственной стороной, отличной от других сторон. Этот бросок назывался Венерой. Найдите вероятность этого события. 2.10. В студии телевидения три телевизионные камеры. Для каждой камеры вероятность того, что она включена в данный момент, равна р = 0,6. Найдите вероятность того, что в данный момент включена хотя бы одна камера (событие А). 2.11. Студент выучил 1 билет из 10. Какова вероятность сдать зачет за 3 попытки, если «непонравившийся» билет назад не возвращается? 2.12. Рассмотрим игру в рулетку. Рулетка – это большая тарелка, дно которой может вращаться относительно неподвижных бортов. Дноколесо разбито на 37 ячеек, пронумерованных от 0 до 36 и покрашенных в два цвета: красный и черный. Цвета ячеек чередуются. Нулевая ячейка (зеро) не имеет цвета. Колесо закручивается – и на него бросается шарик. Он крутится, беспорядочно перескакивая из ячейки в ячейку. Постепенно темп вращения колеса замедляется, и шарик останавливается в одной из лунок. При выпадении зеро все игроки считаются проигравшими. Обычно людям кажется, что если в ходе игры встречается длинная серия попадания шарика в лунки одного цвета (к примеру, десять раз подряд выигрывало красное), то это повышает шансы попадания шарика в следующей игре в лунку противоположного цвета. Докажите, что это не так, ведь рулетка не имеет памяти. Указание. Найдите вероятности выпадения красного и черного при условии, что в n предыдущих случаях выпадало красное. 2.14. Из 20 студентов, находящихся в аудитории, 8 человек курят, 12 носят очки, а 6 и курят, и носят очки. Одного из студентов вызвали к доске. Определим события А и В следующим образом: A = {вызванный студент курит}, B = {вызванный носит очки}. Установите, зависимы события A и B или нет. 2.15. За космическим объектом следят три радиолокационные станции. Первая теряет объект с вероятностью 0,1, вторая – 0,2, а третья с вероятностью 0,15. Для исследований необходимы данные по крайней мере с двух станций. Какова вероятность того, что необходимые данные будут получены? 2.16. Приборы одного наименования изготавливаются двумя заводами. Первый завод поставляет 2/3 всех изделий, а второй – 1/3. Надежность (вероятность безотказной работы) прибора, изготовленного первым заводом, равна 0,9, а второго – 0,8. Наудачу взятый прибор оказался бракованным. Определите вероятность того, что он был изготовлен на первом заводе. 2.17. У рыбака есть три любимых места для ловли рыбы, которые он выбирает с равной вероятностью. В первом месте рыба клюет с вероятностью р1, во втором – р2, в третьем – р3. Известно, что рыбак, выйдя на ловлю рыбы, три раза закинул удочку и рыба клюнула только один раз. Найдите вероятность того, что он удил рыбу на втором месте. 2.18. После осмотра больного врач считает, что равновозможно одно из двух заболеваний С или D. Для уточнения диагноза больного направляют на анализ, исход которого дает положительную реакцию при заболевании С в 30 % случаев, а при заболевании D — в 20 % случаев. Анализ дал положительную реакцию. Какое заболевание становится более вероятным? 2.19. У мальчика в левом кармане три конфеты «Белочка» и одна конфета «Маска», а в правом – две «Белочки» и две «Маски». Он достал из одного кармана две конфеты, и оказалось, что они разные. Чему равна вероятность того, что он достал конфеты из левого кармана? Из правого кармана? 2.13. Два пенсионера начали играть в домино. Сначала первый из них берет 2 косточки, потом второй также берет 2 косточки. Какова вероятность вытащить ровно один дупель для каждого игрока? 2.20. Иван обычно прогуливает одну лекцию из трех, Сергей – одну из десяти, а Никита – каждую вторую. Преподаватель отметил, что одного студента (из вышеперечисленных) на лекции не хватает. Какова вероятность того, что это был Иван? 21 22 2.21. Имеются три схемы с ненадежными элементами (вероятность отключения тока каждым элементом 0,5). Взятая наудачу схема проводит ток. Найдите вероятность того, что это третья схема. 1 2 1 3 А А В 4 5 В 5 3 Схема 1 2 4 Схема 2 1 А 2 3 4 В 5 Схема 3 2.22. В частном предприятии «Пицца на дом» имеются четыре легковых автомобиля с водителями. Компания, страхующая автомобили этого предприятия, выяснила, что первая машина попадает в аварию с вероятностью 1 %, вторая с вероятностью 1,5 %, третья – 0,01 %, а четвертая – 3 %. Известно, что в течение года предприятию было выплачено две страховки. Какова вероятность, что в аварию попали первая и вторая машины? 2.23. В поселковой школе есть один школьный автобус, рассчитанный на 30 мест, и два микроавтобуса «Газель» на 13 мест. Автобус старый, и вероятность того, что он заведется, равна 30 %. Если автобус неисправен, для поездок в город используют микроавтобусы «Газель». На ближайшей заправочной станции автобус может заправиться бензином с вероятностью 90 %, а газ для микроавтобусов «Газель» бывает только пять дней в неделю. Известно, что 20 пятиклассников побывали в районном центре в театре. Выясните, что вероятнее – школьники ездили на автобусе или они ездили на микроавтобусах «Газель»? 2.24. Даша и Надя пошли в лес за грибами с одинаковыми корзинками. Даша тщательно рассматривает грибы и берет червивые с вероятностью 0,02, а у мечтательной Нади каждый пятый гриб червивый. Дома обнаружилось в одной из корзинок 3 червивых гриба и больше ничего. Какова вероятность того, что это была Надина корзинка? 23 2.25. В экзаменационном билете четыре задачи. Первая задача – сложная, за нее даются 2 балла, остальные задачи – однобалльные. Для сдачи экзамена необходимо набрать как минимум три балла. Вероятность решить первую задачу у конкретного студента – 1/2, вероятность решить остальные – 2/3. Известно, что студент экзамен сдал. Какова вероятность, что он решил три простые задачи? 2.26. Инопланетяне прилетели в некоторый вуз с целью похитить какого-нибудь студента и разузнать у него устройство земных атомных станций. Отличница Оксана обладает нужными им сведениями с вероятностью 0,9, хорошист Антон – с вероятностью 0,6, а нерадивый студент Александр – с вероятностью 0,1. Вероятность встретить праздно гуляющую по коридорам вуза Оксану невелика – 0,1, вероятность встретить Антона – 0,2, Александра – 0,9. Известно, что улетевшие инопланетяне захватили с собой одного студента, но нужных сведений от него так и не добились. Какова вероятность, что им попался Александр? 2.27. Предположим, что вероятность передачи ветрянки при длительном разговоре с больным человеком равна 0,3, но ветрянкой болеет лишь каждый 1000-й посетитель поликлиники. Вероятность заполучить грипп – 0,2, но таких больных посетителей больше 20 человек из 100. Допустим, вы заболели после того, как ходили в поликлинику. Не учитывая возможность других вирусных инфекций, найдите вероятность, что у вас грипп. 2.28. Четырех студентов, «заваливших» сессию, вызвали к декану. Декан сообщил, что отчисляет двоих из них. Первый попал в неприятное положение впервые, поэтому вероятность отчисления для него равна 0,2. Для второго и третьего соответствующая вероятность равна 0,4. Для четвертого студента, имеющего долги и по предыдущей сессии, вероятность отчисления равна 0,99. Какова вероятность того, что отчислены первый и четвертый студенты? 2.29. В овощной ларек привезли 60 кг свежей картошки в упаковках по 1 кг, поровну разложенной в три ящика. Хитрая продавщица подложила в свежую картошку старую: в первый ящик – 2 упаковки, во второй – 3 упаковки, а в третий – 1 упаковку. Вы купили 1 кг картошки и, придя домой, обнаружили, что она старая. Если считать, что продавщица выбирала ящик с равной вероятностью, найдите вероятность того, что вам досталась картошка из второго ящика. 24 2.30. Вика и Никита договорились пойти вечером в кино при условии, что не будет дождя и каждый из них сдаст утром зачет по предмету «Теория вероятности». Погода стоит облачная, а вероятность дождя равна 0,6. Вика старательно готовилась к зачету и сдаст его с вероятностью 0,9, а Никита понадеялся на друзей и сдаст зачет с вероятностью 0,5. Известно, что кинопросмотр не состоялся. Какова вероятность, что «виноват» дождь? опытов. Можно доказать, что число m0 должно удовлетворять двойному неравенству: np -q ≤ m0 ≤ np + p . (12) Для случаев больших значений n и малых значений p, но при npq < 9 точную формулу Бернулли заменяют приближенной, полученной французским математиком Симеоном Дени Пуассоном: ТЕМА 3 Формула Бернулли, формула Пуассона, локальная и интегральная формулы Муавра–Лапласа Пусть совершается серия из n опытов. В результате каждого опыта может появиться или не появиться некоторое событие А с вероятностью P(A)=p. Тогда вероятность противоположного события (ненаступления А) P ( A ) = 1 − p = q . Определим вероятность Pn(m) того, что событие А произойдет m раз при n испытаниях. Наступления или ненаступления события А могут чередоваться различным образом. Всякую комбинацию, в которую А входит m раз и A входит n-m раз, назовем благоприятной. Количество благоприятных комбинаций равно количеству k способов, которыми можно выбрать m чисел из данных n; таким образом, оно равно числу сочетаний из n элементов по m, т.е. Cnm . Следовательно, Pn (m) = Cnm p m q n − m . (11) Формула (11) называется формулой Бернулли. Пример 1. Вероятность попадания в цель при одном выстреле равна 0,6. Какова вероятность того, что 5 выстрелов дадут 3 попадания? Решение. Будем считать, что выстрелы независимы и вероятность попадания от выстрела к выстрелу не меняется. Применяя формулу Бернулли, получаем Р=0,630425!/3!/2!=0,3456. Часто необходимо знать, при каком значении m вероятность принимает наибольшее значение, т. е. требуется найти наивероятнейшее число m0 наступления события A в данной серии 25 λm e −λ , где λ = np . (13) m! Для случаев больших значений n при npq > 9 для вычисления вероятности Pn(m) используют другую приближенную формулу, называемую локальной формулой Муавра–Лапласа: Pn (m) = Pn ( m) = Здесь величина х = 1 1 npq 2π m − np npq e −x 2 2 = 1 npq ϕ ( х) . (14) при n → ∞ ограничена. Точность формулы (14) растет как с ростом величин n и m, так и по мере приближения величин p и q к 0,5. 1 −x 2 e , В табл. П1 помещены значения функции φ(х)= 2π соответствующие положительным значениям аргумента х. Для отрицательных значений аргумента пользуются той же таблицей, так как функция φ(х) четна, т. е. φ(х)= φ(–х). Используя приближение Муавра–Лапласа, мы можем вычислить вероятность Рn(k1,k2) того, что событие А появится в n испытаниях от k1 до k2 раз: 1 x 2 −t 2 (15) Рn(k1,k2) ≈ ∫ e dt = Ф( x2 ) − Ф( x1 ) . 2π x1 k − np k − np 1 x −t 2 Здесь х1= 1 ; х 2= 2 ; Ф(х)= ∫ e dt – функция Лапласа. npq npq 2π 0 2 2 2 Формулу (15) часто называют интегральной формулой Муавра– Лапласа. В табл. П2 даны значения функции Ф(х) для х ≥ 0, для отрицательных значений аргумента пользуются той же таблицей, так как функция Ф(х) нечетна, т. е. Ф(–х) = –Ф(х). В ней приведены 26 значения интеграла лишь до х = 4, так как для х > 4 можно принять Ф(x) = 0,5. Пример 2. Найдите вероятность того, что событие А наступит ровно 80 раз в 400 испытаниях, если вероятность появления этого события в каждом испытании равна 0,2. Решение. По условию n = 400; k = 80; р = 0,2; q = 0,8. Значение n велико, npq = 400·0.2·0.8= 64 (>9). Воспользуемся локальной формулой Лапласа: x = 80 − 400 ⋅ 0,2 = 0 , по табл. П1 находим 64 ϕ (0) = 0,3989 , значит, P400 (80) ≈ 1 ϕ (0) = 1 0,3989 = 0,499 . 8 64 Вероятность отклонения относительной частоты от постоянной вероятности в независимых испытаниях. Вновь будем считать, что производится n независимых испытаний, в каждом из которых вероятность появления события А постоянна и равна р. Вероятность того, что отклонение относительной частоты m/n от постоянной вероятности р по абсолютной величине не превышает заданного числа ε > 0, определяется по формуле ⎛ ⎞ ⎛m n ⎞⎟ . (16) P⎜⎜ − p ≤ ε ⎟⎟ = 2Ф⎜ ε ⎜ pq ⎟⎠ ⎠ ⎝ n ⎝ Пример 3. Вероятность р того, что деталь нестандартна, равна 0,1. Найдите вероятность того, что среди случайно отобранных 400 деталей относительная частота появления нестандартных деталей отклонится от вероятности по абсолютной величине не более чем на 0,03. Решение. По условию n = 400, p = 0,1, q = 0,9, ε = 0,03. Требуется найти вероятность Р( |m/400—0,1| < 0,03). Пользуясь формулой (16), имеем ⎛ ⎛ m ⎞ 400 ⎞ ⎟ = 2Ф(2) . P⎜⎜ − 0,1 ≤ 0,03 ⎟⎟ = 2Ф⎜⎜ 0,03 0,1 ⋅ 0,9 ⎟⎠ ⎝ 400 ⎠ ⎝ По табл. П2 находим Ф(2) = 0,4772. Следовательно, искомая вероятность равна 2Ф(2) = 0,9544. Смысл полученного результата таков: если взять достаточно большое число проб по 400 деталей в каждой, то примерно в 95,44 % этих проб отклонение относительной частоты от постоянной вероятности р = 0,1 по абсолютной величине не 27 m − p ≤ ε Другими словами, n бракованных деталей будет находиться в Для данной ( p − ε ) ⋅ n ≤ m ≤ (ε + p ) ⋅ n . (0,1 − 0,03) ⋅ 400 ≤ m ≤ (0,03 + 0,1) ⋅ 400 , то есть 28 ≤ m ≤ 52. превысит 0,03: −ε ≤ количество пределах задачи ЗАДАЧИ 3.1. Что вероятнее: выиграть у равносильного противника (ничейный вариант исключен) три партии из четырех или пять из восьми? 3.2. Среди 20 безработных, пришедших на биржу труда, скорее всего, только 3 человека найдут работу достаточно быстро. Оцените границы вероятности, с которой предлагаемая вакансия подходит для среднестатистического безработного. С какой именно вероятностью 3 безработных из 20 смогут трудоустроиться? 3.3. В лотерее каждый 10-й билет выигрывает. Какова вероятность того, что из 500 билетов 50 будут выигрышными? Какова вероятность того, что число выигравших билетов будет лежать между 40 и 60? 3.4. Легкомысленные студенты одной из групп считают, что для подготовки к зачету достаточно выучить половину всех билетов. Чаще всего при такой подготовке зачет с первой попытки сдают только пятеро студентов из группы. Оцените количество человек в группе. Какова вероятность того, что зачет сдадут семь человек? 3.5. В романе Льва Николаевича Толстого «Война и мир» Николай Ростов играет в карты со своим приятелем Долоховым. Основная идея карточной игры штосс, распространенной в петербургском обществе в первой половине XIX века, состоит в следующем: двое игроков, один из которых является банкометом, берут по колоде и распечатывают карты. Простой игрок выбирает из своей колоды карту и записывает на неё свою ставку или кладет на карту деньги. Затем банкомет начинает метать, то есть кладет в открытую карты своей колоды – направо, налево, направо, налево … Та карта, что ложится налево, считается выигравшей, а направо – битой. Легла карта направо – банкомет забирает ваши деньги, налево – платит вам столько, сколько было поставлено на карту. Одна раскладка карт занимает примерно две 28 минуты. Ростов и Долохов играли около трех часов, и в результате игры Ростов проиграл Долохову 42 тысячи рублей. Предположим, что ставка Николая на каждый кон составляла 1 тысячу рублей. Найдите вероятность такого проигрыша. 3.6. Студенты фальсифицируют данные лабораторных работ с вероятностью 2/7. Найдите наиболее вероятное число сфальсифицированных лабораторных работ из 11 возможных. Чему равна вероятность того, что студенты честно выполнят не больше 3 лабораторных работ из 11? 3.7. На испытательный стенд поставлены 100 конденсаторов. Известно, что вероятность пробоя конденсатора до истечения 10 000 часов равна 0,01. Чему равна вероятность того, что за 10 000 часов откажет не менее двух конденсаторов? 3.8. Два шахматиста условились сыграть 10 результативных партий. Победителем считается тот, кто выиграет больше партий. Вероятность выигрыша каждой отдельной партии первым игроком равна 2/3, а вероятность выигрыша каждой отдельной партии вторым игроком равна 1/3 (ничьи не считаются). Чему равна вероятность выигрыша всей игры первым игроком? Чему равна вероятность ничьей? 3.9. Один профессор, уходя с работы, часто забывает выключить рабочий компьютер. Чаще всего это с ним случается дважды в неделю. Оцените вероятность его однократной забывчивости. Насколько велика вероятность того, что за неделю профессор забудет выключить компьютер ровно один раз? 3.13. В семье пятеро детей. Вероятность рождения мальчика составляет 0,51. Найдите вероятность того, что среди этих детей не менее двух и не более трех девочек. 3.14. За первую неделю работы школьной столовой, обеспечивающей двухразовое питание школьников, еда в ней пригорела всего один раз. Найдите вероятность того, что за следующую неделю подобный казус случится трижды; менее трех раз? 3.15. Вероятность поражения мишени при одном выстреле равна 0,8. Найдите вероятность того, что при 100 выстрелах мишень будет поражена 75 раз; 85 раз. 3.16. Во время весеннего таяния снега вероятность выхода из берегов реки Мутная, на которой стоит село Мокрое, равна 0,7. Найдите вероятность того, что за 236 лет существования села оно затапливалось не менее 120 раз. 3.17. Некоторое электронное устройство выходит из строя, если откажет определенная микросхема. Вероятность ее отказа в течение одного часа работы равна 0,004. Какова вероятность того, что из 1000 тестируемых в течение часа устройств выйдут из строя пять штук? Найдите вероятность того, что за это же время относительная частота поломки устройства отклонится от своей вероятности по абсолютной величине не более чем на 1 %. 3.10. Велика ли вероятность того, что при 6000 бросаний игральной кости шестерка выпадет не более 500 раз? Ровно 600 раз? 3.18. Легенда племени Аануу гласит, что столицу их туземного государства Аануусянесдаюуся, находящуюся на берегу Тихого океана, за первые 800 лет её существования смывало цунами 378 раз. Какова вероятность того, что за последующие 1000 лет несчастный город смоет не более чем 400 раз? 3.11. Страховая компания застраховала 1000 автомобилей. Статистика показывает, что этой компании приходится выплачивать страховку каждой пятой машине. Чему равна вероятность того, что в текущем году придется выплатить страховку не менее чем за 100 автомобилей? Велика ли вероятность того, что страховку не придется выплачивать совсем? 3.19. В среднем 95 % выпускаемых микросхем по своим параметрам являются стандартными. Найдите вероятность того, что среди отобранных для проверки 400 микросхем стандартными будут 392. Какое отклонение относительной частоты появления брака от его вероятности можно ожидать с вероятностью 0,9 для данных 400 микросхем? 3.12. Два равносильных противника играют в шахматы. Что вероятнее – выиграть одну партию из двух или две партии из четырех? Найдите соответствующие вероятности. 3.20. Во время весеннего таяния снега река Шустрая, на которой стоит село Веселое, выходит из берегов с вероятностью 50 %. Найдите вероятность того, что за 536 лет существования села оно затапливалось не менее 200 раз. 29 30 3.21. Некоторое электронное устройство выходит из строя, если откажет определенная микросхема. Вероятность ее отказа в течение одного часа работы равна 0,004. Какова вероятность того, что из 1000 тестируемых в течение часа устройств выйдут из строя менее трех штук? 3.22. В среднем 95 % выпускаемых микросхем по своим параметрам являются стандартными. Найдите вероятность того, что среди отобранных для проверки 400 микросхем нестандартными будут от 35 до 40. Найдите вероятность того, что для отобранных изделий относительная частота появления брака отклонится от своей вероятности по абсолютной величине не более чем на 0,025. 3.23. Легенда племени Аануу гласит, что столицу их туземного государства Аануусянесдаюуся, находящуюся на берегу Тихого океана, за первые 800 лет её существования смывало цунами 378 раз. Какова вероятность того, что за последующие 1000 лет несчастный город смоет ровно 400 раз? 3.24. Вероятность того, что третьеклассник Игорь пройдет первый эпизод своей любимой компьютерной игры быстрее чем за полчаса, равна 85 %. Найдите вероятность того, что за следующие 20 игр подобная удача будет сопутствовать ему не более чем в 15 играх. 3.28. Какова вероятность того, что среди 500 наугад выбранных человек двое родились 1 апреля? 29 февраля? 3.29. В некоторой лотерее участвуют 10000 билетов. Из них 100 штук с различным денежным выигрышем и 50 штук с выигрышем в виде бытовой техники. Предположим, что вы купили 4 билета. Найдите вероятность того, что по крайней мере три из них с выигрышем. 3.30. Вероятность того, что телевизор имеет скрытые дефекты, равна 0,2. На склад поступило 200 телевизоров. Какое событие вероятнее: в этой партии имеется двадцать телевизоров со скрытыми дефектами или двадцать пять? Найдите вероятность того, что для поступившей партии телевизоров относительная частота появления дефекта отклонится от своей вероятности по абсолютной величине не более чем на 0,002. ТЕМА 4 Дискретные и непрерывные случайные величины 3.27. Среди 2000 человек приблизительно 16 левшей. Какова вероятность того, что среди сотни наугад выбранных человек окажется хотя бы один левша? Какое отклонение относительной частоты появления левши от его вероятности можно ожидать с вероятностью 0,95 для города с населением в 40000 человек? Случайной величиной называется величина, которая в результате опыта может принимать то или иное значение, причем неизвестно заранее, какое именно, поскольку оно зависит от многих случайных причин, которые полностью не могут быть учтены. Случайные величины бывают дискретными и непрерывными. Примеры дискретных случайных величин: число вызовов, поступивших на телефонную станцию за сутки; частота попаданий в мишень при 10 выстрелах; количество шестерок, выпавших на игральной кости при восьми бросаниях, и т.д. Дискретные случайные величины принимают изолированные значения, которые мы можем заранее перечислить. Число значений дискретной случайной величины может быть конечным или счетным. Примеры непрерывных случайных величин: абсцисса точки попадания при выстреле; ошибка взвешивания тела на аналитических весах; скорость летательного аппарата в момент выхода на заданную высоту; масса наугад взятого зерна пшеницы. Возможные значения таких случайных величин не отделены друг от друга, они непрерывно заполняют некоторый промежуток, который иногда имеет конечные 31 32 3.25. Два первокурсника Петя и Коля решили поставить рекорд и сыграть в шашки 250 результативных партий без остановки. Обычно удача сопутствует Коле в трех партиях из пяти, остальные партии выигрывает Петя. Найдите наиболее вероятное число партий, которое выиграет Петя, и вероятность того, что Коля выиграет от 100 до 150 партий. 3.26. Радиоаппаратура состоит из 1000 элементов. Вероятность отказа одного элемента в течение года равна 0,002. Какова вероятность отказа не менее двух элементов за год? Найдите вероятность того, что для 1000 элементов относительная частота появления отказа элемента за год отклонится от своей вероятности по абсолютной величине не более чем на 5 %? границы, а чаще – бесконечные. Число значений непрерывной случайной величины бесконечно. Законом распределения дискретной случайной величины называется соотношение, устанавливающее связь между возможными значениями случайной величины и соответствующими им вероятностями. Про случайную величину говорят, что она подчинена данному закону распределения. Простейшей формой этого закона является таблица вида xi pi x1 p1 x2 p2 … … xn pn В первой строке перечислены все возможные значения случайной величины, а во второй – вероятности этих значений. Сумма всех вероятностей должна быть равна единице. Такая таблица полностью описывает случайную величину и называется рядом распределения случайной величины Х. Чтобы придать ряду распределения более наглядный вид, часто прибегают к его графическому изображению: по оси абсцисс откладывают возможные значения случайной величины, а по оси ординат – вероятности этих значений. Для наглядности полученные точки соединяют отрезками. Такая фигура называется многоугольником распределения. Он тоже полностью характеризует дискретную случайную величину. Пример 1. Дан ряд распределения случайной величины Х: xi pi 1 0,1 2 0,3 3 0,3 4 0,2 5 0,1 Для описания случайной величины иногда удобнее пользоваться функцией распределения F(x) случайной величины Х. F(x) определяется как вероятность того, что случайная величина Х примет значение, меньшее х: F(x) = P(X<x). (17) Функцию распределения называют также интегральной функцией распределения или интегральным законом распределения. Это универсальная характеристика случайной величины, с её помощью можно описать как дискретную, так и непрерывную случайную величину. Свойства функции распределения 1. Функция распределения неубывающая, то есть при x2 > x1 F ( x2 ) ≥ F ( x1 ) . 2. F (−∞) = 0 . 3. F (+∞) = 1 . График функции распределения всегда представляет собой график неубывающей функции, значения которой начинаются с 0 и доходят до 1. Для дискретной случайной величины функция распределения в отдельных точках может иметь скачки (разрывы). Когда текущая переменная х проходит через возможное значение xi, функция распределения меняется скачкообразно на вероятность этого значения pi. Сумма всех скачков функции равна единице. По ряду распределения дискретной случайной величины можно легко построить функцию распределения этой величины: F ( x) = P ( X < x ) = ∑ P ( X = xi ) (рис. 2). xi < x Построим многоугольник распределения случайной величины Х (рис. 1). Рис. 2. Функция распределения дискретной случайной величины из примера 1 Рис. 1. Многоугольник распределения дискретной случайной величины из примера 1 33 34 Для описания непрерывных случайных величин также используют функцию распределения. Кроме этого, для описания непрерывных случайных величин используют функцию плотности распределения, определяемую следующим образом: F ( x + ∆x) − F ( x) f(x)= lim = F ′( x) . (18) ∆x → 0 ∆x Функция плотности распределения полностью описывает случайную величину, но существует только для непрерывных случайных величин. Кривая, изображающая плотность распределения случайной величины, называется кривой распределения. Рассмотрим непрерывную случайную величину Х с плотностью распределения f(x). Вероятность попадания случайной величины на элементарный участок [x, x+dx] равна f(x)dx. Величина f(x)dx называется элементом вероятности. Для того чтобы найти вероятность попадания величины Х на участок [х1, х2], необходимо просуммировать элементы вероятности на всем этом участке, то есть b Р(х1<Х<х2)= ∫ f ( x)dx . (19) a Геометрически вероятность попадания величины Х на участок [х1, х2] равна площади кривой распределения, опирающейся на этот участок. Используя соотношение (19), функцию распределения F(x) можно выразить через функцию плотности распределения: x F(х)=P(Х<х)= ∫ f ( x)dx . (20) −∞ Геометрически F(x) – площадь кривой распределения, лежащая левее х. Случайная величина Х называется непрерывной, если для нее существует неотрицательная кусочно-непрерывная функция1 f(x), удовлетворяющая для любых значений x равенству (20). Свойства плотности распределения 1. Плотность распределения есть неотрицательная функция f(x)>=0, то есть вся кривая лежит не ниже оси абсцисс. Это свойство вытекает из того, что функция распределения F(x) есть неубывающая функция. 2. Так как F(+∞)=1, то 1 Функция называется кусочно-непрерывной на всей числовой оси, если она на любом сегменте или непрерывна, или имеет конечное число точек разрыва I рода. 35 ∞ ∫ f ( x)dx = 1 , −∞ то есть площадь, ограниченная кривой распределения и осью абсцисс, равна единице. Числовые характеристики дискретных случайных величин Часто на практике нет необходимости характеризовать случайную величину полностью, задавая её функцию распределения. Иногда достаточно указать только её числовые характеристики, способные выразить наиболее существенные особенности распределения. Среди числовых характеристик случайных величин важнейшую роль играет математическое ожидание. Оно характеризует среднее значение, около которого группируются все возможные значения случайной величины. Математическим ожиданием М[Х] дискретной случайной величины Х называется сумма произведений всех ее n значений на соответствующие им вероятности: n M [X ] = ∑ xi pi (21а) i =1 или, если случайная величина может принимать счетное число значений, ∞ M [X ] = ∑ xi pi , причем лишь в случае абсолютной i =1 сходимости ряда. Для непрерывной ожидание случайной ∞ величины M [ X ] = ∫− ∞ xf ( x)dx . математическое (21b) Размерность математического ожидания равна размерности случайной величины. Свойства математических ожиданий 1. Математическое ожидание постоянной величины равно этой постоянной: M[С] = С. 2. Постоянный множитель можно выносить за символ математического ожидания: M[k·X] = k·M[X]. 3. Математическое ожидание суммы случайных величин равно сумме их математических ожиданий: M[X+Y] = M[X] + M[Y]. 4. Математическое ожидание разности случайных величин равно разности их математических ожиданий: M[X–Y]=M[X] – M[Y]. 36 5. 6. Математическое ожидание произведения случайных величин равно произведению их математических ожиданий: M[X·Y] = M[X] · M[Y]. Если все значения случайной величины увеличить (уменьшить) на одно и то же число С, то ее математическое ожидание увеличится (уменьшиться) на это же число: M[X+С] = M[X] + С. Модой случайной величины называется её наиболее вероятное значение. Если распределение имеет более одного максимума, распределение называется полимодальным. Медиана Ме случайной величины – это такое её значение, для которого Р(Х< Ме)=P(X>Me), то есть одинаково вероятно, окажется ли случайная величина меньше или больше Ме. Для дискретных случайных величин медиана существует не всегда. α-кванти́ль распределения – это значение непрерывной случайной величины, определяемое соотношением P ( X ≤ xα ) = α или F(xα) = α, (22) где F(х) — функция распределения случайной величины. Квантили играют очень важную роль в статистике. Задавая разные значения α, можно получить разные квантили. Квантили, соответствующие значениям α = 0,25, α = 0,5, α = 0,75, называются квартилями. Децили соответствуют квантилям с α = 0,1, α = 0,2, … α = 0,9; p-й перценти́лью называют квантиль с α = p /100. Начальным моментом s-го порядка дискретной случайной величины Х называется сумма вида n α s [ X ] = ∑ xis pi . (23а) i =1 Начальным моментом s-го порядка непрерывной случайной величины Х называется интеграл Пусть имеется случайная величина Х с математическим Центрированной случайной величиной, ожиданием m х. соответствующей случайной величине Х, называется отклонение случайной величины Х от её математического ожидания: o X = X − mx . (25) Центрирование случайной величины равносильно переносу начала координат в «центральную» точку распределения, абсцисса которой равна математическому ожиданию. Центральным моментом s-го порядка случайной величины Х называется математическое ожидание s-й степени соответствующей центрированной случайной величины: o µ s [X] = M[X s ] = M[( x − m x ) s ] . (26a) Очевидно, что первый центральный момент всегда равен нулю. Для дискретной случайной величины центральный момент s-го порядка выражается в виде суммы n µ s = ∑ ( xi − mx ) s pi , (26b) i =1 а для непрерывной случайной величины Х в виде интеграла ∞ µ s [ X ] = ∫ (x − mx )s f ( x)dx . (26c) −∞ Дисперсией D(X) случайной величины Х называется второй центральный момент. Для дискретной случайной величины это будет сумма n D[ X ] = ∑ ( xi − α ) 2 ⋅ pi = M [ X − M [ X ]]2 , (27a) i =1 а для непрерывной случайной величины − интеграл D[ X ] = ∞ 2 ∫ (x − mx ) f ( x)dx . (27b) −∞ Таким образом, математическое ожидание – это первый начальный момент случайной величины X. Можно объединить формулы (21) и (23) в одну: αs[ X ] = M [ X s ] . (24) Дисперсия есть характеристика рассеивания, разбросанности значений случайной величины около ее математического ожидания. Само слово «дисперсия» означает «рассеивание». Для наглядности характеристики рассеивания удобнее пользоваться величиной, единица измерения которой совпадает с единицей измерения случайной величины. Средним квадратическим отклонением σ(X) случайной вершины называется величина, равная корню из дисперсии: 37 38 ∞ α s [ X ] = ∫ x f ( x)dx . s (23b) −∞ σ= D. 1. 2. 3. 4. 5. 6. (28) Свойства дисперсий Дисперсия постоянной величины равна нулю: D[C] = 0. Постоянный множитель можно выносить за знак дисперсии: D[k·X] = k2·D[X]. Если все значения случайной величины увеличить или уменьшить на одно и то же число С, то дисперсия не изменится: D[X±C] = D[X]. Дисперсия суммы независимых случайных величин равна сумме их дисперсий: D[X+Y]=D[X]+D[Y]. Дисперсия разности независимых случайных величин равна сумме их дисперсий: D[X-Y]=D[X]+D[Y]. Дисперсия случайной величины равна ожиданию ее квадрата без квадрата ее математического ожидания: D(X) = M(X2) - M2(X). Третий центральный момент служит для характеристики асимметрии или скошенности распределения, он имеет размерность куба случайной величины. Чтобы получить безразмерную характеристику, третий момент делят на куб среднего квадратического отклонения. Полученная величина называется коэффициентом асимметрии: µ S k = 33 . (29) σ Четвертый центральный момент служит для характеристики «крутости», то есть островершинности или плосковершинности распределения. Это свойство описывается при помощи эксцесса: µ E x = 44 − 3 . σ (30) Примеры законов распределения 1. Биномиальное распределение Пусть производится n независимых испытаний, в каждом из которых событие А может появиться с одинаковой вероятностью р, а вероятность того, что событие не произойдет, равна q = 1 – p. Примем число появлений события в n испытаниях за некоторую случайную величину Х. Закон распределения случайной величины Х называется биномиальным, здесь n и p играют роль параметров распределения. 39 Ряд распределения биномиальной случайной величины имеет вид xi pi 0 qn 1 C1n·p·qn-1 2 C2n·p2·qn-2 … m Cmn·pm·qn-m … n pn Характеристики распределения: М[X] = n·p, D[X] = n·p·q. 2. Распределение Пуассона Этот частный случай биномиального распределения (при n → ∞ и p → 0) называется законом редких событий – большое число опытов и малая вероятность наступления события. Распределение Пуассона моделирует случайную величину Х, представляющую собой число событий, произошедших за фиксированное время, при условии, что данные события происходят с некоторой фиксированной средней интенсивностью λ и независимо друг от друга. Данное распределение имеет один параметр – λ. Распределение Пуассона играет ключевую роль в теории массового обслуживания. Ряд распределения случайной величины имеет вид xm Pm 0 e 1 −λ λ 1! e− λ 2 λ2 − λ e 2! … … m λm − λ e m! … … Характеристики распределения: М[X] = λ, D[X] = λ. 3. Геометрическое распределение Пусть производится n независимых испытаний, в каждом из которых событие А может появиться с одинаковой вероятностью р, а вероятность того, что событие не произойдет, равна q = 1 – p. Геометрическое распределение характеризует дискретную случайную величину X, равную номеру первого «успешного» испытания из серии независимых испытаний. «Успешным» считается испытание, в котором произошло наступление события А. Данное распределение однопараметрическое с параметром p. Ряд геометрического распределения имеет вид xi pi 1 p 2 p·q1 3 p·q2 40 … m p·qm-1 … Очевидно, что вероятности pi образуют геометрическую прогрессию с первым членом p и знаменателем q. Отсюда и название «геометрическое распределение». Характеристики распределения: M[X]=1/p, D[X]=q/p2. Геометрическое распределение — это единственное дискретное распределение со свойством отсутствия памяти: PX > m ( X > m + n) = P( X > n), ∀m, n ∈ N ∪ {0} , то есть количество прошлых «неудач» не влияет на количество будущих «неудач». 4. Гипергеометрическое распределение Гипергеометрическое распределение широко используется в практике статистического приёмочного контроля качества промышленной продукции и некоторых других областях. В партии из N изделий имеется M (M < N) «особенных» и N - M изделий, не обладающих «особенностью». Если случайным образом из всей партии выбрать контрольную партию из n изделий (отобранные изделия назад не возвращаются), то число «особенных» изделий в контрольной партии – случайная величина Х, имеющая гипергеометрическое распределение. Ряд распределения гипергеометрической случайной величины имеет вид xm Pm 0 CM0 C Nn −M C Nn 1 CM1 C Nn−−1M C Nn 2 CM2 C Nn−−2M C Nn … … m CMm C Nn−−mM C Nn … … Очевидно, что значения случайной величины Х не могут превышать значения min(n,M). M M[X]= n , Характеристики распределения: N M ( N − M )( N − n) D[ x] = n . N N ( N − 1) 5. Равномерное распределение Это непрерывное распределение случайной величины Х, о которой заранее известно, что возможные значения случайной величины лежат в пределах некоторого интервала [a, b] и все значения равновероятны. 41 Плотность распределения случайной величины Х, подчиненной равномерному закону распределения на участке от а до b, постоянна и равна с на отрезке [a, b], вне этого отрезка она равна нулю. Так как площадь, ограниченная кривой распределения, равна единице, то c=1/(b-a): ⎧⎪ 1 при a < x < b; f ( x) = ⎨ b − a ⎪⎩ 0 при x < a или x > b. Для функции распределения несложно получить при x < a; ⎧ 0 ⎪x − a F ( x) = ⎨ при a < x < b; ⎪b − a при x > b. ⎩ 1 Границы отрезка [a, b] играют роль параметров распределения. (b − a ) 2 a+b . , D[X]= Характеристики распределения: M[X]= 2 12 Вероятность попадания равномерной случайной величины на участок [х1, x2] находится по формуле x −x P(х1<X <х2) = 2 1 . b−a 6. Экспоненциальное, или показательное, распределение Это распределение, как и распределение Пуассона, играет важную роль в теории массового обслуживания. Более того, оба распределения описывают один и тот же процесс. Но, в отличие от дискретного распределения Пуассона, показательное распределение описывает случайное время Т, прошедшее от наступления одного события до наступления другого. Плотность распределения вероятностей такой случайной величины описывается функцией ⎧ 0 при t < 0; f (t ) = ⎨ − λt при x ≥ 0, ⎩λe где λ – положительное число (1 ≥ λ > 0), определяет интенсивность событий и является параметром распределения. Функция распределения, очевидно, имеет вид ⎧ 0 при t < 0; F (t ) = ⎨ − λt при x ≥ 0. ⎩1 − e 42 Характеристики распределения: M[X]= 1 , D[X]= 1 . λ λ2 Вероятность попадания случайной величины, подчиненной показательному закону распределения, в заданный интервал [х1, x2] находится по формуле p( x1 < X < x2 ) = F ( x2 ) − F ( x1 ) = e − λx − e − λx . Показательное распределение широко используется в теории надежности. Допустим, некоторое устройство начинает работать в момент времени t=0, а через какое-то время t происходит отказ устройства. Обозначим через Т непрерывную случайную величину – длительность безотказной работы устройства. Таким образом, функция распределения F(t) = P(T<t) определяет вероятность отказа за время t. Вероятность противоположного события длительностью (безотказная работа в течение времени t) равна R(t) = P(T >t) = 1 – F(t). Функцией надежности R(t) называют функцию, определяющую вероятность безотказной работы устройства в течение времени t: 1 2 R (t ) = 1 − F (t ) = e − λt Важным свойством показательного распределения является то, что вероятность безотказной работы устройства на интервале времени t не зависит от времени предшествующей работы до начала рассматриваемого интервала, а зависит только от длительности времени t: PX > s ( X > s + t ) = P ( X > t ) . Это свойство называют «отсутствием памяти». Таким образом, безотказная работа устройства зависит только от интенсивности отказов λ и не зависит от безотказной работы устройства в прошлом. 7. Нормальный закон распределения (распределение Гаусса) Это наиболее часто встречающийся на практике закон распределения. Главная его особенность, выделяющая нормальный закон среди других законов, состоит в том, что он является предельным законом, к которому приближаются другие законы распределения при часто встречающихся типичных условиях. Нормальное распределение характеризуется плотностью распределения вида 43 1 f ( x) = − ( x −m ) 2 . σ 2π Смысл параметров распределения m и σ следующий: m – математическое ожидание нормально распределенной случайной величины, σ – среднеквадратическое отклонение. Для нахождения функции вероятности нормального распределения необходимо вычислить интеграл F ( x) = e 2σ 2 x ∫ f ( x)dx , −∞ который не выражается через элементарные функции. Этот интеграл можно вычислить численными методами или выразить через так называемый интеграл вероятностей, для которого составлены таблицы. Существует много разновидностей интеграла вероятностей, например интеграл ошибок: 2 x −t erf ( x ) = ∫ e dt . 2 π 0 Мы будем использовать в качестве первообразной функции f(x) функцию Лапласа Ф( x) = 1 x ∫e − t2 2 dt , 2π 0 значения которой представлены в табл. П2. Используя функцию Ф(х), мы можем находить вероятность попадания случайной величины Х на участок [х1, x2] по формуле ⎛ x −m⎞ ⎛ x −m⎞ P ( x1 < X < x2 ) = F ( x2 ) − F ( x1 ) = Ф⎜ 2 ⎟ − Ф⎜ 1 ⎟. ⎝ σ ⎠ ⎝ σ ⎠ Важно, что вероятность попадания в интервал P(m ± σ)=0,682; в интервал P(m ± 2σ)=0,954; в интервал P(m ± 3σ)=0,987. Это значит, что для нормально распределенной случайной величины всё рассеивание с точностью до 0,3 % укладывается на участке m ± 3σ. Это известное правило трех сигма. 44 ЗАДАЧИ 4.1. Случайная величина х – число выпадения 12 очков при 5 одновременных подбрасываниях двух игральных костей. Постройте ряд распределения и многоугольник распределения случайной величины х, найдите наиболее вероятное число появлений искомого события и среднеквадратическое отклонение случайной величины. 4.2. Предположим, что в среднем в магазин приходит 2,1 покупателя в минуту. Обозначим через х случайную величину, равную числу покупателей, пришедших в магазин за 1 мин. Постройте ряд распределения и функцию распределения случайной величины х (расчет производить с точностью до 0,001), найдите дисперсию случайной величины. 4.3. Студент 3 курса Вася П. имеет не более чем четыре попытки для сдачи зачета по курсу «Теория вероятности». К зачету оптимистичный Вася выучил только половину билетов. Постройте ряд распределения и многоугольник распределения случайной величины х – количества попыток сдачи Васей зачета, найдите наиболее вероятное число появлений Васи на зачете и среднеквадратическое отклонение случайной величины. Обратите внимание, что даже при использовании Васей всех четырех возможностей сдача зачета ему при такой подготовке не гарантируется. 4.4. Новый преподаватель пришел читать лекцию студентам вуза. В деканате ему сказали, что примерно 10 % учащихся занимаются на одни пятерки, и попросили выделить пятерых студентов для генеральной уборки. Поскольку преподаватель студентов не знает, он отобрал необходимую «пятерку» случайным образом. Обозначим через х случайную величину, равную количеству отличников из пяти отобранных студентов. Постройте ряд распределения и функцию распределения случайной величины, найдите среднеквадратическое ожидание случайной величины. 4.5. В группе учится 20 студентов, из них четверо отличников, остальные хорошисты. Для поездки на олимпиаду необходимо отобрать команду из пяти человек. Отбор осуществляется бросанием жребия. Пусть случайная величина х – число отличников среди отобранных для поездки. Постройте ряд распределения и функцию распределения случайной величины х, найдите математическое ожидание и дисперсию случайной величины. 45 4.6. Статистика показывает, что для открытия счета в банк, работающий с 8 утра до 8 вечера, приходят ежедневно примерно 11 человек. Пусть х – случайная величина, равная числу подобных посетителей за час. Постройте ряд распределения и многоугольник распределения случайной величины х (расчет производить с точностью до 0,01), найдите среднеквадратическое отклонение случайной величины. 4.7. Обычно школьник Игорь успешно преодолевает первый эпизод своей любимой компьютерной игры в трех случаях из семи. Пусть х – случайная величина, равная числу попыток пройти первый эпизод и выйти во второй. Постройте ряд распределения и функцию распределения случайной величины х (расчет производить с точностью до 0,001), найдите математическое ожидание и дисперсию случайной величины. 4.8. Известно, что среди кроликов калифорнийской породы каждый 31-й— альбинос. Фермер купил в племенном хозяйстве 10 кроликов для поддержания породы у себя на ферме. В качестве случайной величины х рассмотрим число альбиносов среди купленных фермером кроликов. Постройте ряд распределения и функцию распределения случайной величины х, найдите наиболее вероятное число альбиносов, доставшихся фермеру, и дисперсию случайной величины. 4.9. Для освещения первого этажа студенческого общежития предусмотрено 5 лампочек, каждая из которых может быть разбита злодеем с вероятностью 1 %. Обозначим через х случайную величину, равную числу целых лампочек. Постройте ряд распределения и многоугольник распределения случайной величины х, найдите наиболее вероятное число целых лампочек и среднеквадратическое отклонение случайной величины. 4.10. Допустим, вы получили в наследство домик в деревне на краю глухого леса, занимающего площадь 100 га. Местные жители рассказывают, что в этом лесу живет около 200 непуганых волков. В качестве случайной величины х рассмотрим число волков, которые могут посетить ваш участок площадью в 1 га. Постройте ряд распределения и функцию распределения случайной величины х (расчет производить с точностью до 0,0001), найдите математическое ожидание и дисперсию случайной величины. 4.11. Один незадачливый охотник, имеющий в ружье всего 6 патронов, встретил весной медведя, который только что проснулся и 46 был не в настроении. Поскольку мирно договориться с медведем не получилось, охотник стал отстреливаться. В связи с тем, что ситуация была очень нервная, вероятность попадания охотником в нужное место у медведя за один независимый выстрел равна 0,6. Предполагая, что у охотника достаточно времени для совершения 6 выстрелов, обозначим через х случайную величину, равную количеству сделанных выстрелов. Постройте ряд распределения и функцию распределения случайной величины х, найдите математическое ожидание и дисперсию случайной величины. Какова вероятность спасения охотника имеющимися у него в распоряжении шестью патронами? 4.12. Родители двух мальчиков Вани и Сережи приготовили им на Новый год в подарок мешок Деда Мороза с конфетами. Хитрый Ваня прокрался вечером к ёлке, достал мешок и попробовал каждую третью конфету. После этого он тщательно перемешал конфеты в мешке и ушел спать. Утром Сережа первым подбежал к ёлке и, увидев мешок с конфетами, запустил туда руку и вытащил не глядя 8 конфет. Обозначим через х случайную величину, равную числу обкусанных конфет, оказавшихся в руках у Сережи. Постройте ряд распределения и многоугольник распределения случайной величины х, найдите математическое ожидание и среднеквадратическое отклонение случайной величины. 4.13. Случайная величина х – число выпадения 10 очков при 6 одновременных подбрасываниях двух игральных костей. Постройте ряд распределения и функцию распределения случайной величины х, найдите математическое ожидание и дисперсию случайной величины. 4.14. Антон и Андрей пришли на переэкзаменовку по высшей математике и стали думать, кому из них идти первым. Они решили бросать по очереди кубик, пока у кого-нибудь из них не выпадет шестерка. Это событие и определит «счастливчика». Обозначим через х случайную величину, равную числу подкидываний кубика (неважно, кто его кидал). Постройте ряд распределения и многоугольник распределения случайной величины х (расчет производить с точностью до 0,001), найдите наиболее вероятное число подкидываний кубика и среднеквадратическое отклонение случайной величины. 4.15. Кот Базилио и Буратино кладут в шляпу по три золотые монеты каждый, перемешивают их и высыпают на стол. Базилио забирает все монеты, которые лежат кверху «орлом», а Буратино – те, которые лежат кверху «решкой». Пусть х – случайная величина, равная 47 количеству монет, доставшихся Буратино. Постройте ряд распределения и многоугольник распределения случайной величины х, найдите наиболее вероятное число золотых монет, доставшихся деревянному человечку, и дисперсию случайной величины. 4.16. Предположим, что на лето вы устроились работать в кафе официантом. Ежедневно с 8.00 до 9.00 в этом кафе каждому посетителю в подарок наливают чашку кофе. Для экономии времени кофе по чашкам разливает специальный автомат с интервалом в 1 мин. Ваша задача подбежать к автомату, дождаться, когда нальется кофе, и отнести чашку клиенту. Ваши действия с действиями автомата никак не синхронизированы, поэтому вы подходите к автомату в случайный момент. Путь х – случайная величина, равная времени ожидания вами срабатывания автомата. Запишите функцию распределения и функцию плотности распределения случайной величины, вычислите первый центральный и второй начальный моменты. 4.17. В течение семестра нерадивый студент Миша К. заглядывает в учебник по математике нерегулярно, в среднем один раз в неделю (назовем этот момент событием). Путь х – случайная величина, равная временному интервалу между двумя соседними событиями. Напишите функцию распределения и функцию плотности распределения случайной величины, второй и третий начальные моменты. 4.18. Обозначим через х случайную величину, равную оценке, полученной студентом крупного вуза по математике. Средний балл для всех студентов этого курса рассматриваемого вуза равен 3,4, а дисперсия 0,28. Напишите функцию распределения и функцию плотности распределения случайной величины. Найдите асимметрию случайной величины и диапазон оценок, полученных студентами с вероятностью 0,95. 4.19. Определите среднее значение и дисперсию скорости молекул газа, если плотность распределения скоростей молекул задаётся формулой Максвелла: f (v ) = 4 где α = α 3 2 −αv v e , π 2 m . Найдите функцию распределения скоростей молекул. 2kT 4.20. Человек, увлекающийся энтомологией, изучает на необитаемом острове повадки тропических насекомых. Например, его интересует 48 скорость передвижения древесных гусениц. К сожалению, часы его сломались, и для измерения времени энтомологу приходится использовать импровизированные водяные часы в виде пластиковой бутылки с водой. В донышке бутылки проткнуто маленькое отверстие, из которого капает вода с интервалом в две секунды. Естествоиспытатель считает количество упавших капель, пока гусеница преодолевает установленную дистанцию. Результат по времени округляется в большую сторону. Путь х – случайная величина, равная ошибке в определении времени проползания гусеницей установленной дистанции. Запишите функцию распределения и функцию плотности распределения случайной величины. Найдите первый начальный и второй центральный моменты, а также вероятность того, что ошибка в определении скорости не превысит 1 с. 4.21. Пусть х – случайная величина, равная весу пойманной рыбы, подчиняется нормальному закону распределения с mx = 375 г и σ = 25 г. Запишите функцию распределения и функцию плотности распределения случайной величины, найдите вероятность того, что вес пойманной рыбы будет от 300 до 425 г. 4.22. Плотность f(x) случайной величины х представлена на графике. Найдите константу h, функцию распределения случайной величины, её математическое ожидание и эксцесс. 4.24. Вычислите константу С, среднее значение и дисперсию случайной величины Z, если плотность распределения случайной величины задаётся следующей формулой: f ( z) = C ⋅ e − mgz kT , где z ∈ [0, ∞ ) . Какой физический смысл имеет случайная величина Z? 4.25. Школьники некоторого региона прошли осмотр врачамистоматологами. В ходе проверки выяснилось, что в среднем у школьников имеется 2,5 зуба, нуждающихся в экстренном лечении. Обозначив через х случайную величину, равную количеству зубов, вылеченных у некоторого школьника, и учитывая, что дисперсия этой случайной величины равна 1,5, напишите функцию распределения и функцию плотности распределения случайной величины. Найдите эксцесс случайной величины и вероятность того, что следующему школьнику придется лечить не более одного зуба. 4.26. Функция распределения F(x) случайной величины х представлена на графике. Найдите константу h, функцию плотности распределения случайной величины, её дисперсию и асимметрию. F(x) h f(x) h h x График функции распределения случайной величины к задаче 4.26 h x График функции плотности случайной величины к задаче 4.22 4.23. Рассмотрим вертикально поставленное симметричное вращающееся колесо, которое останавливается вследствие трения. Один из радиусов колеса выделен – на нем нарисована красная стрелка. Случайная величина х – угол, который после остановки будет составлять с горизонтом фиксированный радиус колеса. Запишите функцию распределения и функцию плотности распределения случайной величины. Найдите первый и третий начальные моменты. 49 4.27. В среднем на станцию переливания крови приходит 15 запросов на кровь в сутки. Пусть х – случайная величина, равная времени, прошедшему от одного запроса до другого. Запишите функцию распределения и функцию плотности распределения случайной величины. Найдите второй центральный момент и вероятность того, что количество запросов за сутки не превысит среднее значение. 4.28. Случайная величина х распределена нормально со средним квадратическим отклонением σ = 2 мм. Найдите длину интервала, симметричного относительно математического ожидания, в который с вероятностью 0,995 случайная величина х попадет в результате испытания. 50 4.29. Возможные значения случайной величины х таковы: х1=-1, х2=0, х3=1. Известно, что mх=0,2, α2=0,4. Найдите вероятности, соответствующие возможным значениям х, запишите ряд распределения случайной величины, вычислите дисперсию. 4.30. Определите среднее значение и дисперсию кинетической энергии молекул газа, если плотность распределения скоростей молекул задаётся формулой Гиббса: f (E) = 2 E πθ e 3 − E θ , где θ = kT . Найдите функцию распределения скоростей молекул. ТЕМА 5 Двумерные случайные величины, корреляция. Выборка, нахождение выборочных характеристик Многомерной случайной величиной называется величина, которая при проведении опыта принимает в качестве своего значения не число, а целый набор чисел, заранее не известно каких именно. Эти наборы, которые случайная величина может принять, образуют множество ее возможных значений. Свойства многомерной случайной величины не исчерпываются свойствами отдельных величин, её составляющих: они включают также их взаимные связи, зависимости. Аналогично одномерным случайным величинам различают дискретные многомерные случайные величины (их составляющие дискретны) и непрерывные многомерные случайные величины (их составляющие непрерывны). Понятие многомерной случайной величины аналогично таким понятиям, как система случайных величин или многомерный случайный вектор. Мы будем рассматривать многомерные случайные величины на примере двумерной случайной величины. Функцией распределения двумерной случайной величины называется вероятность совместного выполнения двух неравенств X<x и Y<y: F(x,y)=P((X<x)(Y<y)). (31) В геометрической интерпретации это вероятность попадания в бесконечный квадрант с вершиной в точке (х,у) и находящийся левее и ниже её. Свойства функции распределения 1. Функция распределения F(x,y) есть неубывающая функция обоих своих аргументов: при х2>x1 F(x2,y) ≥ F(x1,y); при y2>y1 F(x,y2) ≥ F(x,y1). 2. Повсюду на -∞ функция распределения равна нулю: F(x,-∞)=F(-∞,y)=F(-∞,-∞)=0. 3. При одном из аргументов, равном +∞, функция распределения превращается в функцию распределения случайной величины, соответствующей другому аргументу: F(x, ∞)=F1(x), F(∞,y)=F2(y). 4. F(∞,∞)=1. Зная функцию распределения, можно найти вероятность попадания случайной величины в заданную прямоугольную область R ( x1 ≤ X ≤ x2 , y1 ≤ Y ≤ y2 ), изображенную на рис. 3. Очевидно, что P (( X , Y ) ⊂ R) = F ( x2 , y2 ) − F ( x1 , y2 ) − F ( x2 , y1 ) + F ( x1 , y1 ) . Рис. 3. Геометрическая иллюстрация к нахождению вероятности попадания случайной величины в прямоугольную область Рассмотрим дискретную двумерную случайную величину (X, Y). Если случайная величина Х может принимать только значения x1, 51 52 x2, … xn, а случайная величина Y – значения y1, y2, … ym, то двумерный случайный вектор (X, Y) может принимать только пары значений (xi, yj), где i = 1, 2, …, n, j = 1, 2, …, m. Так же как и в одномерном случае, распределение двумерной дискретной случайной величины описывается с помощью табл. 1. Таблица 1. Общий вид таблицы распределения P(xi,yj) двумерной дискретной случайной величины вероятностей в ее последней строке (последнем столбце) и соответствующая условию нормировки. С помощью табл. 1 нетрудно определить функцию распределения двумерной случайной величины: i: xi < x j : y j < y Также легко по таблице вычисляется вероятность любого события B, задаваемого в виде произвольной области на плоскости: P (( X , Y ) ∈ B ) = ∑∑ pij . Y i P( X = xi ) = pi• X y1 y2 … ym x1 p11 p12 … p1m p1• x2 P21 P22 … P2m p2• … … … … … … xn Pn1 Pn2 … Pnm pn• P(Y = y j ) = p• j p•1 p•2 … p•m Пример 1. Закон распределения двумерного дискретного случайного вектора (X, Y) задан табл. 2. Таблица 2. Пример таблицы закона распределения P(xi,yj) двумерной случайной величины Y 1 значение хi, а компонента Y примет значение yj. На значения вероятностей накладывается условие ∑∑ pij = 1 . j Одномерные законы распределения отдельных компонент случайного вектора (X, Y) выражаются через вероятности совместных значений pij по формулам P( X = xi ) = pi • = ∑ pij , P(Y = y j ) = p• j = ∑ pij , j j ( xi , y j )∈B В этой таблице pij – это вероятность того, что компонента Х примет i ∑ ∑ pij . F ( x, y ) = 1. X –1 1 0 1 2 0,1 0,3 0,2 0,06 0,18 0,16 Найдем одномерные законы распределения компонент X и Y путём суммирования вероятностей соответствующих строк и столбцов табл. 2. Результат запишем в табл. 3. Таблица 3. Закон распределения P(xi,yj) двумерной случайной величины и соответствующие законы распределения компонент i Y где суммирование распространяется на все возможные значения индексов i или j. Таким образом, для получения значения вероятности pi • для некоторого фиксированного значения i надо сложить вероятности pij , стоящие в i-й строке табл. 1, а для получения X –1 1 pi • 0 1 2 0,1 0,3 0,2 0,06 0,18 0,16 0,16 0,48 0,36 значения вероятности p• j для некоторого фиксированного значения j p• j 0,6 0,4 1 надо сложить вероятности pij , стоящие в j-м столбце табл. 1. При этом удобно одномерные законы распределения отдельных компонент записывать в той же таблице в ее последней строке и последнем столбце. В правом нижнем углу таблицы обязательно должна находиться единица, являющаяся результатом суммирования 53 2. 3. Найдем вероятность P(X ≤ Y): P(X ≤ Y)=0,1 + 0,06 + 0,18 = 0,34. Составим функцию распределения F(x, y). Согласно определению функции распределения (31) значение F(x, y) – это вероятность попадания случайной точки (X, Y) в бесконечный квадрант с вершиной (x, y). На рис. 4 показан случай, 54 когда вершина (x, y) находится внутри прямоугольника 0 ≤ x < 1, -1 ≤ y < 1. При этом внутри квадранта находится только одна точка с координатами (0, 1), в которой имеется ненулевая вероятность, равная 0,1. Аналогично проходим по всем областям рис. 4. y 1 (x; y) 0 1 2 x ∂2F . (32) ∂x∂y Геометрически функцию f(x,y) можно изобразить некоторой поверхностью, которая называется поверхностью распределения. Свойства функции плотности распределения двумерной случайной величины 1. Плотность распределения функция неотрицательная. f ( x, y ) = 2. ∞ ∞ ∫ ∫ f ( x, y )dxdy = 1 . С геометрической точки зрения объем тела, −∞ −∞ -1 Рис. 4. Геометрическая иллюстрация к функции вероятности дискретной случайной величины Функцию распределения F(x, y) также удобно задавать в виде табл. 4. Обратите внимание, что в заголовках таблицы будут уже не изолированные значения компонент случайной величины, а диапазон их изменения. Таблица 4. Пример таблицы функции распределения F(xi,yj) двумерной случайной величины X x<0 x<1 x<2 x<∞ y < -1 0 0 0 0 Y y<1 0 0,1 0,4 0,6 y<∞ 0 0,16 0,64 1 Обратите внимание, что для заполнения каждой клетки таблицы функции распределения мы складывали вероятности, которые находятся левее и выше соответствующей клетки в табл. 2. В последней строке и последнем столбце табл. 4 мы получили функции распределения компонент двумерной случайной величины. Для непрерывной случайной величины (X,Y) используется понятие плотности распределения вероятностей. Плотностью распределения вероятностей случайной величины (X,Y) с функцией распределения F(x,y) называют непрерывную в R2 функцию f(x,y), равную 55 ограниченного поверхностью f(x,y) и плоскостью хОу, равен 1. Элементом вероятности в двумерном случае называется выражение f ( x, y )dxdy , равное вероятности попадания в элементарный прямоугольник со сторонами dx, dy и примыкающий к точке (х,у). Эта вероятность равна объему элементарного параллелепипеда, ограниченного сверху поверхностью f(x,y) и опирающегося на элементарный прямоугольник dxdy. Вероятность того, что значения двумерной случайной величины (X,Y) находятся в области D ⊂ R2, можно определить по формуле (33) P (( X , Y ) ∈ D ) = ∫∫ f ( x, y )dxdy . D Геометрически – это объем цилиндрического тела, ограниченного сверху поверхностью распределения и опирающегося на область D. Теперь можно выразить функцию распределения случайной величины (X,Y) через плотность распределения: F ( x, y ) = x y ∫ ∫ f (t , z )dtdz . (34) −∞ −∞ Пример 2. Двумерная случайная величина подчинена закону распределения с плотностью 1 f ( x, y ) = 2 . π (1 + x 2 )(1 + y 2 ) 1. Найдем функцию распределения этой случайной величины: dxdy 1 x y 1 ⎞⎛ 1 1⎞ ⎛1 F ( x, y ) = 2 ∫ ∫ = ⎜ arctg ( x) + ⎟⎜ arctg ( y ) + ⎟ . 2 2 π − ∞ − ∞ (1 + x )(1 + y ) ⎝ π 2 ⎠⎝ π 2⎠ 2. Определим вероятность попадания случайной точки в квадрат R со стороной 1 и диагональю (0, 0) – (1, 1): 56 P(( X , Y ) ⊂ R) = 1 π π 1 dxdy 1 1 dx 1 dy = 2 = . = 2 ∫∫ 2 2 2 ∫ 2∫ 2 π 0 0 (1 + x )(1 + y ) π 0 1 + x 0 1 + y π 4 4 16 1 11 Зная функцию плотности распределения двумерной случайной величины, всегда можно определить функцию распределения её компонент: x ∞ F1 ( x) = F ( x, ∞) = ∫ ∫ f (t , y )dtdy , −∞ −∞ F2 ( y ) = F (∞, y ) = y ∞ ∫ ∫ f ( x, t )dtdx . −∞ −∞ Отсюда можно найти плотность распределения каждой компоненты двумерной случайной величины: ∞ ∞ ∂ ∂ f1 ( x ) = F1 ( x) = ∫ f ( x, y )dy , f 2 ( y) = F2 ( y ) = ∫ f ( x, y )dx . (35) ∂x ∂y −∞ −∞ Обратная задача – найти по известным законам распределения одномерных компонент случайной величины закон распределения двумерной случайной величины – разрешима только в случае, если компоненты случайной величины независимы. Для того чтобы определить, зависимы компоненты случайной величины или нет, необходимо сравнить их условные и безусловные законы распределения. Условным законом распределения случайной величины Х, входящей в систему (X, Y), называется её закон распределения, вычисленный при условии, что другая случайная величина Y приняла определенное значение у. Рис. 5. Геометрическая иллюстрация к нахождению условной вероятности Рассмотрим прилежащий к точке (x, y) элементарный прямоугольник R (рис. 5) со сторонами dx, dy. Вероятность попадания 57 в этот прямоугольник f(x,y)dxdy равна вероятности одновременно попасть в полосу I, опирающуюся на отрезок dx, и в полосу II, опирающуюся на отрезок dy: f ( x, y)dxdy = P(( X , Y ) ⊂ R) = P(( x < X < x + dx)( y < Y < y + dy)) . Вероятность произведения этих двух событий по теореме умножения вероятностей равна вероятности попадания в полосу I, умноженной на условную вероятность попадания в полосу II, вычисленную при условии, что первое событие произошло: f(x,y)dxdy=f1(x)dxf(y|x)dy, откуда f(x,y)=f1(x)f(y|x). (36а) Формулу (36а) часто называют теоремой умножения законов распределения для непрерывных случайных величин. Ее можно записать и так: f(x,y)=f2(у)f(х|у). (36b) Выразим из соотношений (36) условные законы распределения: f ( x, y ) f ( x, y ) f ( x y) = = ∞ ; (37a) f 2 ( y) f ( x , y ) dx ∫ −∞ f ( x, y ) f ( y x) = = f1 ( x) f ( x, y ) ∞ . (37b) ∫ f ( x, y )dy −∞ Итак, отдельные компоненты случайной величины могут быть зависимыми и независимыми. Случайные величины называются независимыми, если закон распределения каждой из них не зависит от того, какое значение приняла другая: f ( y x) = f 2 ( y ) , f ( x y ) = f1 ( x) , то есть зависимость или независимость случайных величин всегда взаимна. Для независимых непрерывных случайных величин выполняется соотношение f(x,y)=f1(x)f2(y), (38) которое означает, что плотность распределения системы независимых случайных величин равна произведению плотностей распределения отдельных величин, входящих в систему. Это необходимое и достаточное условие независимости случайных величин. 58 Пример 3. Рассмотрим двумерную случайную величину из примера 2. Определим, зависимы ли компоненты случайной величины (Х, Y). Для этого найдем плотности распределения компонент: ∞ 1 dy 1 f1 ( x ) = = ; ∫ 2 2 π (1 + x ) − ∞ π (1 + y ) π (1 + x 2 ) ∞ 1 dx 1 = . ∫ 2 2 π (1 + y ) − ∞ π (1 + x ) π (1 + y 2 ) Соотношение (38) выполняется, значит, одномерные случайные величины Х и Y независимы. Замечание. Важно не путать функциональную зависимость, при которой по значению одной величины можно точно указать одно или несколько значений другой величины, со стохастической (вероятностной) зависимостью, когда по значению одной величины можно указать только закон распределения другой величины. Функциональная зависимость является предельным случаем стохастической. Пример стохастически зависимых случайных величин – это рост и масса людей или рост и возраст ребенка, время подготовки к экзамену и оценка, полученная за него. f 2 ( y) = Числовые характеристики двумерных случайных величин Начальным моментом порядка k, s системы (X, Y) называется математическое ожидание произведения Xk на Ys: α k , s = M [ X kY s ] . (39a) Для дискретных случайных величин начальный момент выражается формулой α k , s = ∑ ∑ xik y sj pij , (39b) i j где pij – вероятность того, что система (X,Y) примет значение (xi,yj), а суммирование распространяется по всем возможным значениям случайных величин. Для непрерывных случайных величин начальный момент выражается формулой ∞ ∞ α k , s = ∫ ∫ x y f ( x, y )dxdy , k s (39c) −∞ −∞ где f(x,y) – плотность распределения системы случайных величин. Центральным моментом порядка k, s системы (X, Y) называется математическое ожидание произведения k-й и s-й степени соответствующих центрированных величин: 0 0 (40а) 0 где X = X − m x , Y = Y − m y . Для дискретных случайных величин центральный момент выражается формулой µ k , s = ∑ ∑ ( xi − mx ) k ( y j − m y ) s pij , i (40b) j а для непрерывных – формулой ∞ ∞ µ k , s = ∫ ∫ ( x − mx ) k ( y − m y ) s f ( x, y )dxdy . (40c) −∞ −∞ Первые начальные моменты представляют собой математические ожидания величин Х и Y: mx = α1,0 = M [ X 1Y 0 ] = M [ X ] , m y = α 0,1 = M [ X 0Y 1 ] = M [Y ] . Точка с координатами (mx, my) представляет собой характеристику положения системы (геометрически – это координата «средней» точки на плоскости, вокруг которой происходит рассеивание). Вторые центральные моменты характеризуют рассеивание двумерной случайной величины относительно «средней» точки: 0 0 0 Dx = µ 2,0 = M [ X 2 Y 0 ] = M [ X 2 ] = D[ X ] ; 0 0 0 D y = µ0, 2 = M [ X 0 Y 2 ] = M [Y 2 ] = D[Y ] . Особую роль как характеристика системы играет второй смешанный центральный момент: 0 0 µ1,1 = M [ X Y ] , то есть математическое ожидание произведения центрированных величин. Этот момент называется корреляционным моментом или ковариацией случайных величин X и Y: 0 0 K xy = cov( X , Y ) = M [ X Y ] = M [( X − mx )(Y − m y )] . Для дискретных случайных величин корреляционный выражается формулой K xy = ∑ ∑ [( xi − mx )( y j − m y )]pij , i (41a) момент (41b) j а для непрерывных – формулой ∞ ∞ K xy = ∫ ∫ ( x − mx )( y − m y ) f ( x, y )dxdy . −∞ −∞ 59 0 µk , s = M [ X k Y s ] , 60 (41c) Как правило, Kxy удобнее вычислять по формуле K xy = α1,1 − α1,0 ⋅ α 0,1 . Если случайные величины независимы, то f(x,y)=f1(x)f2(y) и корреляционный момент равен нулю. Таким образом, если корреляционный момент двух случайных величин отличен от нуля, это есть признак наличия зависимости между ними. Из формул (41) видно, что корреляционный момент учитывает и рассеивание случайных величин. Поэтому для характеристики связи между величинами X и Y переходят к безразмерной характеристике: K xy , (42) rxy = σ xσ y где σ x и σ y – средние квадратические отклонения величин X и Y. Эта характеристика называется коэффициентом корреляции величин X и Y. Очевидно, что он обращается в ноль одновременно с корреляционным моментом, то есть для независимых случайных величин коэффициент корреляции равен нулю, и величины называются некоррелированными. Замечание. Следует отметить, что понятие некоррелированности шире понятия независимости, т.е. существуют некоррелированные, но зависимые случайные величины. Коэффициент корреляции rxy характеризует степень линейной зависимости случайных величин X и Y, проявляющейся в том, что при возрастании одной случайной величины другая проявляет тенденцию также возрастать (или убывать). В первом случае rxy > 0 и говорят, что случайные величины X и Y связаны положительной корреляцией, во втором случае rxy < 0 и говорят, что случайные величины X и Y связаны отрицательной корреляцией. Модуль коэффициента корреляции случайных величин X и Y характеризует степень тесноты линейной зависимости между ними. Если линейной зависимости нет, то rxy = 0. При этом между случайными величинами может оставаться зависимость другого рода, например квадратичная. Примеры коррелированных случайных величин: масса и рост человека. Пример 4. На игральной кости сумма очков на противоположных гранях равна 7. Пусть X – число очков на верхней грани, Y – число очков на нижней грани. Постройте совместный закон распределения случайных величин X и Y и найдите коэффициент корреляции между ними. 61 Решение. По условию задачи Х + Y = 7, поэтому возможными являются только следующие пары значений случайной величины: (1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1). Очевидно, что все эти варианты равновозможны. Тогда закон распределения случайного вектора (X, Y) задается табл. 5. Таблица 5. Закон распределения случайного вектора из примера 4 X 1 2 3 4 5 6 Y 1 0 0 0 0 0 1/6 2 0 0 0 0 1/6 0 3 0 0 0 1/6 0 0 4 0 0 1/6 0 0 0 5 0 1/6 0 0 0 0 6 1/6 0 0 0 0 0 Находим характеристики компонент случайной величины: mx = my =21/6, D[x] = D[y] = 1/6(1+4+9+25+36)-(21/6)2 = 91/6-441/36 = 105/36, K11=α11-mx·my=1/6(1*6+2*5+3*4)*2-(21/6)2=28/3-441/36=-105/36. По формуле (42) находим rxy = -1, что подтверждает линейную зависимость между компонентами случайной величины. Функции и линии регрессии Рассмотрим две случайные непрерывные величины X и Y, находящиеся в корреляционной зависимости. Каждому значению x случайной величины X соответствует условное распределение вероятностей величины Y. Условное математическое ожидание величины Y ∞ M x [Y ] = ∫ yf x ( y )dy . (43) −∞ Очевидно, что условное математическое ожидание случайной величины Y зависит от того, какое значение примет случайная величина X. Таким образом, мы получаем функцию M x [Y ] = g(x) переменной x. Легко показать, что g ( x) = m y + y = my + r ⋅σ y σx 62 r ⋅σ y ( x − mx ) σx ( x − mx ) . Функция (44) называется функцией линейной среднеквадратической регрессии величины Y на X, а ее график – линией регрессии Y на X. Функция регрессии величины Y на X описывает изменение условного математического ожидания случайной величины Y при изменении значений х величины Х. Аналогично выражению (43) находится условное математическое ожидание величины X при условии, что Y = y: ∞ M y ( X ) = ∫ xf y ( x)dx , (45) −∞ где f y (x) – условная плотность вероятности случайной величины X при условии, что Y = y. Условное математическое ожидание случайной r ⋅σ x величины X есть функция у: My[X] = s(y), s ( y ) = mx + ( y − my ) . σy Функция х = mx + r ⋅σ x σy ( y − my ) , (46) описывающая изменение условного математического ожидания случайной переменной Х при изменении значений y величины Y, называется функцией линейной среднеквадратической регрессии величины X на Y, а ее график – линией регрессии X на Y. Функции y = g(x) и x = s(y) не являются обратными по отношению друг к другу. Из уравнений прямых следует, что обе прямые регрессии проходят через точку (mx, my), являющуюся центром совместного распределения величин X и Y. Очевидно, что только при r = ± 1 обе прямые регрессии совпадают. Если r = 0, то случайные величины X и Y не коррелированы и соотношения (44) и (46) описывают прямые y = my и x = mx, параллельные осям координат, т.е. в этом случае условные математические ожидания постоянны и равны безусловным математическим ожиданиям случайных величин Y и X. Математическая статистика – раздел математики, который занимается разработкой методов получения научно обоснованных выводов о массовых явлениях и процессах по данным наблюдения или экспериментов. Например, по информации о числе бракованных изделий в партии готовой продукции надо сделать вывод о качестве используемого технологического процесса. 63 Математическая статистика предполагает вероятностную природу данных наблюдений, поэтому она основана на понятиях и методах теории вероятностей. На основе статистических данных математическая статистика подбирает подходящую вероятностную модель для получения вывода о рассматриваемом явлении или процессе. Генеральной совокупностью называют совокупность всех мысленно возможных объектов данного вида, над которыми проводятся наблюдения в целях получения конкретных значений случайной величины, или совокупность результатов всех мыслимых наблюдений, проводимых в неизменных условиях над одной из случайных величин, связанных с данным видом объектов, то есть множество возможных значений случайной величины Х. Выборочной совокупностью (выборкой) называют специально отобранную для изучения часть объектов генеральной совокупности. Под законом распределения генеральной совокупности Х понимают закон распределения вероятностей случайной величины Х. Цель математической статистики – по данным выборочной совокупности найти закон распределения генеральной совокупности, позволяющий оценить вероятности интересующих нас событий и принять то или иное решение в условиях неопределенности. Для того чтобы по данным выборки можно было достаточно уверенно судить о законе распределения генеральной совокупности и его параметрах, необходимо, чтобы выборка правильно представляла пропорции генеральной совокупности, то есть была репрезентативной. Объемом совокупности (выборочной или генеральной) называют число объектов этой совокупности. Например, если из 1000 деталей отобрано для обследования 100 деталей, то объем генеральной совокупности N = 1000, а объем выборки n =100. Обычно полученные наблюдаемые данные представляют собой неупорядоченное множество чисел. Для того чтобы угадать закон распределения выборочной совокупности, опытные данные подвергают обработке. Пример 5. Рассмотрим случайную величину Х, равную числу неправильных телефонных соединений на станции в минуту. Наблюдения в течение часа дали следующие результаты: 3; 1; 3; 1; 4; 2; 2; 4; 0; 3; 0; 2; 2; 0; 2; 1;4; 3; 3; 1; 4; 2; 2; 1; 1; 2; 1; 0; 3; 4; 1; 3; 2; 7; 2; 0; 0; 1; 3; 3; 1; 2; 4;2; 0; 2; 3; 1; 2; 5; 1; 1; 0; 1; 1; 2; 2; 1; 1; 5. 64 Здесь X является дискретной случайной величиной, а полученные о ней сведения представляют собой наблюдаемые данные. Алгоритм построения дискретного вариационного ряда Первый шаг: наблюдаемые значения случайной величины расположите в порядке неубывания, эта операция называется ранжированием опытных данных. Второй шаг: опытные данные сгруппируйте так, чтобы в каждой отдельной группе значения случайной величины были одинаковы. Значение случайной величины, соответствующее одной группе, обычно называют вариантом. Третий шаг: для каждой группы сгруппированного ряда данных подсчитайте число встречаемости каждого варианта в выборке. Такие числа называют частотой варианта. Обозначим частоты варианта mi, где i – номер группы. Отношение частоты данного варианта к объему выборочной совокупности называется долей этого варианта и обозначается ~ pi : m ~ pi = i . n Доля является статистическим аналогом вероятности появления варианта. Четвертый шаг: подсчитав частоты и доли для каждого варианта, наблюдаемые данные представьте в виде таблицы, которую называют дискретным вариационным рядом. Дискретным вариационным рядом распределения называется ранжированная совокупность вариантов хi с соответствующими им частотами или долями. Для рассмотренного примера дискретный вариационный ряд имеет вид: xi mi ~ pi 0 8 8/60 1 17 17/60 2 16 16/60 3 10 10/60 4 6 6/60 5 2 2/60 7 1 1/60 Эмпирической плотностью распределения, соответствующей конкретной реализации случайной выборки из генеральной совокупности Х, называют функцию ~ pn (x), которая во всех точках i-го интервала принимает значение ~ pi , а вне рассматриваемой области равна нулю. 65 По данным дискретного вариационного ряда можно построить график эмпирической плотности распределения – полигон частот или полигон относительных частот: ломаную, отрезки которой соединяют точки с абсциссами, равными значениям хi, и ординатами – pi . Для рассмотренного примера соответствующими значениям mi или ~ полигон частот изображен на рис. 6. Рис. 6. Полигон относительных частот для примера 5 Для выборки можно определить понятие выборочной функции распределения. Эмпирическая (выборочная) функция распределения – это функция, которая для каждого значения х принимает значение, равное числу элементов выборки, меньших х, деленное на объем выборки. Эта функция является статистическим аналогом функции распределения генеральной совокупности Х. Если изучаемая случайная величина является непрерывной, то ранжирование и группировка наблюдаемых значений не позволяют выделить характерные черты распределения. Это объясняется тем, что отдельные значения случайной величины могут как угодно мало отличаться друг от друга, и поэтому в совокупности наблюдаемых данных одинаковые значения величины могут встречаться редко, а частоты вариантов мало отличаются друг от друга. Нецелесообразно также построение дискретного ряда для дискретной случайной величины, число возможных вариантов значений которой велико. В подобных случаях следует построить интервальный вариационный ряд распределения. Для построения такого ряда весь интервал варьирования наблюдаемых значений случайной величины разбивают на ряд 66 интервалов и подсчитывают частоту попадания значений величины в каждый интервал. Интервальным вариационным рядом называется упорядоченная совокупность интервалов значений случайной величины с соответствующими частотами попаданий в каждый из них. Алгоритм построения интервального вариационного ряда Первый шаг: исходя из объема выборки n определите количество интервалов k. Значение k определяется таким образом, чтобы в каждый интервал попадало в среднем не менее 10 опытных данных. Второй шаг: вычислите размах ряда R = Xmax-Xmin. Третий шаг: определите ширину интервала h = R/(k-1). Четвертый шаг: найдите начало каждого интервала X0 = Xmin - h/2 , Хi = Xi-1 + h, i = 1 .. n-1. Пятый шаг: подсчитайте частоту попадания данных в каждый интервал и составьте интервальный вариационный ряд. При вычислении интервальных долей округление результатов следует проводить таким образом, чтобы общая сумма долей была равна единице. По данным интервального ряда строят гистограмму частот или гистограмму долей: это ступенчатая фигура, состоящая из прямоугольников, основания которых – найденные интервалы, а высоты равны отношению частот или долей к длине интервала. Для гистограммы частот: площадь каждого прямоугольника равна частоте данных, попавших в интервал, сумма площадей всех прямоугольников равна объему выборки. Для гистограммы долей: площадь каждого прямоугольника равна доле данных, попавших в интервал, сумма площадей всех прямоугольников равна 1. Пусть мы оцениваем параметр а предполагаемого распределения. Обозначим точечную оценку этого параметра a~ . Точечные оценки параметров распределений должны удовлетворять следующим требованиям. 1. Состоятельность, то есть P ( a − a~ < ε ) > 1 − δ . 2. Несмещенность, то есть М[ a~ ] = a. 3. Эффективность, то есть дисперсия оценки должна быть минимальной из возможных. Пример 6. Оценка математического ожидания n ~= m ∑ Xi i =1 n является состоятельной, несмещенной и эффективной. Пример 7. Оценка дисперсии n ~)2 (X − m D* = ∑ i =1 (47) i Оценивание параметров распределений Оценки параметров распределений подразделяются на два класса: точечные и интервальные. Точечные оценки представляют собой определенные значения параметров генеральной совокупности, полученные по выборочным данным. Эти значения должны быть максимально близки к значениям соответствующих параметров генеральной совокупности, которые являются истинными значениями оцениваемых параметров. При формировании интервальных оценок определяют границы интервалов, между которыми с большой вероятностью находятся истинные значения параметров. n является состоятельной, но смещенной, поэтому в качестве оценки дисперсии используют n ~ )2 (Xi − m ∑ n ~ . (48) D= ⋅ D* = i =1 n −1 n −1 n Так как множитель стремится к единице при n→∞, а оценка D* n −1 ~ ~ состоятельна, то оценка D также будет состоятельной. Оценка D не является эффективной. Однако для нормального распределения она является асимптотически эффективной. На практике часто вместо формулы (48) бывает удобнее применять другую, в которой дисперсия выражена через второй начальный момент: ⎛ n 2 ⎞ Xi ⎟ n ⎜⎜ ∑ ~ 2 ~ ⎟. i =1 D= −m (49) ⎟ n −1 ⎜ n ⎜ ⎟ ⎠ ⎝ Перейдем к интервальным оценкам. В ряде задач требуется не только найти для параметра а подходящее численное значение, но и оценить его точность. Требуется знать, к каким ошибкам может 67 68 привести замена параметра его точечной оценкой и с какой степенью уверенности можно ожидать, что эти ошибки не выйдут за известные пределы. Такого рода задачи особенно актуальны при малом числе наблюдений, когда точечная оценка в значительной мере случайна и приближенная замена а на a~ может привести к серьезным ошибкам. Чтобы дать представление о точности и надежности оценки a~ , в математической статистике пользуются так называемыми доверительными интервалами и доверительными вероятностями. Пусть для параметра а получена из опыта несмещенная оценка a~ . Мы хотим оценить возможную при этом ошибку. Назначим некоторую достаточно большую вероятность β (например, β = 0,9 или 0,95 или 0,99), такую, что событие с вероятностью β можно считать практически достоверным, и найдем такое значение ε, для которого a -a|<ε)=β. Р(| ~ Тогда диапазон Iβ = ( a~ - ε, a~ + ε) возможных значений оценки параметра a~ , в котором с вероятностью β находится истинное значение неизвестного параметра а, называется доверительным интервалом параметра а. Пример 8. Рассмотрим задачу о доверительном интервале для математического ожидания и дисперсии. Пусть произведено n независимых опытов над случайной величиной Х, характеристики которой mх и Dх неизвестны. Для этих параметров получены точечные оценки (47) и (48). ~ представляет собой среднее арифметическое Величина m независимых, одинаково распределенных случайных величин Хi, и, согласно центральной предельной теореме (ЦПТ), при достаточно больших n её закон распределения близок к нормальному. ~ – математическое ожидание и Характеристики случайной величины m ~]=m и ~ ] = D /n. Найдем такую дисперсия – равны М[ m D[ m x x ~ величину ε, для которой Р(| m -m|<ε)=β. Для нормального распределения имеем ~ - m |<ε)=2Ф ⎛⎜ ε ⎞⎟ , Р(| m x ⎜σ ~ ⎟ ⎝ m⎠ где σ m~ = Dx ~ , Ф(х) – – среднее квадратическое отклонение оценки m n 69 ⎛ε ⎞ ⎟ = β находим функция Лапласа из табл. П2. Из уравнения 2Ф ⎜⎜ ⎟ ⎝ σ m~ ⎠ значение полуширины доверительного интервала: ⎛β ⎞ (50) ε = σ m~ arg Ф⎜ ⎟ , ⎝2⎠ где argФ(х) – функция, обратная Ф(х), то есть такое значение аргумента, при котором значение функции Ф(х) равно х. Вместо неизвестной дисперсии Dx придется воспользоваться ~ ~ D . Таким её оценкой D (49) и положить приближенно σ m~ = n образом, приближенно решена задача построения доверительного ~ −ε ,m ~ + ε ) , где ε интервала для математического ожидания I β = (m определяется по формуле (50). Найдем доверительный интервал для дисперсии. Мы видим из ~ формулы (49), что D представляет собой сумму n случайных величин ~ )2 (Xi − m вида . Эти величины не являются независимыми, так как в n −1 ~ , зависящая от всех остальных. любую из них входит величина m Однако можно показать, что при увеличении n закон распределения их суммы тоже приближается к нормальному. Для нормального распределения имеем ⎛ε ⎞ ~ ⎟, Р(| D − Dx |<ε)=2Ф ⎜ ⎜σ ~ ⎟ ⎝ D⎠ где σ D~ = DD~ – среднее квадратическое отклонение оценки дисперсии. Выражение для дисперсии дисперсии нормального распределения приведем без вывода: 2 ~ 2 D[ D ] = Dx . (51) (n − 1) Зная σ D~ , можно построить доверительный интервал аналогично тому, как строили его для математического ожидания: ⎛β ⎞ ε = σ D~ arg Ф⎜ ⎟ , ⎝2⎠ где величина argФ(х) находится из той же табл. П2. 70 (52) ЗАДАЧИ 5.1. Для двумерной случайной величины, заданной плотностью f(x,y)=6x2⋅cos(2y) в области 0 ≤ x ≤ 1, -π/4 ≤ y ≤ 0 и f(x,y)=0 вне указанной области, найдите математические ожидания и дисперсии её компонент. 5.2. Для двумерной случайной величины, распределения, представленным в таблице заданной 0 0,2 0,1 5 6 1 0,1 0 2 0,25 0,15 , 5.3. Для двумерной случайной величины, заданной плотностью распределения ⎧ A ⋅ cos( y ) ⋅ x ⋅ y , 0 ≤ x ≤ 1, 0 ≤ y ≤ π / 2, f ( x, y ) = ⎨ в остальных случаях, ⎩ 0 найдите константу А, выясните, зависимы ли случайные величины Х и Y. Y 1 2 3 случайной -2 0,25 0,1 0,1 величины, Х 0 0,25 0 0,05 2 0,15 0,05 0,05 2 4 6 8 случайной заданной законом величины, заданной законом X -2 0,2 0 0,2 0 -1 0 0,3 0 0,3 найдите функцию распределения ожидания My=2(x), Mx=-1(y). 3 0,1 0,1 найдите функцию распределения и линию регрессии y(x). 5.4. Для двумерной распределения Y законом Х Y 5.6. Для двумерной распределения и , условные математические 5.7. Для двумерной случайной величины, заданной плотностью распределения ⎧ A ⋅ x / y , 0 ≤ x ≤ 1, 0 ≤ y ≤ 2, f ( x, y ) = ⎨ в остальных случаях, ⎩0 найдите константу А, функцию распределения F(x,y) и вероятность Р(х<0,5, y<1,5). 5.8. Для двумерной случайной величины, заданной плотностью распределения ⎧ 4e 2 y , y ≤ 0, x ≤ 0, y ≤ x, f ( x, y ) = ⎨ ⎩0 в остальных случаях, найдите условные законы распределения f(x|y) и f(y|x). 5.9. Для двумерной распределения случайной , найдите функцию распределения, законы распределения одномерных случайных величин X и Y, вычислите вероятность Р(X+Y≤2). 5.5. Для двумерной случайной величины, заданной плотностью рпспределения 2 ⎪⎧λx 2 e − λyx , 0 ≤ x ≤ 1, y ≥ 0, , f ( x, y ) = ⎨ ⎪⎩ 0 в остальных случаях, Y 1 2 величины, заданной законом X -2 0,15 0,1 -1 0,1 0,15 0 0,15 0,15 1 0,1 0,1 , найдите функцию распределения, ковариацию и вероятность Р(X<Y). найдите F(x,y), f1(x), f2(y). Примечание. Неберущиеся интегралы сводите к табличной функции Ф(х) или интегралу ошибок erf(x). 5.10. Для двумерной случайной величины, заданной функцией распределения ⎧ e x ⋅ y 2 , − ∞ ≤ x ≤ 0, 0 ≤ y ≤ 1, F(x,y)= ⎪ 0, y < 0, ⎨ ⎪ 1, x > 0 и y > 1, ⎩ 71 72 найдите плотность распределения f(x,y) и второй смешанный центральный момент. 5.11. Для двумерной распределения случайной величины, заданной законом 5.16. По результатам наблюдения за пропускной способностью канала в различные дни испытаний сформирована следующая выборка: Х Y -1,5 0,1 0 0 0,1 -2 -1 1 2 -0,5 0 0,15 0,15 0 0,5 0 0,15 0,15 0 1,5 0,1 0 0 0,1 , найдите функцию распределения, условные законы распределения случайной величины X при условии Y=-1 и случайной величины Y при условии X = 0,5. 5.12. Двумерная случайная величина равномерно распределена внутри кольца, внешний радиус которого равен 3, внутренний радиус равен 1. Центр кольца находится в точке с координатами (0,0). Найдите плотность распределения f(r,φ) случайной величины и математические ожидания её компонент. 5.13. Для двумерной распределения Y 1 2 3 случайной величины, заданной законом 2 0,25 0 0,1 3 0 0,1 0,1 День Проп. способн. (Кбит/с) День Проп. способн. (Кбит/с) , найдите функцию распределения и коэффициент корреляции. 5.14. Для двумерной случайной величины, заданной функцией распределения ⎧sin 2 ( x) ⋅ sin 2 ( y ), 0 ≤ x ≤ π ,0 ≤ y ≤ π , 2 2 F(x,y)= ⎪ x < 0 или y < 0, 0, ⎨ ⎪ x >π и y >π , 1, 2 2 ⎩ 1 259,14 2 260,06 3 260,97 4 262,43 5 267,83 6 273,14 7 253,68 8 258,14 9 259,49 10 264,11 Составьте интервальный вариационный ряд, постойте гистограмму частот, вычислите следующие выборочные характеристики: моду, среднее арифметическое, среднеквадратическое отклонение. 5.17. Согласно записи в журнале доходов небольшого продуктового магазина суммарный доход в течение каждого из указанных дней представлен в таблице. День Доход (руб.) 1-я неделя Доход (руб.) 2-я неделя Х 1 0,25 0,2 0 5.15. Пара случайных величин х и y равномерно распределена внутри трапеции с вершинами в точках (-6,0), (-3,4), (3,4), (6,0). Найдите совместную плотность распределения для этой пары случайных величин и плотности составляющих. Зависимы ли x и y? Пн. Вт. Ср. Чт. Пт. Сб. Вс. 22000 10000 18500 25300 30120 20300 18450 21000 15200 18000 23450 28100 23300 21100 Составьте интервальный вариационный ряд, постойте полигон частот, вычислите следующие выборочные характеристики: медиану, среднее арифметическое, дисперсию. 5.18. При проведении набора в секцию баскетбола тренер фиксировал количество попыток забросить мяч в корзину (до первого попадания), сделанных каждым претендентом: 5, 2, 3, 5, 7, 3, 4, 4, 2, 1, 3, 1, 8, 6, 6, 4, 4, 5, 3, 3, 1, 2, 1, 3, 1, 3, 3, 1, 2, 4. найдите функцию плотности распределения случайной величины и Р(х<π/3,y<2π/3). Составьте дискретный вариационный ряд, постойте гистограмму частот, вычислите следующие выборочные характеристики: моду, среднее арифметическое, среднеквадратическое отклонение. 73 74 5.19. Проводились эксперименты по определению времени жизни некоторого радиоактивного атомного ядра в секундах. Ниже указана информация по первым 16 наблюдениям (×10-13): 0,799; 0,099; 0,404; 0,775; 0,493; 0,605; 0,375; 0,594; 0,862; 0,939; 0,274; 0,148; 0,431; 0,365; 0,061; 0,447. Составьте интервальный вариационный ряд, постройте полигон частот, вычислите следующие выборочные характеристики: медиану, среднее арифметическое, дисперсию. 5.20. При проведении итоговой контрольной работы учащимся были выставлены следующие оценки: 5, 2, 3, 5, 4, 3, 4, 4, 2, 3, 3, 2, 5, 4, 4, 4, 4, 5, 3, 3, 3, 5, 3, 3. Составьте дискретный вариационный ряд, постройте гистограмму частот, вычислите следующие выборочные характеристики: моду, медиану, среднеквадратическое отклонение. 5.21. В ходе лабораторной работы по определению длины волны зеленого цвета были получены следующие данные (мкм): 662,38; 662,33; 661,07; 664,35; 670,93; 665,66; 664,20; 663,87; углубления имеются возвышения, куда накладывается покровное стекло. Между нижней поверхностью этого стекла и дном углубления образуется замкнутое пространство, которое и представляет собой счетную камеру. Глубина камеры заполняется каплей крови. Ниже приведено количество эритроцитов для одного лабораторного анализа: 89, 101, 91, 91, 90, 89, 7,84; 6,16; 4,10; 2,71; 8,84; 9,05; 9,37; 91, 96, 96, 94, 91, 95, 96, 88, 98, 96, 103, 102, 5.24. Для экспериментального определения плотности древесины используют стандартные образцы в виде прямоугольной призмы. Ниже приведены данные плотности для 12 образцов сосны, г/см3: 0,56; 0,50; 0,51; 0,56; 0,50; 0,56; 0,50; 0,52; 0,56; 0,51; 0,51; 0,51. 5.25. В Википедии был опубликован список городов России с населением более 1 млн жителей на 1 января 2017 г. (данные взяты из оценки Федеральной службы государственной статистики). 1,93. Город Население (тыс.чел.) Город Население (тыс.чел.) Москва 12381 Самара 1170 Составьте интервальный вариационный ряд, постройте гистограмму частот, вычислите следующие выборочные характеристики: моду, среднее арифметическое, среднеквадратическое отклонение. Санкт-Петербург 5282 Ростов-на-Дону 1125 Новосибирск 1603 Уфа 1116 Екатеринбург 1456 Красноярск 1083 5.23. Для подсчета элементов крови (лейкоцитов, эритроцитов и т.д.) наиболее часто применяется камера Бюркера с выгравированной на ней сеткой Горяева. Счетная камера состоит из толстого предметного стекла с особым углублением. На дне углубления счетной камеры выгравирована сетка, в клетках которой и подсчитываются элементы. Всего в сетке 100 квадратов, собранных в 25 групп. По краям Нижний Новгород 1262 Пермь 1048 Казань 1232 Воронеж 1040 Челябинск 1199 Волгоград 1016 Омск 1178 75 91, 93, Составьте интервальный вариационный ряд, постройте гистограмму частот, вычислите следующие выборочные характеристики: медиану, среднее арифметическое, дисперсию. 5.22. В ходе лабораторной работы по определению ширины щели дифракционной решетки были получены следующие данные (мкм): 2,22; 90, 88, Составьте интервальный вариационный ряд, постройте гистограмму частот, вычислите следующие выборочные характеристики: моду, среднее арифметическое, среднеквадратическое отклонение. 669,69; 664,23. Составьте интервальный вариационный ряд, постройте полигон частот, вычислите следующие выборочные характеристики: медиану, среднее арифметическое, дисперсию. 2,06; 93, 99, 104. 76 Составьте интервальный вариационный ряд, постройте полигон частот, вычислите следующие выборочные характеристики: медиану, среднее арифметическое, дисперсию. 5.26. В связи с эпидемией гриппа увеличилось количество обращений в скорую помощь у жителей Новосибирска. Вот данные по количеству обращений в сутки за последние две недели: 765; 804; 801; 723; 699; 645; 722; 528; 735; 777; 705; 721; 678; 793. Составьте интервальный вариационный ряд, постройте гистограмму частот, вычислите следующие выборочные характеристики: моду, среднее арифметическое, среднеквадратическое отклонение. 5.27. В таблице представлена среднесуточная температура в июле. День Температура День Температура День Температура День Температура День Температура 1 23,0 7 22,2 13 30,0 19 28,8 25 28,2 2 30,9 8 30,9 14 27,1 20 29,4 26 22,0 3 26,5 9 30,4 15 29,3 21 24,6 27 24,2 4 22,8 10 24,2 16 23,7 22 20,9 28 20,7 5 27,9 11 22,4 17 27,3 23 26,0 29 29,7 6 27,6 12 23,1 18 22,1 24 29,9 30 21,7 31 22,8 5.28. Сводка МЧС содержит информацию о количестве ложных вызовов. Вот данные за последние 20 дней: 3; 5; 4; 4; 3; 6; 3; 5; 7; 6; 6; 5; 3; 6; 6; 7; 2; 6. Составьте дискретный вариационный ряд, постройте гистограмму частот, вычислите следующие выборочные характеристики: моду, среднее арифметическое, среднеквадратическое отклонение. 77 24; 25; 25; 19; 18; 22; 25; 26; 19; 30; 26; 29; 27; 19; 17; 23. Составьте интервальный вариационный ряд, постройте полигон частот, вычислите следующие выборочные характеристики: медиану, среднее арифметическое, дисперсию. 5.30. Представлены данные веса (кг) для 18 новорожденных детей: 4,100; 3,800; 4,400; 4,200; 3,650; 3,500; 4,300; 3,200; 4,000; 4,450; 2,900; 3,650; 3,800; 2,600; 2,950; 2,900; 2,650; 2,550. Составьте интервальный вариационный ряд, постройте гистограмму частот, вычислите следующие выборочные характеристики: моду, среднее арифметическое, среднеквадратическое отклонение. Составьте интервальный вариационный ряд, постройте полигон частот, вычислите следующие выборочные характеристики: медиану, среднее арифметическое, дисперсию. 5; 3; 5.29. Одним из естественных врагов колорадского жука является жук жужелица. Юные биологи посчитали количество личинок колорадского жука, съеденных каждой из 16 наблюдаемых жужелиц за сутки: ТЕМА 6 Проверка статистических гипотез Статистическая гипотеза – любое предположение, касающееся вида неизвестного распределения случайных величин, параметров неизвестного распределения или существования корреляционной зависимости между случайными величинами. Гипотезы, касающиеся значений параметров распределения, называются параметрическими гипотезами. Гипотезы о виде распределения называются непараметрическими гипотезами. Статистическую гипотезу называют простой, если она имеет вид Н: а = а0, где а0 – некоторое заданное значение параметра (обозначение от англ. Hypothesis — гипотеза). Другими словами, простая гипотеза однозначно характеризует вид распределения. Статистическую гипотезу называют сложной, если она имеет вид Н: а∈D, где D – некоторое множество значений параметра а, состоящее более чем из одного элемента. 78 Пример 1. Проводится серия из n независимых испытаний по схеме Бернулли с неизвестным параметром р (вероятность успеха в одном испытании). Тогда гипотеза p = 1/2 является простой, а сложными являются гипотезы Н1: р ≥ 1/2 ; H2: p<1/2; H3: ¼ ≤ p ≤ ¾; и т.д. Пример 2. Гипотеза Н0 о том, что математическое ожидание нормального распределения равно двум при неизвестной дисперсии, тоже является сложной. Обычно работают с двумя противоречащими друг другу гипотезами. Гипотезу, выдвинутую для проверки ее согласия с выборочными данными, называют нулевой или основной гипотезой и обозначают H0. Вместе с гипотезой H0 выдвигается альтернативная или конкурирующая гипотеза, которая обозначается H1. Задача проверки статистической гипотезы полностью описана, если заданы нулевая и альтернативная гипотезы. Все гипотезы касаются генеральных совокупностей, но проверить мы их можем только по выборочным данным. Проверить статистическую гипотезу – это значит проверить, согласуется ли она с экспериментальными данными. Проверка осуществляется с помощью статистического критерия. Статистический критерий – это правило, по которому по данным выборки принимается решение о справедливости либо нулевой, либо альтернативной гипотезы. При применении статистического критерия вычисляется некая случайная величина K. При справедливости гипотезы H0 закон распределения случайной величины K характеризуется некоторой известной нам плотностью распределения P(k). Выберем некоторую малую вероятность α, равную 0,05, 0,01 или еще меньшую. Определим критическое значение критерия Kкр как решение одного из трех уравнений, в зависимости от вида конкурирующей гипотезы: P(K> Kкр) = α; (53) P(K< Kкр) = α; (54) P((K< Kкр1)∩(K> Kкр2)) = α. (55) Очевидно, что Kкр представляет собой α-квантиль распределения P(k). Если гипотеза H0 справедлива, то вероятность того, что критерий K превзойдет некоторое значение Kкр очень мала. Если значение критерия K, рассчитанное по выборочным данным, превзошло значение Kкр, это означает, что выборочные данные не дают основания для принятия нулевой гипотезы H0. Например, при α = 0,01 можно сказать, что произошло событие, которое при справедливости гипотезы H0 встречается в среднем не чаще, чем в одной из ста выборок. В этом случае говорят, что гипотеза H0 не согласуется с выборочными данными и должна быть отвергнута. Если K не превосходит Kкр, то говорят, что выборочные данные не противоречат гипотезе H0, и нет оснований отвергать эту гипотезу. Для уравнения (53) область K > Kкр называется критической областью. Если значение K попадает в критическую область, то гипотеза H0 отвергается в пользу гипотезы H1. Область K < Kкр называется областью принятия гипотезы. Если значение K попадает в область принятия гипотезы, то гипотеза H0 принимается. Рис. 7 иллюстрирует решение уравнения (53). Здесь P(k) – известная плотность распределения случайной величины K при условии справедливости гипотезы H0. Критическая область, изображенная на этом рисунке, называется правосторонней. Аналогично рис. 8 и 9 иллюстрируют положение критической области и области принятия нулевой гипотезы для уравнений (54) и (55). Уравнение (54) определяет левосторонюю критическую область. Уравнение (55) определяет двусторонюю критическую область. Каждая из заштрихованных критических областей на рис. 7 – 9 имеет площадь, равную α. В случае двусторонней критической области границы ее частей Kкр1 и Kкр2 определяются таким образом, чтобы выполнялось условие P(K ≤ Kкр) = P(K ≥ Kкр) = α / 2. Вид критической области зависит от того, какая гипотеза выдвинута в качестве конкурирующей. 79 80 Рис. 7. Критическая область и область принятия гипотезы для уравнения (53) увеличивается вероятность принятия проверяемой гипотезы, когда она неверна, то есть когда предпочтение должно быть отдано конкурирующей гипотезе. Рис. 8. Критическая область и область принятия гипотезы для уравнения (54) Рис. 10. Предполагаемое и истинное распределения критерия Пусть выбрано некоторое малое значение вероятности α, по нему определено значение Kкр, и по выборочным данным определено значение K, которое попало в критическую область. В этом случае гипотеза H0 отвергается, но она может оказаться справедливой, просто случайно произошло событие, которое имеет очень малую вероятность α. В этом смысле α есть вероятность отвержения правильной гипотезы H0. Отвержение правильной гипотезы называется ошибкой первого рода. Вероятность α называется уровнем значимости. Таким образом, уровень значимости – это вероятность совершения ошибки первого рода. Чем меньше уровень значимости, тем меньше вероятность отвергнуть проверяемую гипотезу H0, когда она верна, то есть совершить ошибку первого рода. Но с уменьшением уровня значимости расширяется область принятия гипотезы H0 и Пусть при справедливости гипотезы H0 статистический критерий K имеет плотность распределения P0(k), а при справедливости конкурирующей гипотезы H1 – плотность распределения P1(k). Графики этих функций приведены на рис. 10. При некотором уровне значимости находится критическое значение Kкр и правостороняя критическая область. Если значение K, определенное по выборочным данным, оказывается меньше, чем Kкр, то гипотеза H0 принимается. Предположим, что справедлива на самом деле конкурирующая гипотеза H1. Тогда вероятность попадания критерия в область принятия гипотезы H0 есть некоторое число β, равное площади фигуры, образованной графиком функции P1(x) и полубесконечной частью горизонтальной координатной оси, лежащей слева от точки Kкр. Очевидно, что β – это вероятность того, что будет принята неверная гипотеза H0. Принятие неверной гипотезы называется ошибкой второго рода. В рассмотренном случае число β – это вероятность ошибки второго рода. Число 1 – β, равное вероятности того, что не совершается ошибка второго рода, называется мощностью критерия. На рис. 10 мощность критерия равна площади фигуры, образованной графиком функции P1(k) и полубесконечной частью горизонтальной координатной оси, лежащей справа от точки Kкр. Ясно, что чем меньше вероятности ошибок первого и второго рода, тем критическая область «лучше». Однако при заданном объеме выборки уменьшить одновременно α и β 81 82 Рис. 9. Критическая область и область принятия гипотезы для уравнения (55) невозможно. Как же выбрать α наиболее целесообразно? Ответ на этот вопрос зависит от «тяжести последствий» ошибок для каждой конкретной задачи. Например, если ошибка первого рода повлечет большие потери, а второго рода – малые, то следует принять возможно меньшее α. Единственный способ одновременного уменьшения вероятностей ошибок первого и второго рода состоит в увеличении объема выборок. Рассмотрим несколько наиболее часто встречающихся критериев. 1. Сравнение двух дисперсий нормальных генеральных совокупностей. На практике задача сравнения дисперсий возникает, если требуется сравнить точность приборов, инструментов, самих методов измерений и т. д. Очевидно, предпочтительнее тот прибор, инструмент и метод, который обеспечивает наименьшее рассеяние результатов измерений, т. е. наименьшую дисперсию. Пусть генеральные совокупности X и Y распределены нормально (например, это результаты измерения одной и той же физической величины двумя приборами). По независимым выборкам с объемами, соответственно равными nx и ny, извлеченным из этих ~ совокупностей, найдены исправленные выборочные дисперсии Dx и ~ Dy . Требуется по исправленным выборочным дисперсиям при Критическая область строится в зависимости от вида конкурирующей гипотезы. ~ ~ 1. Конкурирующая гипотеза H1 : M [ Dx ] > M [ D y ] . В этом случае строят одностороннюю правостороннюю критическую область. Критическую точку Fкр (α , k1 , k 2 ) находят по таблице квантилей распределения Фишера – Снедекора. Область принятия нулевой гипотезы определяется неравенством F < Fкр. ~ ~ 2. Конкурирующая гипотеза H1 : M [ Dx ] ≠ M [ D y ] . В этом случае строят двустороннюю критическую область, исходя из требования, чтобы вероятность попадания критерия в эту область в предположении справедливости нулевой гипотезы была равна принятому уровню значимости α. Наибольшая мощность критерия достигается тогда, когда вероятность попадания критерия в каждый из двух интервалов критической области равна α/2. В этом случае у нас есть две критические точки: левая Fлев. кр = Fкр (1 − α / 2, k1, k 2) и правая Fправ. кр = Fкр (α / 2, k1, k 2) . Область принятия нулевой гипотезы: Fправ. кр < F < Fлев. кр. На практике оказывается достаточным найти только правую критическую точку и потребовать выполнения условия F < Fлев. кр. Условие Fправ. кр < F выполняется автоматически. В качестве критерия проверки нулевой гипотезы о равенстве генеральных дисперсий примем отношение большей исправленной дисперсии к меньшей: ~ D F = ~ больш . Dменьш Величина F при условии справедливости нулевой гипотезы имеет распределение Фишера – Снедекора со степенями свободы k1 = n1 - 1 и k2 = n2 - 1, где n1 – объем выборки, по которой вычислена большая исправленная дисперсия; n2 – объем выборки, по которой найдена меньшая дисперсия. 2. Сравнение исправленной выборочной дисперсии с эталоном. На практике сравнение дисперсии с эталоном используется, если нужно проверить точность приборов, инструментов, станков, методов исследования и устойчивость технологических процессов. Пусть генеральная совокупность Х распределена нормально, причем генеральная дисперсия хотя и неизвестна, но имеются основания предполагать, что она равна предполагаемому значению D0. На практике D0 устанавливается на основании предшествующего опыта или теоретически (эталон). Пусть из генеральной совокупности извлечена выборка объема ~ n и по ней найдена исправленная выборочная дисперсия D с k = n-1 степенями свободы. Требуется по исправленной выборочной дисперсии при заданном уровне значимости α проверить нулевую гипотезу, состоящую в том, что генеральная дисперсия рассматриваемой совокупности равна эталонному значению: ~ H 0 : M [ D ] = D0 . 83 84 заданном уровне значимости α проверить нулевую гипотезу, состоящую в том, что генеральные дисперсии рассматриваемых совокупностей равны между собой: ~ ~ H 0 : M [ Dx ] = M [ D y ] . В качестве критерия проверки нулевой гипотезы примем случайную величину χ2 = (n − 1) D[ X ] , D0 которая имеет распределение χ2 с k = n - 1 степенями свободы. Критическая область строится в зависимости от вида конкурирующей гипотезы. ~ 1. Конкурирующая гипотеза H1 : M [ D ] > D0 . В этом случае строят правостороннюю критическую область. Критическую точку χ2кр (α, k) находят по таблице квантилей распределения χ2. Область принятия нулевой гипотезы χ2 <χ2кр. ~ 2. Конкурирующая гипотеза H1 : M [ D ] ≠ D0 . В этом случае строят двустороннюю критическую область. Критические точки — левую и правую границы критической области — находят, требуя, чтобы вероятность попадания критерия в каждой из двух интервалов критической области была равна α/2. Левая критическая точка находится по таблице квантилей распределения: χ2лев. кр = χ2кр (1 − α / 2, k ) , правая χ2прав. кр = χ2кр (α / 2, k ) . Область принятия нулевой гипотезы: χ2лев. кр < χ2кр < χ2прав. кр. ~ 3. Конкурирующая гипотеза H1 : M [ D ] < D0 . Строят левостороннюю критическую область. В этом случае находят левую критическую точку χ2=χ2кр (1 − α / 2, k ) . Область принятия нулевой гипотезы χ2 >χ2кр. 3. Сравнение двух средних нормальных генеральных совокупностей, дисперсии которых известны (независимые выборки большого объема или с известными дисперсиями). Пусть генеральные совокупности X и Y распределены нормально, причем их дисперсии известны (например, из предшествующего опыта или найдены теоретически). По независимым выборкам, объемы которых соответственно равны n и m, найдены выборочные средние x и y . Требуется при заданном уровне значимости α проверить нулевую гипотезу, состоящую в том, что математические ожидания рассматриваемых совокупностей равны между собой, т. е. H 0 : M [ X ] = M [Y ] . 85 В качестве критерия проверки нулевой гипотезы примем случайную величину x−y x−y Z= = , σ (x − y) D[ X ] / n + D[Y ] / m которая имеет нормальное распределение с нулевым математическим ожиданием и среднеквадратическим отклонением, равным единице. Критическая область строится в зависимости от вида конкурирующей гипотезы. 1. Конкурирующая гипотеза Н1: М[Х] ≠ M[Y]. В этом случае строят двустороннюю критическую область, исходя из требования, чтобы вероятность попадания критерия в эту область в предположении справедливости нулевой гипотезы была равна принятому уровню значимости α. Наибольшая мощность критерия достигается тогда, когда вероятность попадания критерия в каждый из двух интервалов критической области равна α/2: Р (z < zлев. кр) = α/2, Р (Z > znpaв. кр) =α/2. Поскольку нормальное распределение симметрично, критические точки симметричны относительно нуля. Для определения критических точек воспользуемся функцией Лапласа Ф(z), которая определяет вероятность попадания нормированной нормальной случайной величины в интервал (0, z): P (0 < Z < z ) = Ф ( z ) . Вероятность попадания Z в интервал (0, ∞) равна 1/2. Следовательно, если разбить этот интервал точкой zкр на интервалы (0, zкр) и (zкр, ∞), то по теореме сложения вероятностей получим P(0<Z<zкр)+P(zкр<Z<∞)=1/2. Отсюда Ф( zкр ) + α / 2 = 1 / 2 и правая критическая точка равна значению аргумента функции Лапласа, которому соответствует значение функции, равное (1 – α)/2, то есть zправ. кр = arg Ф((1 − α ) / 2) . Двусторонняя критическая область определяется неравенствами Z < –zкр и Z > zкр или равносильным неравенством |Z| > zкр, а область принятия нулевой гипотезы – неравенством – zкр < Z < zкр или равносильным неравенством |Z| < zкр. 2. Конкурирующая гипотеза Н1: М [X] > М [Y]. В этом случае строят правостороннюю критическую область. Проводя аналогичные первому случаю рассуждения, заключаем: для того чтобы найти границу правосторонней критической области zкр, достаточно найти значение аргумента функции Лапласа, которому 86 соответствует значение функции, равное (1 – 2α)/2. Тогда правосторонняя критическая область определяется неравенством Z > zкр, а область принятия нулевой гипотезы — неравенством Z < zкр. 3. Конкурирующая гипотеза Н1: М [X] < М [Y]. В этом случае строят левостороннюю критическую область. Приняв во внимание, что критерий Z распределен симметрично относительно нуля, заключаем, что левая критическая точка zкр = − arg Ф((1 − 2α ) / 2) . Левосторонняя критическая область определяется неравенством Z < zкр, а область принятия нулевой гипотезы – неравенством z > zкр. Замечание. Предполагалось, что генеральные совокупности X и Y распределены нормально, а их дисперсии известны. При этих предположениях в случае справедливости нулевой гипотезы о равенстве средних и независимых выборок критерий Z распределен точно нормально с параметрами 0 и 1. Если хотя бы одно из приведенных требований не выполняется, метод сравнения средних неприменим. Однако если независимые выборки имеют большой объем (не менее 30 каждая), то выборочные средние распределены приближенно нормально, а выборочные дисперсии являются достаточно хорошими оценками генеральных дисперсий, и в этом смысле их можно считать известными приближенно и пользоваться критерием Z. 4. Сравнение двух средних нормальных генеральных совокупностей, дисперсии которых неизвестны и одинаковы (малые независимые выборки). Пусть генеральные совокупности X и Y распределены нормально, причем их дисперсии неизвестны. Например, по выборкам малого объема нельзя получить хорошие оценки генеральных дисперсий. По этой причине метод сравнения средних, изложенный выше, применить нельзя. Однако если дополнительно предположить, что неизвестные генеральные дисперсии равны между собой, то можно построить критерий Стьюдента сравнения средних. Например, если сравниваются средние размеры двух партий деталей, изготовленных на одном и том же станке, то естественно допустить, что дисперсии контролируемых размеров одинаковы. Если же нет оснований считать дисперсии одинаковыми, то, прежде чем сравнивать средние, следует, пользуясь критерием Фишера – Снедекора, предварительно проверить гипотезу о равенстве генеральных дисперсий. 87 По независимым выборкам, объемы которых соответственно равны n и m, найдены выборочные средние x и y . В предположении, что генеральные дисперсии одинаковы, требуется проверить нулевую гипотезу Н0: М [Х] = М [Y]. В качестве критерия проверки нулевой гипотезы примем случайную величину x−y nm(n + m − 2) T= , n+m (n − 1) D[ X ] + (m − 1) D[Y ] которая при справедливости нулевой гипотезы имеет t-распределение Стьюдента c k = n + m – 2 степенями свободы. Критическая область строится в зависимости от вида конкурирующей гипотезы. 1. Конкурирующая гипотеза Н1: М [Х] ≠ М [Y]. В этом случае строят двустороннюю критическую область, исходя из требования, чтобы вероятность попадания критерия Т в эту область в предположении справедливости нулевой гипотезы была равна принятому уровню значимости α. Поскольку распределение Стьюдента симметрично, то и критические точки симметричны относительно нуля. Таким образом, если найти по таблице квантилей правую границу двусторонней критической области tправ. кр(α/2, k), то левая граница равна tлев. кр(α/2, k) = – tправ. кр(α/2, k). Область принятия нулевой гипотезы tлев. кр(α/2, k) < Т < tправ. кр(α/2, k). 2. Конкурирующая гипотеза Н1: М [Х] > М [Y]. В этом случае строят правостороннюю критическую область. Критическую точку tкр(α, k) находят по таблице квантилей распределения Стьюдента по уровню значимости α и по числу степеней свободы k = n+m – 2. Область принятия нулевой гипотезы Тнабл < tкр. 3. Конкурирующая гипотеза Н1: М [X] < М[Y]. В этом случае строят левостороннюю критическую область. В силу симметрии распределения Стьюдента относительно нуля tлев. кр(α, k)= – tправ. кр(α, k), поэтому сначала находят «вспомогательную» критическую точку tправ. кр. Область принятия Тнабл > tлев. кр. нулевой гипотезы 88 5. Сравнение выборочной средней с предполагаемой генеральной средней нормальной совокупности (эталоном). А. Дисперсия генеральной совокупности известна. Пусть генеральная совокупность X распределена нормально, причем генеральная средняя m хотя и неизвестна, но имеются основания предполагать, что она равна предполагаемому значению m0. Например, если рассматривается партия деталей, изготовляемых станкомавтоматом, то можно предположить, что генеральная средняя m этих размеров равна проектному размеру m0. Предположим, что дисперсия D[ X ] = σ 2 ( x) генеральной совокупности известна, например, из предшествующего опыта, или найдена теоретически, или вычислена по выборке большого объема. Требуется по выборочной средней x , найденной по выборке объема n, при заданном уровне значимости а проверить нулевую гипотезу Н0: М [Х] = m0. В качестве критерия проверки нулевой гипотезы примем случайную величину ( x − m0 ) ( x − m0 ) n , Z= = σ (x) σ ( x) которая при справедливости нулевой гипотезы распределена нормально. Критическая область строится в зависимости от вида конкурирующей гипотезы. 1. Конкурирующая гипотеза Н1: М [Х] ≠ m0. Критическая область двусторонняя. Критические точки вычисляются следующим образом: zправ . кр = arg Ф((1 − α ) / 2) , z лев . кр = − zправ. кр . Область принятия нулевой гипотезы | Z | > zправ. кр. 2. При конкурирующей гипотезе Н1: М [Х] > m0 критическую точку правосторонней критической области находят так: zправ. кр = arg Ф((1 − 2α ) / 2) . Область принятия нулевой гипотезы Z < zправ. кр. 3. При конкурирующей гипотезе Н1: М [Х] < m0 сначала находят критическую точку zправ. кр = arg Ф((1 − 2α ) / 2) , а затем полагают границу левосторонней критической области z лев. кр = − zправ . кр . Область принятия нулевой гипотезы Z > zлев. кр. 89 Б. Дисперсия генеральной совокупности неизвестна. Если дисперсия генеральной совокупности неизвестна, например, в случае малых выборок, то в качестве критерия проверки нулевой гипотезы принимают случайную величину ( x − m0 ) n , T= σ~ ( x) где σ~ ( x) – исправленное выборочное среднеквадратическое отклонение. Величина Т имеет распределение Стьюдента с k = n - 1 степенями свободы. Критическая область строится в зависимости от вида конкурирующей гипотезы. 1. Конкурирующая гипотеза Н1: М [Х] ≠ m0. По таблице квантилей распределения Стьюдента по заданному уровню значимости α и числу степеней свободы k находят правостороннюю критическую точку tправ. кр(α/2, k). Если |Т| < tправ. кр – нет оснований отвергать нулевую гипотезу. Если |Т| > tправ. кр – нулевую гипотезу отвергают. 2. При конкурирующей гипотезе Н1: М [Х] > m0 по уровню значимости α и числу степеней свободы k находят критическую точку tправ. кр (α; k) правосторонней критической области. Область принятия нулевой гипотезы Т < tправ. кр . 3. При конкурирующей гипотезе Н1: М [Х] < m0 сначала находят правостороннюю критическую точку и полагают границу левосторонней критической области tлев. кр (α, k)= -tправ. кр (α, k). Область принятия нулевой гипотезы Т > tлев. кр . 6. Сравнение двух средних нормальных генеральных совокупностей с неизвестными дисперсиями (зависимые выборки). Подобная задача ставится, например, при сравнении двух методов исследования, осуществленных одной лабораторией, или если исследование произведено одним и тем же методом двумя различными лабораториями. Итак, пусть генеральные совокупности X и Y распределены нормально, причем их дисперсии неизвестны. Требуется при уровне значимости α проверить нулевую гипотезу о равенстве генеральных средних нормальных совокупностей с неизвестными дисперсиями Н0: М[X] = М[Y] при конкурирующей гипотезе Н1: М[X] ≠ М[Y] по двум зависимым выборкам одинакового объема. 90 Сведем эту задачу сравнения двух средних к задаче сравнения одной выборочной средней с гипотетическим значением генеральной средней. С этой целью введем в рассмотренные случайные величины разности di = xi - yi и их среднее ∑ di = ∑ ( xi − yi ) = x − y . d = n n Если нулевая гипотеза справедлива, то М[X] - М[Y] = 0 и, следовательно, М [d] = 0. Таким образом, нулевую гипотезу можно записать так: Н0: М[d] = 0, а конкурирующую – Н1: М[d] ≠ 0. Итак, задача сравнения двух средних x и y сведена к задаче сравнения одной выборочной средней d с гипотетическим значением генеральной средней m0 = 0. Эта задача решена ранее, и можно воспользоваться критерием 5(Б). 7. Сравнение наблюдаемой относительной частоты с гипотетической вероятностью появления события. Пусть по достаточно большому числу n независимых испытаний, в каждом из которых вероятность р появления события постоянна, но неизвестна, найдена относительная частота m/n. Пусть имеются основания предполагать, что неизвестная вероятность равна предполагаемому значению р0. Требуется при заданном уровне значимости α проверить нулевую гипотезу, состоящую в том, что неизвестная вероятность р равна гипотетической вероятности р0: Н0: М [p] = p0. В качестве критерия проверки нулевой гипотезы примем случайную величину (m / n − p0 ) n Z= , p0 q0 где qo = 1 – p0. Величина Z при справедливости нулевой гипотезы распределена приближенно нормально с параметрами (0,1). Критическая область строится в зависимости от вида конкурирующей гипотезы. 1. Конкурирующая гипотеза Н1: М [p] ≠ p0. Критическая область двусторонняя. Критические точки вычисляются по таблице функции Лапласа: zправ. кр = arg Ф((1 − α ) / 2) , z лев. кр = − zправ. кр . Область принятия нулевой гипотезы | Z | > zправ. кр. 91 2. Конкурирующая гипотеза Н1: М [Х] > m0. Критическую точку правосторонней критической области находят так: zправ . кр = arg Ф ((1 − 2α ) / 2) . Область принятия нулевой гипотезы Z < zправ. кр. 3. Конкурирующая гипотеза Н1: М [Х] < m. Сначала находят критическую точку zправ. кр = arg Ф((1 − 2α ) / 2) , а затем полагают границу левосторонней критической области z лев. кр = − zправ . кр . Область принятия нулевой гипотезы Z > zлев. кр. Замечание. Удовлетворительные результаты обеспечивает выполнение неравенства npoqo > 9. 8. Проверка гипотезы о нормальном распределении генеральной совокупности. Критерий согласия Пирсона. Если закон распределения неизвестен, но есть основания предположить, что он имеет определенный вид (назовем его А), то проверяют нулевую гипотезу: генеральная совокупность распределена по закону А. Проверка гипотезы о предполагаемом законе неизвестного распределения случайной величины Х производится так же, как и проверка гипотезы о параметрах распределения, т. е. при помощи специально подобранной случайной величины — критерия согласия. Критерием согласия называют критерий проверки гипотезы о предполагаемом законе неизвестного распределения. Критерий согласия Пирсона был получен для подтверждения гипотезы о нормальном распределении генеральной совокупности, но может применяться и для проверки других распределений. Рассмотрим дискретный вариационный ряд, построенный по выборке объема n: xi mi ~ m i x1 m1 ~ m 1 x2 m2 ~ m 2 x3 m3 ~ m 3 … … … xn mn ~ m n ~ – эмпирическая Здесь xi – возможные варианты значений; m i частота варианта xi,; mi – теоретическая частота варианта xi. Теоретические частоты вычисляются по формуле mi = n ⋅ pi , где pi – теоретическая вероятность варианта xi, вычисленная в предположении того, что генеральная совокупность подчинена закону распределения 92 А. Если мы имеем дело с интервальным вариационным рядом, то pi – теоретические частоты вычисляются аналогично, но теоретическая вероятность попадания случайной величины Х в соответствующий интервал. Теперь при уровне значимости α требуется проверить нулевую гипотезу: Н0: генеральная совокупность распределена по закону А. В качестве критерия проверки нулевой гипотезы примем случайную величину ~ )2 (m − m i χ2 = ∑ i , mi i имеющую при n→∞ закон распределения χ2 независимо от того, какому закону распределения подчинена генеральная совокупность. Чем меньше различаются эмпирические и теоретические частоты, тем меньше величина критерия χ2, и, следовательно, он характеризует близость эмпирического и теоретического распределений. Заметим, что возведением в квадрат разностей частот устраняют возможность взаимного погашения положительных и отрицательных разностей. Число степеней свободы находят по равенству k = s-1- r, где s – число групп (интервалов) выборки; r — число параметров предполагаемого распределения, которые оценены по данным выборки. Например, если предполагаемое распределение — нормальное, имеющее два параметра, то число степеней свободы будет равно k = s - 1 - 2 = s - 3. Если предполагают, что генеральная совокупность распределена по закону Пуассона, то r = 1 и k = s - 2. Поскольку односторонний критерий более жестко отвергает нулевую гипотезу, чем двусторонний, строят правостороннюю критическую область, критическую точку χ2кр(α, k) находят по таблице квантилей распределения χ2. Таким образом, критическая область определяется неравенством χ2 > χ2кр, а область принятия нулевой гипотезы — неравенством χ2 < χ2кр. Замечание. Объем выборки должен быть достаточно велик, например n > 50. Частота каждого варианта или интервала должна быть не менее 5…8, малочисленные группы следует объединять в одну, суммируя частоты. Нахождение выборочного коэффициента корреляции по сгруппированным и несгруппированным данным Допустим, что проведены наблюдения за двумя случайными величинами Х и Y. В результате эксперимента получено большое число данных (N ≥ 50). Пусть случайная величина Х в результате наблюдений принимала значения х1, х2, х3, …хn, а случайная величина Y – значения y1, y2, y3, …yk. Возможны две разные ситуации. 1. Среди значений каждой случайной величины есть повторяющиеся, поэтому экспериментальные данные сгруппированы в виде табл. 6. 93 94 Таблица 6. Двумерная случайная величина (X, Y) и частота mij встречаемости пар значений (xi, yj), ∑ mij = N i, j Y y1 y2 … yk x1 m11 m21 … mk1 Х x3 m13 m23 … mk3 x2 m12 m22 … mk2 … … … … … xn m1n m2n … mkn Чтобы найти выборочный коэффициент корреляции, можно воспользоваться формулой (42), заменив характеристики распределения их выборочными оценками: mij ∑ xi y j − x ⋅ y N ~ , (56) r = ~ σ x ⋅ σ~y где x , y – выборочные средние; σ~ , σ~ – выборочные средние x y квадратические отклонения. 2. Различные значения х случайной величины X и соответствующие им значения у случайной величины Y наблюдались в эксперименте по одному разу. В этом случае все mij = 0 при i ≠ j, mii = 1, и группировать экспериментальные данные нет необходимости, тогда проще представить их в виде табл. 7. Таблица 7. Двумерная случайная величина (X, Y), все возможные пары значений которой встречаются по одному разу Х Y x1 y1 x2 y2 x3 y3 … … xN yN В этом случае мы можем упростить формулу (56) нахождения ∑ xi , выборочного коэффициента корреляции. Учитывая, что x = N 2 2 2 2 ∑ yi , D~ = ∑ x − (∑ x) , D~ = ∑ y − (∑ y ) , получим y= x y N N N2 N N2 n n n j =1 k =1 N ∑ ( xi yi ) − ∑ x j ∑ yk ~ r = i =1 . (57) 2 n ⎛ n ⎞ ⎛ n ⎞ 2 N ∑ x − ⎜⎜ ∑ x j ⎟⎟ N ∑ yi − ⎜⎜ ∑ y j ⎟⎟ i =0 i =0 ⎝ j =1 ⎠ ⎝ j =1 ⎠ Выборочный коэффициент корреляции ~ r является оценкой коэффициента корреляции r генеральной совокупности и поэтому может служить для измерения линейной связи между величинами – количественными признаками Y и X. Допустим, что выборочный коэффициент корреляции оказался отличным от нуля. Так как выборка отобрана случайно, то отсюда еще нельзя заключить, что коэффициент корреляции генеральной совокупности также отличен от нуля. Если выборка имеет достаточно большой объем и хорошо представляет генеральную совокупность, то заключение о тесноте линейной зависимости между признаками, полученное по данным выборки, в известной степени может быть распространено и на генеральную совокупность. Например, для оценки коэффициента корреляции r нормально распределенной генеральной совокупности (при N≥50) можно воспользоваться формулой r2 r2 1− ~ 1− ~ ~ . (58) r −3 r +3 ≤r≤~ N N n 2 2 i случайно, то еще нельзя заключить, что коэффициент корреляции генеральной совокупности r также отличен от нуля. Возникает необходимость при заданном уровне значимости α проверить нулевую гипотезу о равенстве нулю генерального коэффициента корреляции r ]=0 Н0: M[ ~ r ] ≠ 0. при конкурирующей гипотезе Н1: M[ ~ Если нулевая гипотеза отвергается, то это означает, что выборочный коэффициент корреляции значим, а X и Y коррелированы, т. е. связаны линейной зависимостью. В качестве критерия проверки нулевой гипотезы примем случайную величину ~ r n−2 , T= r2 1− ~ которая при справедливости нулевой гипотезы имеет распределение Стьюдента с k = n – 2 степенями свободы. Поскольку конкурирующая r ] ≠ 0, критическая область двусторонняя. гипотеза имеет вид M[ ~ Критическую точку находят по таблице квантилей распределения Стьюдента t прав. кр (α/2, k), область принятия нулевой гипотезы |Т| < tправ. кр . 9. Проверка гипотезы о значимости выборочного коэффициента корреляции. Пусть двумерная генеральная совокупность (X, Y) распределена нормально. Из этой совокупности извлечена выборка объема n, и по ней найден выборочный коэффициент корреляции ~ r , который оказался отличным от нуля. Так как выборка отобрана Выборочный коэффициент ранговой корреляции Спирмена Допустим, что объекты генеральной совокупности обладают двумя качественными признаками X и Y. Под качественным подразумевается признак, который невозможно измерить точно, но он позволяет сравнивать объекты между собой и, следовательно, расположить их в порядке убывания или возрастания качества. Для оценки степени связи признаков рассмотрим коэффициент ранговой корреляции Спирмена. На практике, если установлена высокая ранговая корреляция между двумя качественными признаками изделий, достаточно контролировать изделия только по одному из признаков, что удешевляет и ускоряет контроль. Для того чтобы найти коэффициент ранговой корреляции, необходимо каждому объекту сопоставить ранг, отражающий степень обладания объекта признаком Х, и ранг, отражающий степень обладания объекта признаком Y. Для этого расположим сначала объекты выборки в порядке ухудшения качества по признаку X. Припишем объекту, стоящему на первом месте, ранг x1 = 1, объекту, стоящему на втором месте, ранг x2 = 2 и т.д., тогда объект, стоящий на последнем месте, получит ранг xn = n. Далее расположим объекты в 95 96 порядке убывания качества по признаку Y и припишем каждому из них ранг у, не меняя порядок следования объектов в порядке убывания признака Х. Например, запись y2 = 5 означает, что по признаку Х объект стоит на втором месте, а по признаку Y – на пятом. В итоге получим две последовательности рангов: по признаку Х: х1, х2, ..., хn; по признаку Y: y1, y2, ..., yn. Возможны два крайних случая. 1. Ранги по признакам Х и Y совпадают при всех значениях индекса i: xi = yi. В этом случае ухудшение качества по одному признаку влечет ухудшение качества по другому. Очевидно, признаки связаны – имеет место «полная прямая зависимость». 2. Ранги по признакам А и В противоположны, то есть если х1= 1, то y1 = n; если х2 = 2, то у2 = n – 1; ... если хn = n, то yn = 1. В этом случае ухудшение качества по одному признаку влечет улучшение по другому. Очевидно, признаки связаны – имеет место «противоположная зависимость». Чаще встречается промежуточный случай, когда ухудшение качества по одному признаку влечет для некоторых объектов ухудшение, а для других – улучшение качества. Задача состоит в том, чтобы оценить связь между признаками. Для ее решения рассмотрим ранги х1, х2, ..., хn как возможные значения случайной величины X, а y1, y2, ..., yn – как возможные значения случайной величины Y. Таким образом, о связи между качественными признаками А и В можно судить по связи между случайными величинами X и Y, для оценки которой используем коэффициент корреляции. Для вычисления коэффициента корреляции можно использовать формулу (57), а можно перейти к разностям d i = xi − yi . В этом случае, учитывая, что случайные величины X и Y принимают n(n + 1) , значения 1, 2, 3 … n, найдем ∑ xi = ∑ yi = 2 1 n(n + 1)(2n + 1) , ∑ xi yi = ∑ xi2 + yi2 − d i2 и преобразуем ∑ xi2 = ∑ yi2 = 6 2 формулу (57) к более простому виду: 6∑ d 2 ~ r = 1− 3 i . n −n Значимость выборочного коэффициента ранговой корреляции Спирмена также может быть проверена при помощи критерия Стьюдента. ( 97 ) ЗАДАЧИ 6.1. Из продукции автомата, производящего некоторые детали с номинальным значением контролируемого размера µ = 40 мм, была взята выборка объемом n = 36. Значение выборочного среднего контролируемого размера равно 40,2 мм. Есть основание предполагать, что фактические размеры образуют нормальную генеральную совокупность с дисперсией σ2 = 1мм2. Можно ли по результатам проведенного выборочного обследования утверждать, что контролируемый размер не больше номинального (α = 0,01)? 6.2. В соответствии с техническими условиями среднее время безотказной работы приборов из большой партии должно составлять не менее 1000 ч со средним квадратичным отклонением 100 ч. Значение выборочного среднего времени безотказной работы для случайно отобранных 25 приборов оказалось равным 970 ч. Предположим, что среднее квадратичное времени безотказной работы для приборов в выборке совпадает со средним квадратичным во всей партии, а контролируемая характеристика имеет нормальное распределение. Выясните, можно ли считать, что вся партия приборов не удовлетворяет условиям, если α = 0,01. 6.3. Утверждается, что шарики, изготовленные станком-автоматом, имеют средний диаметр d = 10 мм с дисперсией σ2 = 1мм2. В выборке из 16 шариков средний диаметр оказался равным 10,3 мм. Проверьте гипотезу о том, что станок изготавливает шарики большего, чем нужно, размера. Контролируемый размер имеет нормальное распределение, α = 0,05. 6.4. Для проверки внутреннего диаметра кольца была взята выборка объема n = 25 и найдены отклонения от требуемого размера (погрешность изготовления). По результатам измерений подсчитано значение выборочного среднего, равное 31,52 мм, и оценка среднего квадратичного отклонения σ = 6 мм. Требуется проверить, существенно ли превышает рассчитанное по выборке среднее значение номинальный размер 30 мм. Погрешность изготовления имеет нормальное распределение. Уровень значимости пять процентов. 6.5. Результаты двухнедельных наблюдений показали, что установка имеет среднюю производительность 1000 кг вещества в сутки со средним квадратичным отклонением 9 кг, а при изменении технологии производительность возрастает до 1100 кг вещества в сутки с тем же средним квадратичным отклонением. Можно ли считать, что новая 98 технология обеспечивает повышение производительности, если контролируемый признак имеет нормальное распределение, а уровень значимости пять процентов? 6.6. Из большой партии резисторов одного типа и номинала случайным образом отобраны 37 шт. Значение выборочного среднего величины сопротивления при этом оказалось равным 9,3 кОм. Можно ли считать на уровне значимости пять процентов, что выборка взята из партии с номинальным значением 10 кОм, если дисперсия рассматриваемой случайной величины известна и равна 4 кОм2? Распределение контролируемого признака нормальное. 6.7. Ожидается, что при добавлении специальных веществ жесткость воды уменьшится. По оценкам жесткости воды до и после добавления специальных веществ по 40 и 50 пробам соответственно получили средние значения жесткости (в стандартных единицах) 4,0 и 3,8. Дисперсия измерений в обоих случаях предполагается равной 0,25. Подтверждают ли эти результаты ожидаемый эффект? Принять α = 0,05. Распределение контролируемого признака нормальное. 6.8. Из большой партии резисторов одного типа и номинала случайным образом отобраны 37 шт. Значение выборочного среднего величины сопротивления при этом оказалось равным 9,3 кОм. Можно ли считать на уровне значимости пять процентов, что резисторы выборки имеют сопротивление меньшее, чем сопротивление резисторов всей партии с номинальным значением 10 кОм, если дисперсия значения сопротивления неизвестна, а значение выборочной Распределение контролируемого дисперсии равно 6,25 кОм2? признака нормальное. 6.9. Заводы А и В выпускают приборы одного типа. По выборке из 50 приборов завода А установили среднюю продолжительность работы прибора 1288 ч со средним квадратичным отклонением 80 ч, а по выборке того же объема с завода В – 1208 ч со средним квадратичным отклонением 94 ч. На уровне значимости α = 0,05 проверьте гипотезу о том, что средний срок службы приборов с обоих заводов одинаков. Считайте, что продолжительность работы одного прибора распределена приближенно по нормальному закону. 6.10. При 120 подбрасываниях игральной кости шестерка выпала 40 раз. Согласуется ли этот результат с утверждением, что кость «правильная»? 99 6.11. Точность наладки станка-автомата, производящего некоторые детали, характеризуется дисперсией длины деталей. Если эта величина будет больше 400 мкм2, станок останавливается для наладки. Значение выборочной дисперсии, найденное по 15 случайно отобранным деталям из продукции станка, оказалось равным 689 мкм2. Определите, нужна ли наладка станка при α = 0,01 и при α = 0,1. Контролируемый размер имеет нормальное распределение. 6.12. Завод рассылает рекламные каталоги возможным заказчикам. Как показал опыт, вероятность того, что организация, получившая каталог, закажет рекламируемое изделие, равна 0,08. Завод разослал 1000 каталогов новой улучшенной формы и получил 100 заказов. Можно ли считать, что новая форма рекламы оказалась значимо эффективнее первой? 6.13. На двух токарных автоматах изготавливают детали по одному чертежу. Из продукции первого станка было отобрано n = 9 деталей, а из продукции второго m = 11 деталей. Оценки выборочных дисперсий контрольного размера, определенные по этим выборкам, равны 5,9 мкм2 и 23,3 мкм2 соответственно. Проверьте гипотезу о равенстве дисперсий при α = 0,05, если альтернативная гипотеза утверждает следующее: а) дисперсии не равны; б) дисперсия размера для второго станка больше, чем для первого. 6.14. При контроле определенной процедуры проверки коэффициента трения установлено, что дисперсия результатов измерений этого коэффициента составляет 0,1. Значение выборочной дисперсии, вычисленное по результатам 26 измерений коэффициента трения, оказалось равным 0,2. При уровне значимости десять процентов проверьте гипотезу о том, что дисперсия результатов измерений коэффициента трения равна 0,1. Предполагается, что контролируемый признак имеет нормальное распределение. 6.15. При 50 подбрасываниях монеты «герб» появился 20 раз. Можно ли считать, что процент появления «герба» не равен 50? Принять α = 0,1. 6.16. При обработке втулок на станке-автомате ведутся наблюдения за режимом его работы. Для проверки стабильности работы станка через определенные промежутки времени изучают выборки объема n = 0. По результатам двух выборок (см. таблицу) проверьте стабильность работы станка. Распределение контролируемого признака предполагается нормальным. Также предполагается, что 100 дисперсии генеральных совокупностей, из которых выборки, равны. Уровень значимости пять процентов. Номер изделия Xi Yi Номер изделия Xi Yi получены 1 2 3 4 5 2, 060 2, 063 2, 063 2, 060 2, 068 2, 057 2, 060 2, 056 2, 067 2, 059 6 7 8 9 10 2, 063 2, 058 2, 059 2, 062 2, 062 2, 059 2, 062 2, 059 2, 060 2, 057 6.21. Для проверки симметричности игральной кости провели 100 опытов. Шестерка выпала 17 раз, пятерка 15 раз, четверка 19 раз, тройка 21 раз, двойка 18 раз, единица 10 раз. Согласуется ли этот результат с утверждением, что кость «правильная»? 6.17. Кот Базилио и Лиса Алиса делят деньги «по-честному». Они кладут в шляпу 15 золотых монет, перемешивают их и высыпают на стол. Базилио забирает все монеты, которые лежат кверху орлом, а Алиса – те, которые лежат кверху решкой. После однократного подбрасывания 10 монет достались Алисе. Жулит ли Алиса? 6.18. Среди 1000-элементной выборки дискретной случайной величины Х значение 0 встретилось 343 раза, значение 1 – 372 раза, значение 2 – 201 раз, значение 3 – 68 раз, а значения, большие или равные 4, встретились 16 раз. Проверьте на уровне значимости пять процентов гипотезу о том, что наблюдаемая случайная величина имеет распределение Пуассона с параметром λ = 1. 6.19. Владислав Борткевич, русский экономист и статистик польского происхождения, вошел в историю статистики в том числе тем, что в 1908 году открыл и сформулировал закон малых чисел для случаев редких явлений. Ученый собрал и статистически обработал записи о 10 кавалерийских корпусах прусской армии за 20 лет. Количество смертей от брыкливых лошадей среди кавалеристов представлено в следующей таблице: Число смертей в одном корпусе в год Частота появления 0 1 2 3 4 109 65 22 3 1 К счастью, смерть от удара копытом – событие редкое, и наиболее подходящая модель для описания этого явления – распределение Пуассона. Докажите, что эта гипотеза не противоречит опытным данным. 101 6.20. На 1000 детей, родившихся в городке N в августе, пришлось 623 мальчика. Проверьте на уровне значимости пять процентов, согласуется ли этот факт с предположением о том, что вероятность рождения мальчика равна 0,51. 6.22. В конкурсе красоты участвовало 10 девушек. Разыгрывались призы жюри и зрителей. Места, присужденные девушкам жюри и зрителями, записаны в таблицу в соответствии с номерами участниц. Номер участницы Место у зрителей Место у жюри 1 2 3 4 5 6 7 8 9 10 10 8 7 3 5 2 1 9 4 6 8 2 9 6 4 5 3 7 1 10 Проверьте с уровнем значимости α = 5 % гипотезу о том, что мнения жюри и зрителей положительно коррелированны. 6.23. За два цикла работы генератора случайных чисел были получены следующие данные: Xi Yi 9,67 6,35 2,82 5,09 0,1 6,66 0,73 3,24 1,82 8,09 6,25 6,96 0,00 0,25 2,27 7,12 2,49 0,31 4,29 2,26 Проверьте на уровне значимости пять процентов гипотезу о независимости работы этого генератора. 6.24. При уровне значимости α = 0,05 проверьте гипотезу о нормальном законе распределения генеральной совокупности по выборке. xi ni 3 14 5 25 7 23 9 29 11 25 12 22 15 24 17 19 19 12 6.25. В Древнем Риме солдаты играли не правильными деревянными или сделанными из бивней слонов игральными костями (такая кость называлась тессера, они были распространены среди богатых людей), а костями коленной чашечки овцы или козы (они назывались таксиллус). Хотя таксиллус имеет шесть граней, выпасть могут только 102 четыре из них, поскольку две остальные выпуклые. Вероятности возможных исходов для этих костей могут быть приближенно определены только эмпирически, путем наблюдения относительных частот. Представьте, что вы достали две такие игральные кости и провели с ними эксперимент. У одной из них частоты выпадения четырех граней при 1000 бросков оказались равными 408, 396, 91 и 105. Другую вы подбросили только 100 раз, после чего она затерялась. Из этих 100 бросков частоты оказались равными 38, 43, 11, и 8. Обозначим два наиболее вероятных положения таксиллуса A и B, а два менее вероятных – C и D. Проверьте для обеих костей, как согласуются результаты вашего эксперимента с предположением о том, что вероятности выпадения граней А и В в 4 раза больше вероятности выпадения граней С и D. 6.29 В одной из номинаций выставки кошек были представлены одиннадцать животных, которым по жребию были присвоены номера от 1 до 11. Их экстерьер оценивался двумя экспертами. Каждому животному присваивался ранг, причем лучшему животному присваивался максимальный ранг. Результаты работы экспертов приведены в таблице: 6.26. При исследовании времени жизни комаров-самцов были получены следующие результаты: Проверьте с уровнем значимости пять процентов гипотезу о том, что оценки экспертов отрицательно коррелированны. xi (ч) ni (шт.) 15 14 16 20 17 23 18 28 19 29 20 25 21 24 22 19 Номер животного Оценка первого эксперта Оценка второго эксперта 1 2 3 4 5 6 7 8 9 10 11 8 3 9 10 2 5 11 4 1 6 7 9 8 10 5 4 2 6 7 11 1 3 6.30 Результаты наблюдений представлены в таблице: 23 12 При уровне значимости α=0,05 проверьте гипотезу о нормальном законе распределения генеральной совокупности. 6.27. Определите на уровне значимости пять процентов, существует ли взаимосвязь между результатами в толчке штанги и в прыжке в высоту с места у 12 тяжелоатлетов весовой категории до 60 кг, если данные выборок таковы: результат в толчке (кг): 107.5; 110; 110; 115; 115; 107.5; 107.5; 120; 122.5; 112.5; 120; 110; результат в прыжке в высоту с места (см): Номер канала Пропускная способность канала (Кбит/с) Cигнал/шум (дБ) за 2 3 4 5 6 7 8 26,37 28 27,83 31,67 23,5 21,04 16,94 37,56 41,98 43,83 42,83 47,28 38,75 35,12 32,07 54,25 Проверьте на уровне значимости пять процентов гипотезу о независимости этих характеристик. 6.28 За два цикла работы генератора случайных чисел были получены следующие данные: 2,08 9,88 2,09 2,82 8,97 2,83 4,42 13,15 7,49 6,33 1,99 10,93 8,29 2,68 1,60 12,14 5,44 7,87 4,10 3,72 Проверьте на уровне значимости пять процентов гипотезу о независимости работы этого генератора. 103 канала 1 57; 60; 58; 61; 63; 58; 55; 64; 65; 64; 66; 61. Xi Yi характеристиками 104 VII. ЛАБОРАТОРНЫЕ РАБОТЫ Первые две лабораторные работы посвящены самостоятельному решению задач и выполняются в тестирующей программе. Остальные пять лабораторных работ выполняются в программе MathCAD. MathCAD имеет развитый аппарат работы с задачами математической статистики. В этой программе имеется большое количество встроенных специальных функций, описывающих плотности вероятности основных распределений, а также функции вероятности основных распределений и функции, позволяющие вычислить основные характеристики распределений случайных величин. Наряду с этим в MathCAD существует несколько генераторов псевдослучайных чисел для каждого закона распределения. Основная цель их использования состоит в создании определенной последовательности случайных чисел, моделирующей, например, случайную динамику биржевых индексов, эффект шума в физическом эксперименте и т. п. Имеется возможность строить гистограммы и рассчитывать статистические характеристики выборок случайных чисел и случайных процессов. При этом случайные последовательности могут либо создаваться внутри программы при помощи генераторов случайных чисел, либо вводиться пользователем из файлов. 105 ЛАБОРАТОРНЫЕ РАБОТЫ № 3 – 4. Изучение типовых распределений Цель работы: выработка и закрепление практических навыков в решении задач с использованием типовых распределений. I. Дискретные случайные величины Распределение Бернулли (биномиальное распределение) Биномиальное распределение описывается в MathCAD следующими функциями: − dbinom(х,n,p) – плотность вероятности биномиального распределения (n – целый параметр, равный количеству испытаний, х ∈ [0, n] – переменная, по смыслу равная количеству успешных попыток из n испытаний, и 0 < р < 1 – параметр, равный вероятности успеха единичного испытания); − pbinom(х,n,p) – функция биномиального распределения; − qbinom(α,n,p) – α-квантиль биномиального распределения; − rbinom(m,n,p) – вектор m независимых псевдослучайных чисел, каждое из которых имеет биномиальное распределение. Задание 1. Представьте, что вы начинающий баскетболист (баскетболистка) и забрасываете мяч в корзину только 1 раз из 10. Тренер предоставил вам 50 попыток. Пусть Х – случайная величина, равная числу удачных попыток. Если вероятность попадания от попытки к попытке не изменяется, то очевидно, что Х подчинена биномиальному распределению. a. Постройте на одном графике плотность вероятности и функцию вероятности случайной величины Х. Значения параметров распределения и область определения переменной Х самостоятельно определите по тексту задачи. Поскольку данное распределение дискретное, график функции плотности вероятности получается в виде отдельных столбиков, высота которых соответствует вероятности каждого отдельного значения, а график функции вероятности распределения имеет ступенчатый вид. b. Визуально найдите наиболее ожидаемое число удачных попаданий в корзину. Численное значение вероятности любого значения случайной величины Х можно найти при помощи трассировки графика или непосредственным 106 c. вычислением, подставив значение переменной в качестве аргумента функции плотности вероятности. Найдите вероятность того, что число удачных попыток будет находиться в пределах от 5 до 15, и вероятность того, что число удачных попыток будет не менее 12. Обратите внимание, что для нахождения вероятности попадания случайной величины в диапазон [a, b] необходимо воспользоваться функцией распределения: P (a < X < b) = F (b) − F (a) . Задание 2. Оптовая база снабжает товаром (15+V) магазинов2. Вероятность того, что в течение дня поступит заявка на товар, равна 0,3 для каждого магазина. Используя функции вероятности и плотности вероятности, найдите вероятности следующих событий: a. в течение дня поступит ровно 6 заявок; b. в течение дня поступит не менее 3 и не более 6 заявок; c. в течение дня поступит хотя бы одна заявка. Определите, каково наивероятнейшее число поступающих в течение дня заявок и чему равна соответствующая ему вероятность. Другие статистические распределения Как вы могли легко заметить по биномиальному распределению, MathCAD имеет четыре основные категории встроенных функций. Они различаются написанием их первой литеры, а оставшаяся часть имени функций (ниже в списке функций она условно обозначена «*») идентифицирует тот или иной тип распределения: − d*(x, par) – плотность вероятности; − р*(х, раr) – функция распределения; − q*(α, par) – квантиль распределения; − r*(m, раr) – сгенерированный вектор m независимых псевдослучайных чисел, каждое из которых имеет соответствующее распределение. Во всех функциях х – значение случайной величины (аргумент функции); par – список параметров распределения. 2 Перечислим все типы распределения, реализованные в MathCAD, вместе с их параметрами, на этот раз обозначив звездочкой «*» недостающую первую букву встроенных функций: − *beta(x, α, β) – бета-распределение (α, β >0 – параметры, x∈[0, 1] – переменная); − *binom(х, n, p) – биномиальное распределение (n – целый параметр, равный количеству испытаний, х ∈ [0, n] – переменная целого типа, 0 < р < 1 – параметр, равный вероятности успеха единичного испытания); − *cauchy(x, х0, s) – распределение Коши (х0 – коэффициент сдвига, s > 0 –параметр масштаба, х – переменная), это распределение не имеет математического ожидания и дисперсии; − *chisq(x, d) – χ2 («хи-квадрат») распределение (d > 0 – число степеней свободы (параметр распределения), х – переменная); − *ехр(х, λ) – экспоненциальное распределение (λ > 0 – параметр распределения, х – переменная); − *F(x, d1, d2) – распределение Фишера (d1,d2 > 0 – числа степеней свободы (параметры распределения), х – переменная); − *gamma(x, s) – гамма-распределение (s > 0 – параметр распределения, х – переменная); − *geom(х, p) – геометрическое распределение (0 < р < 1 – параметр, равный вероятности успеха единичного испытания, х – целочисленная переменная); − *hypergeom(х, N – M, M, n) – гипергеометрическое распределение (N, M, n – целые параметры, х – целочисленная переменная); − *lnоrm(х, µ, σ) – логарифмически нормальное распределение (µ – натуральный логарифм математического ожидания, σ > 0 – натуральный логарифм среднеквадратичного отклонения, х – переменная); − *logis(x, µ, s) – логистическое распределение (µ – математическое ожидание, s > 0 – параметр масштаба, х – переменная); − *nolnorm(х, n, p) – отрицательное биномиальное распределение, описывающее количество неудач в n испытаниях (n – целый параметр, равный количеству Здесь и далее V – номер вашего варианта. 107 108 − − − − − испытаний, х ∈ [0, n] – переменная, 0 < р < 1 – параметр, равный вероятности успеха единичного испытания); *nоrm(х, µ, σ) – нормальное распределение (µ – среднее значение, σ > 0 – среднеквадратичное отклонение, х – переменная); *pois(х, λ) – распределение Пуассона (λ > 0 – параметр, х – целочисленная переменная); *t(x, d) – распределение Стьюдента (d > 0 – число степеней свободы (параметр распределения), х – переменная); *unif(x, a, b) – равномерное распределение (а, b, а < b – границы интервала распределения, х – переменная); *weibull(x, k) – распределение Вейбулла (k > 0– параметр, х – переменная). Вставку рассмотренных статистических функций в программы можно осуществить, просто набирая имена функций с клавиатуры или с помощью диалогового окна Вставка функции. Для этого необходимо выполнить следующие действия. 1. Установите курсор на место вставки функции в документе. 2. Вызовите диалоговое окно Вставка функции нажатием 3. 4. 5. кнопки на стандартной панели инструментов или командой меню Вставка / Функция. В списке Категория функции выберите одну из категорий статистических функций. Категория Плотность вероятности содержит встроенные функции для плотности вероятности, категория Функция распределения – для вставки функций или квантилей распределения, категория Случайные числа – для вставки функции генерации случайных чисел. В списке Имя функции выберите функцию в зависимости от требующегося закона распределения. При выборе того или иного элемента списка в текстовых полях в нижней части окна будет появляться информация о назначении выбранной функции. Нажмите кнопку ОК для вставки функции в документ. Задание 3. Станция скорой помощи получает в среднем за час 386 вызовов. Пусть Х – случайная величина, равная числу вызовов за минуту. a. Постройте на одном графике плотность вероятности и функцию случайной величины. Для наглядности ограничьте на графике область определения случайной величины Х пределами от 1 до 20. b. Визуально найдите наиболее ожидаемое число вызовов в минуту. c. Какова вероятность того, что в данную одну минуту станция получит V вызовов? d. Найдите вероятность того, что в течение часа позвонят на коммутатор не менее 10 человек. Геометрическое распределение Это распределение дискретной случайной величины, равной количеству испытаний случайного эксперимента до наблюдения первого «успеха». Задание 4. Некий программист написал программу реализации итерационного алгоритма и запускает её каждый раз с разными начальными данными. Предположим, что для достижения требуемой точности программе необходимо выполнить в среднем 10 итераций. Пусть случайная величина Х равна числу итераций, выполняемых программой для достижения требуемой точности (это и будет «успех»). a. Определите вероятность «успеха» в одном испытании и постройте на одном графике плотность вероятности и функцию вероятности случайной величины, отобразив по оси абсцисс диапазон от 1 до 20. b. Найдите вероятность того, что программе потребуется более 15 итераций. c. Считая, что в предыдущей задаче количество итераций ограничено и равно 20, найдите вероятность того, что программе потребуется выполнить ровно 20 итераций. II. Непрерывные случайные величины Распределение Пуассона Это распределение моделирует дискретный закон редких событий и является предельным случаем биномиального распределения при n→∞, p→0, но при условии npq<9. Равномерное распределение Самое простое непрерывное распределение случайной величины – это распределение с постоянной плотностью, отличной от нуля только на отрезке [а, b]. Значение границ отрезка играет роль параметров распределения. Плотность вероятности равномерного 109 110 распределения вместе с другими характеристиками распределения задают в MathCAD следующие встроенные функции: − dunif (x, a, b) – плотность вероятности равномерного распределения; − punif(x, a, b) – функция равномерного распределения; − qunif (α, a, b) – α -квантиль равномерного распределения; − runif (m, а, b) – вектор m независимых случайных чисел, каждое из которых имеет равномерное распределение; − rnd (x) – случайное число, имеющее равномерную плотность распределения на интервале (0,х). Чаще всего в несложных программах применяется последняя функция, которая приводит к генерации одного псевдослучайного числа. Наличие такой встроенной функции в MathCAD – дань традиции, применяемой в большинстве сред программирования. Задание 5. Интервал движения автобуса равен 20 минутам. Найдите вероятность того, что студент, пришедший на остановку в случайный момент времени, будет ожидать автобус: a. менее 5 мин; b. от 5 до 10 мин. Нормальное распределение Это распределение имеет очень широкий круг применений в статистике. Дополнительно к четырем категориям функций, которые мы рассматривали для всех остальных распределений, применительно к нормальному распределению в программе MathCAD есть следующие встроенные функции: 2 x −t − erf(х) = ∫ e dt , называемая функцией ошибок (или 2 π − 0 интегралом вероятности, или функцией Крампа); 2 ∞ −t erfc(x) = 1-erf(х)= ∫ e dt . 2 π x Обратите внимание, что интеграл вероятности erf(х), в отличие от функции нормального распределения pnorm(x, µ, σ), имеет всего один аргумент, так как в интеграле вероятности принято µ =0, σ =1. Он описывает функцию распределения так называемой «стандартизированной случайной величины», значения которой и приводятся обычно в статистических таблицах. Задание 6. Постройте функцию плотности распределения с параметрами (µ = 2, σ = 1), (µ = 2, σ = 2) и (µ = 2, σ = 3) на одном 111 графике в диапазоне изменения случайной величины х от -4 до 8. На другом графике постройте функции вероятности этих случайных величин в том же диапазоне. Как изменяется вид функций распределения нормально распределенной случайной величины при изменении параметров µ и σ? Задание 7. Пусть случайная величина имеет нормальное распределение с µ = 0, σ = 1. Проверьте правило трех сигма, то есть найдите вероятности попадания случайной величины в интервалы [µ -σ, µ +σ], [µ -2σ, µ +2σ], [µ -3σ, µ +3σ]. Выпишите в тетрадь вероятности попадания в каждый интервал. Экспоненциальное распределение Экспоненциальному закону подчиняется распределение времени между независимыми событиями, появляющимися с постоянной интенсивностью. Это распределение моделирует непрерывный закон редких событий и применяется в теории надёжности для описания распределений времени до внезапных отказов, длительности восстановления работоспособности объектов и т.д. Задание 8. Пусть есть магазин, в который время от времени заходят покупатели. При определённых допущениях время между появлениями двух последовательных покупателей будет случайной величиной с экспоненциальным распределением. Среднее время ожидания нового покупателя равно 15 мин. Пусть Х – случайная величина, равная времени ожидания нового покупателя. Предполагая, что переменная Х изменяется в интервале от 1 до 60 мин, постройте функцию плотности распределения и функцию вероятности случайной величины Х. Найдите вероятность того, что нового покупателя придется ждать не более получаса. Распределение Вейбулла3 Обобщением экспоненциального распределения на случай нестационарного потока событий является распределение Вейбулла. Пусть Х – непрерывная случайная величина, характеризующая длительность функционирования какого-либо элемента сложной системы (ресурс, наработку до предельного состояния и т.п.), т.е. Х описывает время, прошедшее от момента пуска элемента до его поломки. Если интенсивность поломок меняется с течением времени, 3 Дополнительный материал 112 например, под действием износа и старения, тогда случайная величина Х имеет распределение Вейбулла. Плотность распределения Вейбулла отлична от нуля только при x ≥ 0 и описывается функцией k −1 ⎛x⎞ k −⎜ ⎟ k ⎛x⎞ f ( x) = ⎜ ⎟ e ⎝ λ ⎠ , λ ⎝λ⎠ имеющей два параметра. Параметр λ имеет смысл коэффициента масштаба, а параметр k описывает характер процесса: − при 0 < k < 1 распределение Вейбулла описывает процесс, при котором интенсивность отказов уменьшается со временем, функция f(x) монотонно убывает и стремится к нулю с ростом х; − при k = 1 распределение становится экспоненциальным, так как интенсивность отказов не меняется со временем; − при k > 1 распределение Вейбулла описывает процесс, при котором интенсивность отказов увеличивается со временем, функция f(x) имеет максимум, а при k →∞ стремится к δ(x – λ). Функция распределения Вейбулла имеет вид F ( x) = 1 − e ⎛x⎞ −⎜ ⎟ ⎝λ⎠ k , а характеристики – ⎛ 1⎞ M [ x ] = λ ⋅ Г ⎜1 + ⎟ , ⎝ k⎠ где Г(k) – гамма-функция. 2⎞ ⎛ D[ x] = λ2 ⋅ Г ⎜1 + ⎟ − M 2 [ x] , ⎝ k⎠ Задание 9. Постройте на одном графике функции плотности распределения для трех случайных величин с тремя разными значениями параметра k, соответствующими разному характеру процесса. На другом графике постройте соответственно три функции распределения. Обратите внимание, что встроенная функция *weibull(x, k) описывает распределение Вейбулла при λ=1. Интересно сравнить графически функцию плотности распределения Вейбулла с функцией плотности нормального распределения с параметрами M[x]=1 и D[x]= 1/k. 113 Три описанных ниже распределения часто используются при статистической обработке данных (проверке гипотез). Они определяются при помощи нормального распределения. Для указанных законов функции распределения аналитически не представимы. Существуют специальные таблицы для определения значения квантилей статистических распределений, они приведены в приложении к данному пособию. Мы для построения функций плотности вероятности распределений будем использовать встроенные функции MathCAD. Распределение Пирсона хи-квадрат Распределению хи-квадрат (χ2-распределению) с k степенями свободы соответствует распределение суммы квадратов n нормально распределенных случайных величин z1, z2, …, zn с параметрами (0,1): χ 2 = z12 + z 22 + ... + z n2 , причем k из них независимы, n > k. Плотность распределения имеет вид χ k / 2−1 ⋅ e − χ / 2 f (χ ) = k / 2 , 2 Г (k / 2) где Г(k/2) – гамма-функция; k – число степеней свободы. Область изменения аргумента χ от –∞ до ∞. По форме функция плотности вероятности при k =1 или k =2 – монотонная, а при k >2 – унимодальная, несимметричная. Распределение хи-квадрат, так же как и экспоненциальное распределение, является частным случаем более общего гаммараспределения. С увеличением числа степеней свободы распределение хиквадрат становится все более симметричным и при k >30 приближается к нормальному распределению с математическим ожиданием k и дисперсией 2k. Задание 10. Постройте на одном графике функции плотности распределения для трех случайных величин, распределенных по закону хи-квадрат с k = 2, k = 5, k = 20. Обратите внимание на форму кривых, положение максимума функций, асимметрию. Вывод о том, как меняется форма кривой распределения с изменением числа степеней свободы, запишите в тетрадь. Задание 11. На отдельном графике сравните плотности распределения хи-квадрат с k = 20 и нормального распределения с математическим ожиданием k и дисперсией 2k. 114 Распределение Стьюдента Распределение Стьюдента характеризует распределение случайной величины z0 , t= 2 2 z1 + z 2 + ... + z k2 / k где z0, z1, …, zk – взаимно независимые, нормально распределенные случайные величины с нулевым средним и конечной дисперсией. Величина k характеризует количество степеней свободы. Функция плотности распределения Стьюдента имеет вид ⎛ k +1⎞ k +1 − Г⎜ ⎟ 2 ⎠ ⎛ t2 ⎞ 2 ⎝ ⎜1 + ⎟⎟ f (t ) = , k⎠ πk Г (k / 2) ⎜⎝ где Г(k) – гамма-функция; k – число степеней свободы. Область изменения аргумента t от –∞ до ∞. Плотность распределения – унимодальная и симметричная относительно оси ОY функция, похожая на нормальное распределение. По сравнению с нормальным распределением распределение Стьюдента более узкое, имеет меньшую дисперсию (это отличие заметно при небольших значениях k). Задание 12. Постройте на одном графике функции плотности распределения для двух случайных величин, имеющих распределение Стьюдента с k = 4 и k = 10. Сравните форму кривых, построенных для разного значения параметра k. Задание 13. На отдельном графике постройте и сравните плотность распределения Стьюдента с k = 10 и плотность нормального распределения с нулевым математическим ожиданием и дисперсией k/(k–2). Вывод о форме кривой распределения Стьюдента запишите в тетрадь. ( ) Функция плотности распределения Фишера имеет вид k −2 ⎛ k1 + k 2 ⎞ k +k k /2 Г⎜ − ⎟⋅ x 2 ⎛ ⎛ k1 ⎞ k1 ⎞ 2 2 ⎠ ⎝ ⎜1 + f ( x) = ⎜⎜ ⎟⎟ x⎟ , Г (k1 / 2) ⋅ Г (k 2 / 2) ⎜⎝ k 2 ⎟⎠ ⎝ k2 ⎠ 1 1 1 где Г(k) – гамма-функция; k – число степеней свободы. Область изменения аргумента х от 0 до ∞. Плотность распределения – унимодальная, несимметричная. При k1 > 30 и k2 > 30 величина х распределена приближенно нормально. Задание 14. Постройте на одном графике функции плотности распределения для двух случайных величин, имеющих распределение Фишера с k1 = 20 , k2 = 10 и k1 = 20 , k2 = 25. Сравните форму кривых, построенных для разного значения параметров, выводы запишите в тетрадь. Распределение Фишера (F-распределение Фишера – Снедекора) Это распределение случайной величины χ ⋅k F= 1 2 , k1 ⋅ χ 2 где случайные величины χ1 и χ 2 независимы и имеют распределения хи - квадрат с числом степеней свободы k1 и k2 соответственно. При этом k1 – число степеней свободы числителя (случайной величины с большей дисперсией), k2 – число степеней свободы знаменателя (случайной величины с меньшей дисперсией). 115 2 116 ЛАБОРАТОРНАЯ РАБОТА № 5. Описательная статистика Цель работы: выработка и закрепление практических навыков в решении задач по нахождению выборочных характеристик и построению гистограмм. Цель математической статистики – установление закономерностей, которым подчинено изучаемое массовое случайное явление. Для достижения этой цели необходимо построить вероятностную модель изучаемого явления. Допустим, решена первая задача статистики – обоснованы способы сбора статистических сведений, которые представляют выборку. После того как данные собраны, перед нами встает следующая задача – оценка неизвестной функции распределения и её параметров. I. Точечные оценки параметров распределения • stdev(x) – среднеквадратичное отклонение (standart deviation). (или «стандартное») Задание 1. На телефонной станции проводились наблюдения над числом Х неправильных соединений в минуту. Наблюдения в течение часа дали следующие результаты: 3, 1, 3, 1, 4, 2, 2, 4, 0, 3, 0, 2, 2, 0, 2, 1,4, 3, 3, 1, 4, 2, 2, 1, 1, 2, 1, 0, 3, 4, 1, 3, 2, 7, 2, 0, 0, 1, 3, 3, 1, 2, 4,2, 0, 2, 3, 1, 2, 5, 1, 1, 0, 1, 1, 2, 2, 1, 1, 5. Здесь X является дискретной случайной величиной, а полученные о ней сведения представляют собой статистические (наблюдаемые) данные. Вычислите статистические характеристики случайной величины Х при помощи встроенных функций. Вычислите среднее значение и дисперсию случайной величины непосредственно по известным вам из лекций формулам. Совпадают ли значения, найденные разными путями? Пояснение. Для импорта данных в программу MathCAD сделайте следующее. 1. Через простой текстовый редактор (например, «Блокнот») скопируйте и сохраните данные в текстовом файле “data.txt”. 2. В программе MathCAD определите вектор Х следующим образом: Х:=READPRN(“…\data.txt”). Аргументом функции READPRN(…) является полное имя файла с данными. Точечные оценки представляют собой определенные значения параметров генеральной совокупности, полученные по выборочным данным. Эти значения должны быть максимально близки к значениям соответствующих параметров генеральной совокупности, которые являются истинными значениями оцениваемых параметров. Обычно начинают с того, что оценивают положение центра распределения и разброс данных. Для их оценки существует несколько выборочных характеристик. Рассмотрим ряд встроенных в MathCAD функций, использующихся для расчетов числовых статистических характеристик случайных величин, записанных в виде случайного вектора х: • max(x), min(x) – максимальное и минимальное значения выборки; • mode(x) – выборочная мода – наиболее часто встречающееся значение выборки, значение с максимальной вероятностью; • mean(x) – выборочное среднее значение; • median(х) – выборочная медиана – значение аргумента, которое делит гистограмму выборки на две равные по площади части; • var(x) – выборочная дисперсия (variance); «Экспериментальные данные» для наших лабораторных работ можно просто сгенерировать, поскольку программа MathCAD не только позволяет работать с функциями распределения случайных величин, но и получать сами значения случайных величин, используя различные функции распределения. Для этого используются генераторы случайных чисел, имеющие вид r*(m, раr). Здесь звездочкой обозначен вид распределения. Эта функция возвращает сгенерированный вектор m независимых случайных чисел, каждое из которых имеет соответствующее распределение, par – список параметров распределения. 117 118 Задание 2. При помощи функций типа r*(m, раr) сгенерируйте три вектора Y, Z и T, состоящих из 1000 случайных чисел и имеющих разные распределения. Лучше выбирать хорошо известные вам непрерывные распределения. Например, для нормального распределения с параметрами mx = 1, σx = 5 это будет выглядеть следующим образом: Y:=rnorm(1000,1,5). Значения параметров распределений выберите по своему усмотрению, желательно, чтобы области определения случайных величин были близкими, но не одинаковыми. При помощи встроенных функций MathCAD вычислите выборочное среднее значение и выборочную дисперсию случайных величин Y, Z, T. Совпадают ли выборочные характеристики с «идеальными» характеристиками, вычисленными через параметры распределений? Задание 3. Представим случайную величину S как линейную комбинацию с некоторыми коэффициентами трех случайных величин, полученных в задании 2. Вычислите выборочное среднее значение и выборочную дисперсию случайной величины S. Выполняются ли свойства математического ожидания и дисперсии для их выборочных оценок? Работая с любыми двумя случайными векторами, например Х и S, вспомним другие характеристики случайных величин. Для расчета коэффициентов асимметрии и эксцесса в MathCAD имеются две встроенные функции • kurt(x) – коэффициент эксцесса (kurtosis) выборки случайных данных х; • skew(x) – коэффициент асимметрии (skewness) выборки случайных данных х. Задание 4. Найдите коэффициенты асимметрии и эксцесса для случайных величин Х и S. II. Построение гистограмм Для того чтобы правильно подобрать закон распределения изучаемой случайной величины Y, недостаточно оценить ее характеристики, необходимо изобразить экспериментальные данные графически. При построении гистограммы или полигона частот исследователя интересуют не отдельно взятые значения, а частота встречаемости данных. Поэтому необходимо область значений случайной величины [min(Y), max(Y)] разбить на некоторое количество интервалов (чаще их называют bin – бинами), а затем подсчитать частоту попадания данных в каждый интервал. Найденное значение (частота попадания) и определяет высоту каждого столбика гистограммы. 119 При построении интервального вариационного ряда важно помнить, что количество интервалов разбиения влияет на графическое представление экспериментальных данных и, следовательно, на выбор вероятностной модели изучаемого явления. Для построения гистограмм в MathCAD имеется несколько встроенных функций, мы будем пользоваться следующей: - hist(х, Y) – функция, возвращающая вектор частоты попадания данных в интервалы гистограммы; х – вектор, элементы которого задают левую границу интервалов построения гистограммы в порядке возрастания min(X) < x < max(X); Y – исходный случайный вектор экспериментальных данных. Если вектор x имеет bin элементов, то и результирующий вектор hist имеет столько же элементов. Пример. Построим гистограмму для 1000 значений случайной величины Y, распределенной нормально. Для построения гистограммы необходимо: • задать количество данных – N:=1000; • указать количество отрезков разбиения – bin:=10 ; • сгенерировать сами данные – Y:=rnorm(N,1,5). Далее необходимо: • определить нижнюю границу интервала построения гистограммы – lower:=floor(min(Y)); • определить верхнюю границу интервала построения гистограммы – upper:=ceil(max(Y)); • определить ширину столбиков гистограммы, начальные точки которых записываются в вектор х – upper − lower h := h ; • указать номера столбиков гистограммы – j:=0..bin; • вычислить левую границу каждого столбика – xj:=lower + h·j; • и, наконец, подсчитать частоту попадания данных в каждый интервал – hist ( x, Y ) y := . N ⋅h Гистограмма строится как, и обычный график, при помощи меню Вставка / Графики / X-Y график (рис. 1). Функции floor() и ceil() округляют полученные значения до ближайшего целого в большую и меньшую сторону соответственно. 120 Их использование не является обязательным. В векторе х можно задать произвольные границы сегментов разбиения так, чтобы они имели разную ширину. Обратите внимание, что при подсчете значений вектора y осуществлена нормировка значений гистограммы, это сделано для того, чтобы гистограмма правильно аппроксимировала плотность вероятности (сумма площадей всех столбиков гистограммы равна единице), также показанную на графике. параметра, то есть определить границы интервала, в котором с большой вероятностью находится истинное значение параметров. Построим для нормально распределенной случайной величины Y из задания 2 доверительные интервалы для математического ожидания и дисперсии. Полуширину доверительного интервала для математического ожидания можно найти по формуле (50), а для дисперсии – по формуле (52). Значения argФ(х) можно найти по табл. П2 из приложения, а можно с помощью трассировки графика функции распределения нормированной нормальной случайной величины pnorm(x,0,1), как показано на рис. 2. Задание 6. Для нормально распределенной случайной величины Y из ~ −ε ,m ~ + ε ) , внутри задания 2 определите числовой интервал I β = (m β β которого будет лежать с вероятностью 75 % ее математическое ожидание. На гистограмме случайной величины Y отметьте в виде маркеров по оси х значения границ доверительного интервала для математического ожидания. Маркеры будут видны, если в пункте «Формат» контекстного меню на вкладке «Оси X-Y» поставить соответствующую галочку и в появившихся на оси х гистограммы местозаполнителях вписать либо само числовое значение, либо имя переменных, хранящих значения границ доверительного интервала. Рис. 1. Гистограмма нормального распределения и соответствующая плотность распределения Задание 5. Постройте гистограммы для случайных величин Y, Z и Т. Обратите внимание, что положение самого высокого столбика и есть значение моды выборки. Наложите на каждую гистограмму функцию плотности соответствующего распределения. Совет: для того чтобы не было путаницы с переменными, построение каждой гистограммы начните с нового рабочего листа или используйте в каждом случае разные переменные для обозначения номеров столбиков гистограммы, вектора, задающего положения столбиков гистограммы, и т.д. III. Интервальные оценки параметров распределения Рис. 2. Определение аргумента функции нормального распределения по значению функции Задание 7. Для случайной величины Y из задания 2 определите ~ −ε ,m ~ + ε ) , внутри которого будет числовой интервал I β = (m β β При малом числе экспериментальных данных точечная оценка любого параметра распределения в значительной мере случайна, то есть дает представление об истинном значении параметра с большой ошибкой. В этом случае важнее найти интервальную оценку лежать с вероятностью 75 % ее дисперсия. Выражение для дисперсии дисперсии нормального распределения дает формула (51). 121 122 ЛАБОРАТОРНАЯ РАБОТА № 6. Двумерные случайные величины. Теория корреляций. ЦПТ. Проверка статистических гипотез Цель работы: выработка и закрепление практических навыков работы с генераторами случайных чисел, проверка статистических гипотез. I. Генерация двумерных случайных величин В реальной жизни часто приходится сталкиваться с задачами, в которых результат опыта описывается не одной случайной величиной, а двумя или более случайными величинами, образующими систему. Например, станок-автомат штампует стальные плитки. Если контролируемыми размерами являются длина и ширина, то мы имеем двумерную случайную величину, если же контролируется еще и высота, то – трёхмерную. Если компоненты случайной величины независимы, то сгенерировать её не представляет никакого труда. Задание 1. При помощи функций типа r*(m,раr) сгенерируйте для любых трех распределений по два вектора Х и Y, каждый из которых состоит из 1000 случайных чисел. Значения параметров распределения выберите по своему усмотрению. Например, для равномерного распределения это будет выглядеть следующим образом: X:=runif(1000,1,5); Y:=runif(1000,1,5). Постройте на отдельном графике зависимость одного случайного вектора от другого. Войдите через контекстное меню в диалоговое окно «Формат» выбранного графика и перейдите на вкладку «Следы». Выберите тип отображения данных в виде точек. Теперь вы можете визуально наблюдать двумерную случайную величину. Задание 2. Аналогично постройте еще две двумерные случайные величины с другими законами распределения. Сравните получившиеся так называемые облака данных. равное, например, 0,7. Вторую случайную величину определим следующим образом: T := k ⋅ Z + 1 − k 2 ⋅ rnorm(1000,0,1) . Постройте облако данных T(Z). Посмотрите, как изменяется форма облака при изменении значения параметра k. Случайные величины T и Z связаны стохастической зависимостью. Обратите внимание, что при k = ±1 стохастическая зависимость переходит в функциональную. Числовые характеристики, устанавливающие связь между парами двух случайных векторов, называются ковариацией и корреляцией (коэффициентом корреляции). Они различаются нормировкой. • соrr(х1, x2) – коэффициент корреляции двух выборок одинакового размера х1 и x2, • cvar(x1, x2) – ковариация двух выборок одинакового размера х1 и x2. Напомним, что значение коэффициента корреляции по модулю не превышает единицы, и по его значению можно судить не только о наличии, но и о степени коррелированности случайных величин. Задание 4. Найдите коэффициенты корреляции и ковариации для случайных величин Z и T. Посмотрите, как изменяется коэффициент корреляции при изменении значения параметра k. Итак, Z и T – две случайные непрерывные величины, находящиеся в корреляционной зависимости. Это значит, что каждому значению z случайной величины Z соответствует вполне определенное распределение вероятностей величины T, и наоборот. Функция регрессии Z на Т описывает изменение условного математического ожидания случайной переменной Z при изменении значений t случайной величины T. Уравнение линии регрессии Z на Т можно записать следующим образом: g (t ) := mZ + r ⋅ σZ ⋅ (t − mT ) , где r – σT Попробуем теперь создать два вектора Z и T одинаковой размерности N и одним и тем же распределением, случайные элементы которых попарно коррелированы. Задание 3. Количество точек для обеих случайных величин возьмем N = 1000. Пусть случайная величина Z имеет нормальное распределение с параметрами (0,1). Определите значение параметра k, коэффициент корреляции случайных величин; mZ и mT – их математические ожидания; σZ и σT – среднеквадратические отклонения. Задание 5. При помощи встроенных функций найдите характеристики случайных величин Z и T, задайте аналитически функцию регрессии Z на Т и наложите график этой функции g(Z) на облако данных, построенное в задании 3. Линия регрессии должна пройти через середину облака данных, ведь на ней лежат условные математические ожидания mZ. 123 124 II. Генерация коррелированных случайных чисел III. Генерация нормально распределенных величин и ЦПТ На предыдущей лабораторной работе вы уже строили гистограмму для случайной величины, распределенной нормально. При этом для получения вектора значений случайной величины вы использовали встроенный генератор случайных чисел. Можно поступить иначе. Нормальное распределение – наиболее распространенное в природе распределение непрерывных величин. Математическим обоснованием этого факта служит центральная предельная теорема: Сумма большого числа как угодно распределенных независимых случайных величин распределена асимптотически нормально, если только слагаемые вносят равномерно малый вклад в сумму. Это значит, что чем больше независимых слагаемых в сумме, тем ближе закон ее распределения к нормальному. Вместо суммы часто рассматривают среднее арифметическое большого числа случайных величин, оно отличается от суммы только нормировочным множителем (1/n) , поэтому его распределение также стремится к нормальному с ростом числа n суммируемых величин. Поскольку случайные величины, с которыми мы сталкиваемся, например, при измерениях, есть результат действия множества независимых факторов, то понятно, почему измеряемые значения, как правило, распределены нормально. Задание 6. Cгенерируйте вектор из М = 1000 равномерно распределенных на отрезке [0,100] N=1000 случайных величин. Еще одну случайную величину определите как среднее арифметическое элементов вектора. Постройте гистограмму полученной случайной величины. Похожа ли форма построенной гистограммы на гистограмму нормального распределения? гипотеза будет отвергнута, то автоматически подтвердится После того как гипотезы альтернативная гипотеза H1. сформулированы, определяют статистический критерий, необходимый для подтверждения или опровержения нулевой гипотезы. Вид альтернативной гипотезы определяет вид критической области (левосторонняя, правосторонняя, двусторонняя). Задачи проверки гипотез требуют задания уровня критерия проверки гипотезы α, который описывает вероятность ошибочного отклонения истинной гипотезы H0. Это важный момент, поскольку если взять α очень малым, то нулевая гипотеза, даже если она ложная, будет почти всегда приниматься; если, напротив, взять α близким к 1, то критерий будет очень строгим, и гипотеза H0, даже верная, скорее всего, будет отклонена. Пусть имеется выборка N случайных чисел хi с нормальным законом распределения и неизвестными дисперсией и математическим ожиданием. Требуется принять или отвергнуть гипотезу о том, что математическое ожидание выборки равно некоторому числу µ0. Сформулируем гипотезы так: − гипотеза Н0 состоит в том, что М [х] = µ0; − альтернативная гипотеза Н1 состоит в том, что М [х] ≠ µ0. Для такой гипотезы критическая область двусторонняя. Поскольку необходимо сравнить выборочное среднее значение с гипотетической средней генеральной совокупности, дисперсия которой неизвестна, то для проверки гипотезы H0 выбираем критерий Стьюдента T= X − µ0 σ N , где σ – исправленное В статистике рассматривается огромное число задач, связанных с проверкой тех или иных статистических гипотез. Статистической называют гипотезу о виде неизвестного распределения или о параметрах известных распределений. При этом обязательно нужно сформулировать две противоречащие друг другу гипотезы – нулевую и альтернативную, причем в качестве нулевой гипотезы H0 выбирают простую гипотезу, однозначно характеризующую вид и/или параметры распределения. Если нулевая среднеквадратическое отклонение. Для нахождения критической точки tправ. кр (α/2)-квантиля распределения Стьюдента воспользуемся встроенной функцией tправ. кр = qt(1-α/2, N-1). Если соответствующее значение T, рассчитанное по выборке, по модулю меньше tправ. кр, то гипотеза Н0 принимается (считается верной). В противном случае гипотезу Н0 следует отвергнуть и принять альтернативную гипотезу. Задание 7. Решите эту задачу для выборки из 50 чисел, имеющих нормальное распределение с параметрами (0,2), и двух значений α=0,01 и α=0,1. Значение µ0 выберите на свое усмотрение. Задание 8. Сгенерируйте две выборки V1 и V2 из 50 чисел с нормальным законом распределения с параметрами (0, 1) и (0, 1,5). При уровне значимости 0,05 проверьте нулевую гипотезу H0: D(V1) = D(V2) о равенстве генеральных дисперсий при 125 126 IV. Проверка статистических гипотез конкурирующей гипотезе H1: D(V1) > D(V2). Сами выберите необходимый критерий проверки гипотезы. Задание 9. В задании 4 вы определяли (для любого значения параметра k) значение коэффициента корреляции случайных величин Z и T. Проверьте гипотезу о значимости этого коэффициента. ЛАБОРАТОРНАЯ РАБОТА № 7. Статистическая обработка результатов эксперимента Цель работы: выработка и закрепление практических навыков обработки экспериментальных данных, построения и обоснования выбора вероятностной модели изучаемого явления. Постановка задачи По результатам испытаний 90 объектов (обратных клапанов) получена статистическая выборка – массив наработки до отказа (время работы до поломки) каждого из 90 испытывавшихся объектов (табл. 1). Выборка характеризует случайную величину T . Таблица 1. Данные статистической выборки Номер клапана 1 1 2 3 4 5 6 7 8 9 10 11 12 Время работы до поломки (ч) 2 9027 9049 9663 9835 9931 9882 9746 9813 9901 10465 10109 10143 Номер клапана 3 13 14 15 16 17 18 19 20 21 22 23 24 Время работы до поломки (ч) 4 11979 11590 11625 11736 11968 11710 11870 11451 11377 11360 11951 11681 127 Номер клапана 5 25 26 27 28 29 30 31 32 33 34 35 36 Время работы до поломки (ч) 6 12799 13178 13297 13086 13179 13279 12796 13014 13453 13379 13923 13988 Продолжение табл. 1 1 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 2 10232 10330 10335 10051 10118 10020 10985 11080 11120 11215 11139 10950 11218 10885 10880 10734 11079 10887 3 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 4 11738 12100 12098 12443 12563 12370 12036 12645 12667 12053 12313 12048 12310 12180 12901 13132 13259 12733 5 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 6 13680 13845 13508 13594 13838 14052 14400 14689 14227 14395 14241 14262 15039 15256 14803 15271 15458 15751 Для решения задач по оценке надежности и прогнозированию работоспособности объекта необходимо иметь математическую модель, которая представлена аналитическими выражениями одного из показателей: f(t) – функции плотности распределения случайной величины Т, P(t) – вероятности безотказной работы или λ(t) – функции интенсивности отказов. Интенсивность отказов λ(t) подавляющего большинства объектов описывается U - образной кривой (рис. 3). Эту кривую можно условно разделить на три характерных участка: первый – период приработки, второй – период нормальной эксплуатации, третий – период старения объекта. Период приработки объекта имеет повышенную интенсивность отказов, вызванную приработочными отказами, обусловленными дефектами производства, монтажа, наладки. Иногда с 128 окончанием этого периода связывают гарантийное обслуживание объекта, когда устранение отказов производится изготовителем. распределения? Ответ на этот вопрос дается в результате расчета статистических критериев. В период нормальной эксплуатации интенсивность отказов уменьшается и практически остается постоянной, при этом отказы носят случайный характер и появляются внезапно, прежде всего, из-за несоблюдения условий эксплуатации, случайных изменений нагрузки, неблагоприятных внешних факторов и т. п. Именно этот период соответствует основному времени эксплуатации объекта. Возрастание интенсивности отказов относится к периоду старения объекта и вызвано износом, старением и другими причинами, связанными с длительной эксплуатацией. Основной путь для получения модели состоит в проведении испытаний, вычислении статистических оценок и их аппроксимации аналитическими функциями. Подбор закона распределения осуществляется на основе аппроксимации (сглаживания) экспериментальных данных о наработке до отказа, которые должны быть представлены в наиболее компактном графическом виде. Разные периоды эксплуатации объекта обычно описываются разными функциями. Выбор той или иной аппроксимирующей функции носит характер гипотезы, которую выдвигает исследователь. Экспериментальные данные могут с большим или меньшим правдоподобием подтверждать или не подтверждать справедливость той или иной гипотезы. Поэтому исследователь должен получить ответ на вопрос: согласуются ли результаты эксперимента с гипотезой о том, что случайная величина наработки подчинена выбранному им закону Выполнение работы. 1. Перенесите исходные данные в текстовый файл. 2. Экспортируйте данные в программу MathCAD и определите эмпирические характеристики выборки: размах (минимальное и максимальное значения), среднее значение M, дисперсию σ 2, асимметрию и эксцесс. 3. Для представления экспериментальных данных в наглядном виде постройте интервальный вариационный ряд и соответствующую ему гистограмму. Эта и все последующие гистограммы строятся по оси абсцисс в диапазоне от минимального до максимального времени наработки до отказа. Площадь столбиков гистограммы рi соответствует эмпирической плотности распределения наработки до отказа. 4. Измените масштаб гистограммы так, чтобы не площадь, а высота каждого столбика была равна вероятности попадания случайной величины в соответствующий интервал. Убедитесь, что ∑ pi ≈ 1 . 5. Зная эмпирическую плотность распределения, подсчитайте значения эмпирической функции распределения Fi наработки до отказа. Функцию распределения можно подсчитать по формулам F0=р0 для i=0 и Fi=Fi-1+рi для i от 1 до bin-1. Для i = bin значение функции будет не определено, так как столбиков гистограммы на один меньше, чем точек разбиения отрезка. 6. Какой смысл имеют значения Fi? Постройте гистограмму функции распределения. 7. Для i от 0 до bin-1 определите функцию надежности Рi (вероятность безотказной работы, определяется как 1-Fi). Постройте гистограмму функции надежности. Какой смысл имеют значения Рi? 8. Эмпирическая интенсивность отказов определяется как отношение частоты попадания данных в текущий интервал к ширине этого интервала и к количеству оставшихся работоспособных ∆n(ti , ti+1 ) , где ∆n(ti , ti +1 ) – количество элементов: λˆ (ti ) = ( N − n(ti )) ⋅ ∆t клапанов, вышедших из строя в интервал времени ti+1 - ti; n(ti ) – количество клапанов, вышедших из строя на момент времени ti; ∆t – ширина временного интервала (столбика гистограммы). В 129 130 Рис. 3. Интенсивность отказов λ(t) наших обозначениях эта формула будет выглядеть следующим p образом: λ̂i = i для i от 0 до bin-1. Pi Определение закона распределения отказов имеет большое значение при исследованиях и оценках надежности объекта. Определение P(t) по одной и той же исходной информации, но при различных предположениях о законе распределения может привести к существенно отличающимся результатам. Закон распределения отказов можно определить по экспериментальным данным, но для этого необходимо проведение большого числа опытов в идентичных условиях. Практически эти условия, как правило, трудно обеспечить. Более рациональный подход – изучение условий физических процессов, при которых возникает то или другое распределение. При этом составляются модели возникновения отказов и соответствующие им законы распределения времени до появления отказа, что позволяет делать обоснованные предположения о законе распределения. Опытные данные должны служить средством проверки обоснованности прогноза, а не единственным источником данных о законе распределения. Такой подход необходим для оценки надежности новых изделий, для которых статистический материал весьма ограничен. В теории надежности наибольшее распространение получили следующие законы распределения случайных величин: биноминальный закон, закон Пуассона, экспоненциальный закон, нормальный закон, гамма-распределение, закон Вейбулла, χ2 - распределение, логарифмически-нормальное распределение и др. Задача следующего этапа нашего исследования – по четырем построенным эмпирическим зависимостям (гистограммам) подобрать подходящий теоретический закон распределения. Поскольку информации об условиях и длительности работы обратных клапанов у нас нет, выбор конкретного распределения сделаем, сравнивая полученные эмпирические зависимости со следующими теоретическими. λk t k −1 e −λt , где λ – (k − 1)! интенсивность отказов элементов устройства, отказ вызывается отказом k элементов. б) Гамма-распределение f (t ) = которого Индекс «1» у функций означает, что параметр k > 1, индекс «2» – k < 1, индекс «3» – k = 1. в) Распределение Вейбулла (поток отказов нестационарный, т.е. плотность потока изменяется с течением времени) f(t) = k ⎛⎜ t ⎞⎟ λ ⎝λ ⎠ k −1 ⎛ ⎛ t ⎞k ⎞ exp ⎜ − ⎜ ⎟ ⎟ . ⎜ ⎝λ ⎠ ⎟ ⎝ ⎠ Индекс «1» у функций означает, что параметр k > 1, индекс «2» – k < 1, индекс «3» – k = 1. г) Нормальное распределение (характерно для времени возникновения отказа, вызванного старением) f (t ) = а) Экспоненциальное распределение (вероятность того, что изделие на протяжении времени t будет находиться в работоспособном состоянии) f (t ) = λe − λt . 131 исходная 132 1 σ 2π − ( t −t ) 2 e 2σ 2 . 9. Выберите подходящий, на ваш взгляд, закон распределения и определите его параметры методом моментов или методом максимального правдоподобия. Если вы выбрали в качестве предполагаемого распределения распределение Вейбулла, то метод максимального правдоподобия дает следующие оценки его N −1 ~ xik ln( xi ) 1 N −1 k 1 i∑ 1 N −1 =0 параметров: λ = ∑ xi , ~ = − ∑ ln( xi ) . N −1 ~ n i =0 n i =0 k ∑ xik ~k i =0 10. Запишите теоретические зависимости f(t), Fteor(t), Pteor(t) и λteor(t) = f(t)/(1-Fteor(t)). Теоретическую интенсивность отказов можно определить не в виде функции, а в виде вектора f ( xi ) λteori := , где хi – координаты столбиков гистограмм, i Pteor ( xi ) меняется от 0 до bin-1. полученные теоретические зависимости на 11. Наложите эмпирические. Если визуально наблюдается сильное смещение теоретической зависимости и гистограммы друг относительно друга, можно подобрать из доверительных интервалов другие параметры теоретических распределений. 12. Вычислите доверительные интервалы параметров распределения (соответствующие доверительной вероятности 95 %): ~ ~ ~ ~ I β = (m − t β σ m~ , m + t β σ m~ ) , I β = ( D − t β σ D~ , D + t β σ D~ ) . Для нормального распределения справедливо tβ = argФ*(0,975)=1,96. Точечные оценки математического ожидания и дисперсии вы высчитывали в задании 2, среднеквадратические отклонения математического ожидания и дисперсии вычисляются по ~ 0,8n + 1,2 ~ D и σ D~ = формулам σ m~ = D. n n(n − 1) 13. Измените значение математического ожидания в теоретических зависимостях f(t), Fteor(t), Pteor(t) на любое другое, принадлежащее найденному доверительному интервалу, так, чтобы добиться наилучшего совпадения теоретической зависимости и гистограммы друг относительно друга. Если необходимо, аналогично измените значение дисперсии. 14. Расчет критерия согласия Для подтверждения или опровержения выбранного вами закона распределения используем так называемый критерий согласия. 133 Критерий согласия – это критерий проверки гипотезы о том, что случайная величина T, представленная своей выборкой, имеет распределение предполагаемого типа. Проверка состоит в следующем: рассчитывается критерий согласия как некоторая мера расхождения теоретического и эмпирического распределений, причем эта мера является случайной величиной. Чем больше мера расхождения, тем хуже согласованность эмпирического распределения с теоретическим. Сформулируем гипотезы: Н0 – вероятностная модель выбрана правильно и не противоречит экспериментальным данным; Н1 – выбранная вероятностная модель противоречит экспериментальным данным. Для проверки гипотез мы будем использовать критерий согласия Пирсона χ2 как меру расхождения эмпирических и bin − 1 ( n − n )2 j j , здесь в качестве теоретических частот: χ 2 = ∑ nj j =0 эмпирических частот n j возьмите N ⋅ p j , а в качестве теоретических h частот nj возьмите значения N ⋅ f ( x j ) , где xj – координаты столбиков гистограмм, pj – вектор эмпирической плотности распределения наработки до отказа. Чтобы найти критическое значение критерия, необходимо определить число степеней свободы R = bin – k , где bin – число интервалов, k – число независимых условий, наложенных на частоты, оно равно числу параметров распределения плюс единица (условие нормировки ∑ pi = 1 ). i Напомним одно важное обстоятельство. Объем выборки должен быть достаточно велик (не менее 50 элементов). Каждая группа должна содержать не менее 5–8 значений, а малочисленные группы следует объединять в одну, суммируя частоты. С помощью критерия согласия можно опровергнуть выбранную гипотезу или показать, что гипотеза не противоречит данным эксперимента. Если полученное значение критерия превосходит квантиль закона распределения χ2 заданного уровня значимости 1-α с R степенями свободы, то гипотеза Н0 отвергается (правосторонняя критическая область). В противном случае гипотеза принимается на заданном уровне значимости α. 134 Обратите внимание, что область принятия гипотезы правосторонняя, значения квантилей увеличиваются с уменьшением α. Таким образом, ваша гипотеза может быть подтверждена с уровнем значимости 2 % и опровергнута с уровнем значимости 5 %. Однако с увеличением области принятия гипотезы увеличивается вероятность совершить ошибку второго рода. При помощи критерия согласия проверьте, противоречит ли выбранная вами гипотеза экспериментальным данным. Запишите вывод в тетрадь. ПРИЛОЖЕНИЕ Функция Гаусса ϕ ( x) = 1 −x2 / 2 e 2π Рис. П1. Функция плотности нормального распределения с параметрами M[x] = 0, D[x] = 1 Таблица П1. Значения функции Гаусса 135 x φ(x) x φ(x) x φ(x) x φ(x) 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,10 0,11 0,12 0,13 0,14 0,15 0,16 0,3989 0,3989 0,3989 0,3988 0,3986 0,3984 0,3982 0,3980 0,3977 0,3973 0,3970 0,3965 0,3961 0,3956 0,3951 0,3945 0,3939 0,17 0,18 0,19 0,20 0,21 0,22 0,23 0,24 0,25 0,26 0,27 0,28 0,29 0,30 0,31 0,32 0,33 0,3932 0,3925 0,3918 0,3910 0,3902 0,3894 0,3885 0,3876 0,3867 0,3857 0,3847 0,3836 0,3825 0,3814 0,3802 0,3790 0,3778 0,34 0,35 0,36 0,37 0,38 0,39 0,40 0,41 0,42 0,43 0,44 0,45 0,46 0,47 0,48 0,49 0,50 0,3765 0,3752 0,3739 0,3725 0,3712 0,3697 0,3683 0,3668 0,3653 0,3637 0,3621 0,3605 0,3589 0,3572 0,3555 0,3538 0,3521 0,51 0,52 0,53 0,54 0,55 0,56 0,57 0,58 0,59 0,60 0,61 0,62 0,63 0,64 0,65 0,66 0,67 0,3503 0,3485 0,3467 0,3448 0,3429 0,3410 0,3391 0,3372 0,3352 0,3332 0,3312 0,3292 0,3271 0,3251 0,3230 0,3209 0,3187 136 Продолжение табл. П1 Продолжение табл. П1 x φ(x) x φ(x) x φ(x) x φ(x) x φ(x) x φ(x) x φ(x) x φ(x) 0,68 0,69 0,70 0,71 0,72 0,73 0,74 0,75 0,76 0,77 0,78 0,79 0,80 0,81 0,82 0,83 0,84 0,85 0,86 0,87 0,88 0,89 0,90 0,91 0,92 0,93 0,94 0,95 0,96 0,97 0,98 0,99 1,00 0,3166 0,3144 0,3123 0,3101 0,3079 0,3056 0,3034 0,3011 0,2989 0,2966 0,2943 0,2920 0,2897 0,2874 0,2850 0,2827 0,2803 0,2780 0,2756 0,2732 0,2709 0,2685 0,2661 0,2637 0,2613 0,2589 0,2565 0,2541 0,2516 0,2492 0,2468 0,2444 0,2420 1,01 1,02 1,03 1,04 1,05 1,06 1,07 1,08 1,09 1,10 1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,18 1,19 1,20 1,21 1,22 1,23 1,24 1,25 1,26 1,27 1,28 1,29 1,30 1,31 1,32 1,33 0,2396 0,2371 0,2347 0,2323 0,2299 0,2275 0,2251 0,2227 0,2203 0,2179 0,2155 0,2131 0,2107 0,2083 0,2059 0,2036 0,2012 0,1989 0,1965 0,1942 0,1919 0,1895 0,1872 0,1849 0,1826 0,1804 0,1781 0,1758 0,1736 0,1714 0,1691 0,1669 0,1647 1,34 1,35 1,36 1,37 1,38 1,39 1,40 1,41 1,42 1,43 1,44 1,45 1,46 1,47 1,48 1,49 1,50 1,51 1,52 1,53 1,54 1,55 1,56 1,57 1,58 1,59 1,60 1,61 1,62 1,63 1,64 1,65 1,66 0,1626 0,1604 0,1582 0,1561 0,1539 0,1518 0,1497 0,1476 0,1456 0,1435 0,1415 0,1394 0,1374 0,1354 0,1334 0,1315 0,1295 0,1276 0,1257 0,1238 0,1219 0,1200 0,1182 0,1163 0,1145 0,1127 0,1109 0,1092 0,1074 0,1057 0,1040 0,1023 0,1006 1,67 1,68 1,69 1,70 1,71 1,72 1,73 1,74 1,75 1,76 1,77 1,78 1,79 1,80 1,81 1,82 1,83 1,84 1,85 1,86 1,87 1,88 1,89 1,90 1,91 1,92 1,93 1,94 1,95 1,96 1,97 1,98 1,99 0,0989 0,0973 0,0957 0,0940 0,0925 0,0909 0,0893 0,0878 0,0863 0,0848 0,0833 0,0818 0,0804 0,0790 0,0775 0,0761 0,0748 0,0734 0,0721 0,0707 0,0694 0,0681 0,0669 0,0656 0,0644 0,0632 0,0620 0,0608 0,0596 0,0584 0,0573 0,0562 0,0551 2,00 2,01 2,02 2,03 2,04 2,05 2,06 2,07 2,08 2,09 2,10 2,11 2,12 2,13 2,14 2,15 2,16 2,17 2,18 2,19 2,20 2,21 2,22 2,23 2,24 2,25 2,26 2,27 2,28 2,29 2,30 2,31 2,32 0,0540 0,0529 0,0519 0,0508 0,0498 0,0488 0,0478 0,0468 0,0459 0,0449 0,0440 0,0431 0,0422 0,0413 0,0404 0,0396 0,0387 0,0379 0,0371 0,0363 0,0355 0,0347 0,0339 0,0332 0,0325 0,0317 0,0310 0,0303 0,0297 0,0290 0,0283 0,0277 0,0270 2,33 2,34 2,35 2,36 2,37 2,38 2,39 2,40 2,41 2,42 2,43 2,44 2,45 2,46 2,47 2,48 2,49 2,50 2,51 2,52 2,53 2,54 2,55 2,56 2,57 2,58 2,59 2,60 2,61 2,62 2,63 2,64 2,65 0,0264 0,0258 0,0252 0,0246 0,0241 0,0235 0,0229 0,0224 0,0219 0,0213 0,0208 0,0203 0,0198 0,0194 0,0189 0,0184 0,0180 0,0175 0,0171 0,0167 0,0163 0,0158 0,0154 0,0151 0,0147 0,0143 0,0139 0,0136 0,0132 0,0129 0,0126 0,0122 0,0119 2,66 2,67 2,68 2,69 2,70 2,71 2,72 2,73 2,74 2,75 2,76 2,77 2,78 2,79 2,80 2,81 2,82 2,83 2,84 2,85 2,86 2,87 2,88 2,89 2,90 2,91 2,92 2,93 2,94 2,95 2,96 2,97 2,98 0,0116 0,0113 0,0110 0,0107 0,0104 0,0101 0,0099 0,0096 0,0093 0,0091 0,0088 0,0086 0,0084 0,0081 0,0079 0,0077 0,0075 0,0073 0,0071 0,0069 0,0067 0,0065 0,0063 0,0061 0,0060 0,0058 0,0056 0,0055 0,0053 0,0051 0,0050 0,0048 0,0047 2,99 3,00 3,01 3,02 3,03 3,04 3,05 3,06 3,07 3,08 3,09 3,10 3,11 3,12 3,13 3,14 3,15 3,16 3,17 3,18 3,19 3,20 3,21 3,22 3,23 3,24 3,25 3,26 3,27 3,28 3,29 3,30 3,31 0,0046 0,0044 0,0043 0,0042 0,0040 0,0039 0,0038 0,0037 0,0036 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026 0,0025 0,0025 0,0024 0,0023 0,0022 0,0022 0,0021 0,0020 0,0020 0,0019 0,0018 0,0018 0,0017 0,0017 137 138 Окончание табл. П1 x 3,32 3,33 3,34 3,35 3,36 3,37 3,38 3,39 3,40 3,41 3,42 3,43 3,44 3,45 3,46 3,47 3,48 3,49 3,50 3,51 3,52 3,53 3,54 φ(x) 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014 0,0013 0,0013 0,0012 0,0012 0,0012 0,0011 0,0011 0,0010 0,0010 0,0010 0,0009 0,0009 0,0009 0,0008 0,0008 0,0008 0,0008 x 3,55 3,56 3,57 3,58 3,59 3,60 3,61 3,62 3,63 3,64 3,65 3,66 3,67 3,68 3,69 3,70 3,71 3,72 3,73 3,74 3,75 3,76 3,77 φ(x) x 0,0007 0,0007 0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005 0,0005 0,0005 0,0005 0,0005 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0003 0,0003 139 3,78 3,79 3,80 3,81 3,82 3,83 3,84 3,85 3,86 3,87 3,88 3,89 3,90 3,91 3,92 3,93 3,94 3,95 3,96 3,97 3,98 3,99 4,00 φ(x) 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0001 0,0001 0,0001 x 4,01 4,02 4,03 4,04 4,05 4,06 4,07 4,08 4,09 4,10 4,11 4,12 4,13 4,14 4,15 4,16 4,17 4,18 4,19 4,20 4,21 4,22 4,24 φ(x) 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0000 Функция Лапласа Ф( x) = x 1 2π ∫e −t 2 / 2 dt 0 Рис. П2. Функция Лапласа Таблица П2. Значения функции Лапласа x Ф(x) x Ф(x) 0,00 0,0000 0,18 0,0714 0,01 0,0040 0,19 0,0753 0,02 0,0080 0,20 0,0793 0,03 0,0120 0,21 0,0832 0,04 0,0160 0,22 0,0871 0,05 0,0199 0,23 0,0910 0,06 0,0239 0,24 0,0948 0,07 0,0279 0,25 0,0987 0,08 0,0319 0,26 0,1026 0,09 0,0359 0,27 0,1064 0,10 0,0398 0,28 0,1103 0,11 0,0438 0,29 0,1141 0,12 0,0478 0,30 0,1179 0,13 0,0517 0,31 0,1217 0,14 0,0557 0,32 0,1255 0,15 0,0596 0,33 0,1293 0,16 0,0636 0,34 0,1331 0,17 0,0675 0,35 0,1368 140 x 0,36 0,37 0,38 0,39 0,40 0,41 0,42 0,43 0,44 0,45 0,46 0,47 0,48 0,49 0,50 0,51 0,52 0,53 Ф(x) 0,1406 0,1443 0,1480 0,1517 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879 0,1915 0,1950 0,1985 0,2019 x 0,54 0,55 0,56 0,57 0,58 0,59 0,60 0,61 0,62 0,63 0,64 0,65 0,66 0,67 0,68 0,69 0,70 0,71 Ф(x) 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549 0,2580 0,2611 Продолжение табл. П2 x Ф(x) x 0,72 0,2642 1,05 0,73 0,2673 1,06 0,74 0,2704 1,07 0,75 0,2734 1,08 0,76 0,2764 1,09 0,77 0,2794 1,10 0,78 0,2823 1,11 0,79 0,2852 1,12 0,80 0,2881 1,13 0,81 0,2910 1,14 0,82 0,2939 1,15 0,83 0,2967 1,16 0,84 0,2995 1,17 0,85 0,3023 1,18 0,86 0,3051 1,19 0,87 0,3078 1,20 0,88 0,3106 1,21 0,89 0,3133 1,22 0,90 0,3159 1,23 0,91 0,3186 1,24 0,92 0,3212 1,25 0,93 0,3238 1,26 0,94 0,3264 1,27 0,95 0,3289 1,28 0,96 0,3315 1,29 0,97 0,3340 1,30 0,98 0,3365 1,31 0,99 0,3389 1,32 1,00 0,3413 1,33 1,01 0,3438 1,34 1,02 0,3461 1,35 1,03 0,3485 1,36 1,04 0,3508 1,37 Ф(x) 0,3531 0,3554 0,3577 0,3599 0,3621 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 141 x 1,38 1,39 1,40 1,41 1,42 1,43 1,44 1,45 1,46 1,47 1,48 1,49 1,50 1,51 1,52 1,53 1,54 1,55 1,56 1,57 1,58 1,59 1,60 1,61 1,62 1,63 1,64 1,65 1,66 1,67 1,68 1,69 1,70 Ф(x) 0,4162 0,4177 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545 0,4554 x 1,71 1,72 1,73 1,74 1,75 1,76 1,77 1,78 1,79 1,80 1,81 1,82 1,83 1,84 1,85 1,86 1,87 1,88 1,89 1,90 1,91 1,92 1,93 1,94 1,95 1,96 1,97 1,98 1,99 2,00 2,01 2,02 2,03 Ф(x) 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767 0,4772 0,4778 0,4783 0,4788 Продолжение табл. П2 x Ф(x) x 2,04 0,4793 2,37 2,05 0,4798 2,38 2,06 0,4803 2,39 2,07 0,4808 2,40 2,08 0,4812 2,41 2,09 0,4817 2,42 2,10 0,4821 2,43 2,11 0,4826 2,44 2,12 0,4830 2,45 2,13 0,4834 2,46 2,14 0,4838 2,47 2,15 0,4842 2,48 2,16 0,4846 2,49 2,17 0,4850 2,50 2,18 0,4854 2,51 2,19 0,4857 2,52 2,20 0,4861 2,53 2,21 0,4864 2,54 2,22 0,4868 2,55 2,23 0,4871 2,56 2,24 0,4875 2,57 2,25 0,4878 2,58 2,26 0,4881 2,59 2,27 0,4884 2,60 2,28 0,4887 2,61 2,29 0,4890 2,62 2,30 0,4893 2,63 2,31 0,4896 2,64 2,32 0,4898 2,65 2,33 0,4901 2,66 2,34 0,4904 2,67 2,35 0,4906 2,68 2,36 0,4909 2,69 Ф(x) 0,4911 0,4913 0,4916 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964 142 x 2,70 2,71 2,72 2,73 2,74 2,75 2,76 2,77 2,78 2,79 2,80 2,81 2,82 2,83 2,84 2,85 2,86 2,87 2,88 2,89 2,90 2,91 2,92 2,93 2,94 2,95 2,96 2,97 2,98 2,99 3,00 3,01 3,02 Ф(x) 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986 0,4987 0,4987 0,4987 x 3,03 3,04 3,05 3,06 3,07 3,08 3,09 3,10 3,11 3,12 3,13 3,14 3,15 3,16 3,17 3,18 3,19 3,20 3,21 3,22 3,23 3,24 3,25 3,26 3,27 3,28 3,29 3,30 3,31 3,32 3,33 3,34 3,35 Ф(x) 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990 0,4990 0,4991 0,4991 0,4991 0,4992 0,4992 0,4992 0,4992 0,4993 0,4993 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995 0,4995 0,4995 0,4995 0,4996 0,4996 0,4996 Окончание табл. П2 x Ф(x) 3,36 0,4996 3,37 0,4996 3,38 0,4996 3,39 0,4997 3,40 0,4997 3,41 0,4997 3,42 0,4997 3,43 0,4997 3,44 0,4997 3,45 0,4997 3,46 0,4997 3,47 0,4997 3,48 0,4997 3,49 0,4998 3,50 0,4998 F-распределение Фишера–Снедекора x 3,51 3,52 3,53 3,54 3,55 3,56 3,57 3,58 3,59 3,60 3,61 3,62 3,63 3,64 3,65 Ф(x) 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 x 3,66 3,67 3,68 3,69 3,70 3,71 3,72 3,73 3,74 3,75 3,76 3,77 3,78 3,79 3,80 Ф(x) 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 x 3,81 3,82 3,83 3,84 3,85 3,86 3,87 3,88 3,89 3,90 3,91 3,92 3,93 3,94 3,95 Ф(x) 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 Рис. П3. Плотности распределения Фишера–Снедекора с параметрами k1=5, k2=10 и с параметрами k1=15, k2=30 Уровень значимости α = 0,01 (k1– число степеней свободы распределения с большей дисперсией, k2– число степеней свободы распределения с меньшей дисперсией) Таблица П3. Квантили распределения Фишера–Снедекора при α = 0,01 k2 5 7 9 10 11 12 13 14 15 16 17 18 19 143 k1 3 12,06 8,451 6,992 6,552 6,217 5,953 5,739 5,564 5,417 5,292 5,185 5,092 5,010 5 10,96 7,460 6,057 5,636 5,316 5,064 4,862 4,695 4,556 4,437 4,336 4,248 4,171 7 10,45 6,993 5,613 5,200 4,886 4,640 4,441 4,278 4,142 4,026 3,927 3,841 3,765 9 10,15 6,719 5,351 4,942 4,632 4,388 4,191 4,030 3,895 3,780 3,682 3,597 3,523 144 11 9,963 6,538 5,178 4,772 4,462 4,220 4,025 3,864 3,730 3,616 3,519 3,434 3,360 13 9,825 6,410 5,055 4,650 4,342 4,100 3,905 3,745 3,612 3,498 3,401 3,316 3,242 15 9,722 6,314 4,962 4,558 4,251 4,010 3,815 3,656 3,522 3,409 3,312 3,227 3,153 17 9,643 6,240 4,890 4,487 4,180 3,939 3,745 3,586 3,452 3,339 3,242 3,158 3,084 19 9,580 6,181 4,833 4,430 4,123 3,883 3,689 3,529 3,396 3,283 3,186 3,101 3,027 Окончание табл. П3 k2 20 21 22 23 24 25 Окончание табл. П4 k1 3 4,938 4,874 4,817 4,765 4,718 4,675 5 4,103 4,042 3,988 3,939 3,895 3,855 7 3,699 3,640 3,587 3,539 3,496 3,457 9 3,457 3,398 3,346 3,299 3,256 3,217 11 3,294 3,236 3,184 3,137 3,094 3,056 13 3,177 3,119 3,067 3,020 2,977 2,939 15 3,088 3,030 2,978 2,931 2,889 2,850 17 3,018 2,960 2,908 2,861 2,819 2,780 19 2,962 2,904 2,852 2,805 2,762 2,724 Уровень значимости α = 0,025 (k1– число степеней свободы распределения с большей дисперсией, k2– число степеней свободы распределения с меньшей дисперсией) Таблица П4. Квантили распределения Фишера–Снедекора при α = 0,025 k2 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 k1 3 7,764 6,599 5,890 5,416 5,078 4,826 4,630 4,474 4,347 4,242 4,153 4,077 4,011 3,954 3,903 3,859 3,819 3,783 5 7,146 5,988 5,285 4,817 4,484 4,236 4,044 3,891 3,767 3,663 3,576 3,502 3,438 3,382 3,333 3,289 3,250 3,215 7 6,853 5,695 4,995 4,529 4,197 3,950 3,759 3,607 3,483 3,380 3,293 3,219 3,156 3,100 3,051 3,007 2,969 2,934 9 6,681 5,523 4,823 4,357 4,026 3,779 3,588 3,436 3,312 3,209 3,123 3,049 2,985 2,929 2,880 2,837 2,798 2,763 11 6,568 5,410 4,709 4,243 3,912 3,665 3,474 3,321 3,197 3,095 3,008 2,934 2,870 2,814 2,765 2,721 2,682 2,647 145 13 6,488 5,329 4,628 4,162 3,831 3,583 3,392 3,239 3,115 3,012 2,925 2,851 2,786 2,730 2,681 2,637 2,598 2,563 15 6,428 5,269 4,568 4,101 3,769 3,522 3,330 3,177 3,053 2,949 2,862 2,788 2,723 2,667 2,617 2,573 2,534 2,498 17 6,381 5,222 4,521 4,054 3,722 3,474 3,282 3,129 3,004 2,900 2,813 2,738 2,673 2,617 2,567 2,523 2,483 2,448 19 6,344 5,184 4,483 4,016 3,683 3,435 3,243 3,090 2,965 2,861 2,773 2,698 2,633 2,576 2,526 2,482 2,442 2,407 k2 23 24 25 k1 3 3,750 3,721 3,694 5 3,183 3,155 3,129 7 2,902 2,874 2,848 9 2,731 2,703 2,677 11 2,615 2,586 2,560 13 2,531 2,502 2,476 15 2,466 2,437 2,411 17 2,416 2,386 2,360 19 2,374 2,345 2,318 Уровень значимости α = 0,05 (k1– число степеней свободы распределения с большей дисперсией, k2– число степеней свободы распределения с меньшей дисперсией) Таблица П5. Квантили распределения Фишера–Снедекора при α = 0,05 k2 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 k1 3 5,409 4,757 4,347 4,066 3,863 3,708 3,587 3,490 3,411 3,344 3,287 3,239 3,197 3,160 3,127 3,098 3,072 3,049 3,028 3,009 2,991 5 5,050 4,387 3,972 3,687 3,482 3,326 3,204 3,106 3,025 2,958 2,901 2,852 2,810 2,773 2,740 2,711 2,685 2,661 2,640 2,621 2,603 7 4,876 4,207 3,787 3,500 3,293 3,135 3,012 2,913 2,832 2,764 2,707 2,657 2,614 2,577 2,544 2,514 2,488 2,464 2,442 2,423 2,405 9 4,772 4,099 3,677 3,388 3,179 3,020 2,896 2,796 2,714 2,646 2,588 2,538 2,494 2,456 2,423 2,393 2,366 2,342 2,320 2,300 2,282 146 11 4,704 4,027 3,603 3,313 3,102 2,943 2,818 2,717 2,635 2,565 2,507 2,456 2,413 2,374 2,340 2,310 2,283 2,259 2,236 2,216 2,198 13 4,655 3,976 3,550 3,259 3,048 2,887 2,761 2,660 2,577 2,507 2,448 2,397 2,353 2,314 2,280 2,250 2,222 2,198 2,175 2,155 2,136 15 4,619 3,938 3,511 3,218 3,006 2,845 2,719 2,617 2,533 2,463 2,403 2,352 2,308 2,269 2,234 2,203 2,176 2,151 2,128 2,108 2,089 17 4,590 3,908 3,480 3,187 2,974 2,812 2,685 2,583 2,499 2,428 2,368 2,317 2,272 2,233 2,198 2,167 2,139 2,114 2,091 2,070 2,051 19 4,568 3,884 3,455 3,161 2,948 2,785 2,658 2,555 2,471 2,400 2,340 2,288 2,243 2,203 2,168 2,137 2,109 2,084 2,061 2,040 2,021 Распределение χ2 Окончание табл. П6 Правые критические точки ( k – число степеней свободы распределения) Рис. П4. Плотности распределения k χ2 с параметрами k = 5, k = 15, k = 30 Таблица П6. Квантили распределения χ 2 Правые критические точки Уровень значимости α k 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Левые критические точки 0,01 6,635 9,210 11,345 13,277 15,086 16,812 18,475 20,090 21,666 23,209 24,725 26,217 27,688 29,141 0,025 14,449 19,023 21,920 24,736 27,488 28,845 31,526 34,170 35,479 38,076 39,364 41,923 43,195 45,722 0,05 23,685 30,144 32,671 36,415 40,113 41,337 44,985 48,602 49,802 53,384 54,572 56,942 59,304 61,656 147 0,95 13,091 18,493 20,072 23,269 26,509 27,326 29,787 33,098 33,930 37,276 38,116 39,801 42,339 44,038 0,975 5,009 8,231 9,591 11,689 13,844 14,573 16,047 19,047 19,047 22,106 22,878 23,654 25,999 27,575 0,99 0,554 1,646 2,088 3,053 4,107 4,660 5,812 7,633 7,633 9,542 9,542 10,196 11,524 12,879 15 16 17 18 19 20 21 22 23 24 25 26 27 65 70 75 80 85 90 95 100 105 110 115 120 125 130 135 140 145 150 Левые критические точки Уровень значимости α 0,01 30,578 32,000 33,409 34,805 36,191 37,566 38,932 40,289 41,638 42,980 44,314 45,642 46,963 94,422 100,43 106,39 112,33 118,24 124,12 129,97 135,81 141,62 147,41 153,19 158,95 164,69 170,42 176,14 181,84 187,53 193,21 0,025 46,979 48,232 50,725 51,966 54,437 55,668 56,896 59,342 60,561 61,777 64,201 65,410 66,617 122,72 129,56 136,38 143,18 149,96 156,71 162,33 169,06 175,76 182,46 189,14 194,70 201,35 208,00 214,63 220,15 226,76 233,37 0,05 62,830 65,171 67,505 68,669 72,153 73,311 74,468 77,931 79,082 80,232 83,675 84,821 85,965 148,78 156,51 164,22 171,91 178,49 186,15 192,70 200,33 206,87 214,48 222,08 227,50 235,08 241,57 249,13 255,60 262,07 269,61 148 0,95 44,889 47,450 49,162 50,020 53,462 54,325 55,189 57,786 59,522 60,391 63,004 63,876 64,749 120,88 128,13 135,39 141,76 148,14 155,45 160,94 168,28 173,79 181,15 188,51 193,13 200,51 206,06 213,47 219,03 225,52 232,02 0,975 27,575 29,956 31,555 32,357 34,776 35,586 36,398 38,027 39,662 40,482 42,950 42,950 43,776 91,573 98,576 104,73 110,02 116,21 122,42 126,87 134,00 138,47 145,64 151,92 156,42 162,73 168,14 174,47 179,91 185,35 191,71 0,99 12,879 14,256 15,655 16,362 17,789 18,509 19,233 20,691 21,426 22,164 23,650 23,650 24,398 62,581 68,396 73,413 78,458 83,529 88,624 92,033 98,878 102,31 108,35 113,53 117,87 123,09 128,32 133,56 137,94 143,21 148,49 t-распределение Стьюдента Окончание табл. П7 ( k – число степеней свободы распределения) k Рисунок П5. Плотности распределения Стьюдента с параметрами k = 5 и k = 50 Таблица П7. Квантили распределения Стьюдента Уровень значимости α k 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 0,001 31,60 12,92 8,610 6,869 5,959 5,408 5,041 4,781 4,587 4,437 4,318 4,221 4,140 4,073 4,015 3,965 0,01 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 0,02 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602 2,583 2,567 149 0,025 6,205 4,177 3,495 3,163 2,969 2,841 2,752 2,685 2,634 2,593 2,560 2,533 2,510 2,490 2,473 2,458 0,05 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2,120 2,110 0,1 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 18 19 20 21 22 23 24 25 26 27 28 29 30 80 85 90 95 100 105 110 115 120 125 130 135 140 145 150 155 160 165 170 0,001 3,922 3,883 3,850 3,819 3,792 3,768 3,745 3,725 3,707 3,690 3,674 3,659 3,650 3,416 3,409 3,402 3,396 3,390 3,386 3,381 3,377 3,373 3,370 3,367 3,364 3,361 3,359 3,357 3,354 3,352 3,350 3,349 Уровень значимости 0,01 0,02 0,025 2,878 2,552 2,445 2,861 2,539 2,433 2,845 2,528 2,423 2,831 2,518 2,414 2,819 2,508 2,405 2,807 2,500 2,398 2,797 2,492 2,391 2,787 2,485 2,385 2,779 2,479 2,379 2,771 2,473 2,373 2,763 2,467 2,368 2,756 2,462 2,364 2,750 2,460 2,360 2,639 2,374 2,284 2,635 2,371 2,282 2,632 2,368 2,280 2,629 2,366 2,277 2,626 2,364 2,276 2,623 2,362 2,274 2,621 2,361 2,272 2,619 2,359 2,271 2,617 2,358 2,270 2,616 2,357 2,269 2,614 2,355 2,268 2,613 2,354 2,267 2,611 2,353 2,266 2,610 2,352 2,265 2,609 2,351 2,264 2,608 2,351 2,263 2,607 2,350 2,263 2,606 2,349 2,262 2,605 2,348 2,261 150 α 0,05 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 2,040 1,990 1,988 1,987 1,985 1,984 1,983 1,982 1,981 1,980 1,979 1,978 1,978 1,977 1,976 1,976 1,975 1,975 1,974 1,974 0,1 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697 1,664 1,663 1,662 1,661 1,660 1,659 1,659 1,658 1,658 1,657 1,657 1,656 1,656 1,655 1,655 1,655 1,654 1,654 1,654 История возникновения распределения Стьюдента В двадцатом веке величайший вклад в развитие статистики внес Уильям Сили Госсет (William Sealy Gosset). Он ввел понятие статистической значимости, разработал систему промышленного контроля качества и метод эффективного планирования экспериментов, а также изобрел метод последовательной проверки качества пива. Поскольку Госсет публиковал свои работы под псевдонимом Студент (Student), его настоящее имя не так широко известно. Уильям Госсет окончил университет в Оксфорде, где изучал математику и химию. В 1899 году Госсет поступил на работу на пивоваренный завод компании «Гиннесс» (Guinness) в Дублине, где и проработал до конца своей жизни, и поэтому все выдающиеся инновации, привнесенные им в статистику, напрямую связаны с его основной профессиональной деятельностью — пивоварением. Когда Госсет начинал работать в компании «Гиннесс», она была уже крупнейшей в мире и была ориентирована на использование новейших достижений науки для улучшения выпускаемой продукции. На рубеже девятнадцатого и двадцатого веков Госсет был назначен в состав команды исследователей, искавших ответ на вопрос: как компания может увеличить производство пива, сохранив ожидаемое потребителями привычно хорошее качество продукции и минимизировав затраты? В производственных масштабах старые методы отбора сырья на основе качественных критериев — внешнего вида и аромата — оказались неэкономными и неточными. Необходимо было усовершенствовать процесс отбора сырья для пивоварения. Но как интерпретировать полученные по небольшим выборкам результаты на всю совокупность образцов, никто не знал. В то время теории, позволявшей делать выводы по результатам тестирования небольшой выборки образцов, не существовало. Цель Госсета была понять, насколько увеличивается погрешность измерения в случае, когда у вас есть маленькая выборка из 2 или 10 образцов по сравнению с выборкой в 1000 образцов? За год работы Госсет разработал математическое обоснование «закона ошибок» для малых статистических выборок. Сегодня его открытие известно как t - распределение Стьюдента. После завершения работы над математическим аппаратом t - распределения Госсет решил сделать свою работу доступной широкой общественности, однако это желание вошло в противоречие с интересами его работодателя. Компромисс был найден: для того чтобы не потерять преимущества над конкурентами, которое обеспечивает ему метод контроля качества, «Гиннесс» позволил публиковать Госсету свои работы только при использовании псевдонима. 151 СОДЕРЖАНИЕ Предисловие……………...………………………………………….. I. Тематическое планирование и краткое содержание разделов II. План проведения практических занятий, лабораторных работ и контроля самостоятельной работы…………………….…. III. Формы промежуточного и итогового контроля ……………... IV. Списки литературы……………………….…….…………….... V. Вопросы к зачету…………………………..…………………… VI. Материалы для самостоятельной работы студентов………… Тема 1. Основные определения теории вероятностей. Комбинаторика………………….……...………………………...... Задачи………………………………………….…………………….. Тема 2. Условная вероятность, теорема умножения вероятностей, формула полной вероятности, формула Байеса................................................................................................... Задачи…………………………………………….…………………. Тема 3. Формула Бернулли, формула Пуассона, локальная и интегральная формулы Муавра–Лапласа……………………... Задачи………………………………………………………………… Тема 4. Дискретные и непрерывные случайные величины…. Задачи………………………………………………………………… Тема 5. Двумерные случайные величины, корреляция. Выборка, нахождение выборочных характеристик…………... Задачи………………………………………………………………… Тема 6. Проверка статистических гипотез…………………....... Задачи………………………………………………………………… VII. Лабораторные работы………………………….……………..... Лабораторные работы № 3– 4. Изучение типовых распределений Лабораторная работа № 5. Описательная статистика…………….. Лабораторная работа № 6. Двумерные случайные величины. Теория корреляций. ЦПТ. Проверка статистических гипотез…… Лабораторная работа № 7. Статистическая обработка результатов эксперимента ……………………………………….… Приложение…………...……………………………………………. 152 3 4 4 6 7 8 9 9 13 17 20 25 28 32 45 51 71 78 98 105 106 117 123 127 136

Теория вероятностей: Учебно-методическое пособие

Related documents

Products

Support

Теория вероятностей: Учебно-методическое пособие

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib