Uploaded by sergei

probability-statistics-notes

advertisement
Конспект по теории вероятностей и математической
статистике
Сергей Столяров
15 января 2019 г.
Содержание
1
Предисловие
1
2
Случайность и вероятность
2.1 Случайный эксперимент . .
2.2 События . . . . . . . . . . .
2.3 Классическая вероятность .
2.4 Теоретическая вероятность .
2.5 Частотная вероятность . . .
2.6 Геометрическая вероятность
.
.
.
.
.
.
3
3
4
6
8
8
9
.
.
.
.
.
.
.
.
.
11
11
11
12
13
15
19
20
20
21
3
4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Случайные величины
3.1 Мера, измеримое пространство, измеримое отображение
3.2 Случайная величина . . . . . . . . . . . . . . . . . . . . .
3.3 Функция распределения . . . . . . . . . . . . . . . . . . .
3.4 Дискретное распределение . . . . . . . . . . . . . . . . .
3.5 Непрерывное распределение и его плотность . . . . . . .
3.6 Смешанные распределения . . . . . . . . . . . . . . . . .
3.7 Функции от случайной величины . . . . . . . . . . . . .
3.8 Сумма случайных величин . . . . . . . . . . . . . . . . .
3.9 Характеристики распределения случайной величины . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Упражнения 2
23
Список литературы
24
1
Предисловие
Конспект к несуществующему прикладному курсу по теории вероятностей и математической статистике. Это не учебник, а персональные заметки к попытками переосмысления университетского курса с
использованием англоязычной терминологии. Этот текст— математический, поэтому в тексте будет много
формул и стандартной нотации из высшей математики. Я не гарантирую корректность всего здесь изложенного, это лишь конспект, созданный на основе изучения учебников (их список в конце) и википедии.
Чтобы осознать написанное, вы должны уже знать, что такое множество
P (set), список (list), чем список
отличается от множества, понимать базовую математическую нотацию ( , lim, ∩, ∪ и так далее).
1
Я не ставлю перед собой цель написать полноценный учебник, поэтому в тексте будет только самая
базовая информация без сложных формул, теорем и доказательств. Я планирую активно использовать англоязычную терминологию вперемешку с русскоязычной.
Также конспект на данный момент не закончен и будет активно обновляться и переписываться.
Некоторые части выделены цветом.
Определение 1. Определение вводит новую сущность в контекст, выделяется чёрной полоской слева.
Все эти блоки имеют сквозную нумерацию и на них периодически встречаются перекрёстные ссылки.
Утверждение. Обычно это лемма, теорема или прочее утверждение, иногда сопровождающееся доказательством. Утверждения выделены зелёной полоской слева от блока.
Задача. Блок с задачей содержит формулировку и подробное решение. Выделяется оранжевой линией.
Решение. А здесь решение.
Пример. Иллюстрация или демонстрация только что приведённого определения, пример выделяется
синей полоской слева.
Исходный код документа доступен на гитхабе1 . Скомпилированная, но не самая свежая версия в виде
PDF-документа доступна на Google Drive2 .
Все вопросы и предложения можно слать на мой email: sergei@regolit.com.
1
2
https://github.com/sigsergv/probability-statistics-notes
https://drive.google.com/file/d/1DuGrXNq8B8_x6-pvKXWWUFdKxI_bkiNd/view
2
2
Случайность и вероятность
— Какова вероятность встретить динозавра на улице?
— 50% — либо встретишь, либо нет.
Старая шутка
Ложь, большая ложь и статистика.
Леонард Кортни
2.1
Случайный эксперимент
Мы каждый день сталкиваемся с вероятностными событиями: пробки на дорогах, прогноз погоды,
солнечная активность и так далее. Если бы я писал книгу, то дальше бы шёл стандартный булшит на пару
страниц с соплями. Но обойдёмся без воды и сразу перейдём к делу.
Возьмём идеальную игральную кость — кубик3 , каждая из шести граней которого пронумерована разным количеством точек: , , , , , . При каждом броске на стол идеальный кубик после серии
вращений и прыжков останавливается, при этом наверху оказывается одна из граней, число (то есть количество точек) на которой считается результатом броска. Результат каждого броска никак не зависит от
предыдущих и никак не влияет на последующие. Бросать кубик можно сколько угодно раз.
Эксперимент с кубиком можно обобщить до эксперимента в математическом смысле4 .
Определение 2. Экспериментом (experiment) называется набор действий со следующими свойствами:
• можно выполнить любое количество раз;
• должен завершиться с конкретным случайным результатом;
• результат должен быть один и только один;
• все возможные результаты являются взаимоисключающими.
Результат эксперимента называется исходом5 (outcome) и обозначается греческой буквой ω (оме́га, с
ударением на е). Все возможные исходы эксперимента образуют множество с названием пространство
исходов6 (sample space), обозначается прописной греческой буквой Ω (тоже оме́га).
Для идеального кубика простейшим экспериментом является один бросок, пространство исходов —
и так далее.
множество Ω = {ω1 , ω1 , ω3 , ω4 , ω5 , ω6 }, где ω1 означает выпадение , ω2 — выпадение
Результаты броска принято обозначать числами от 1 до 6.
Другой пример: бросок кубика три раза. Обратите внимание, три броска — это один эксперимент. После
трёх бросков у нас есть тройка чисел (скажем, (1, 1, 3)) — это и есть исход, в данном случае на первом
броске выпало , на втором тоже , а на третьем — . Это не просто три числа, они упорядочены, то есть
исход ω1 = (1, 1, 3) отличается от исхода ω2 = (3, 1, 1). Легко посчитать, что количество всех возможных
исходов такого эксперимента 6 · 6 · 6 = 216. Пространство исходов целиком здесь описывать нет смысла,
в сокращённой форме его можно представить так: Ω = {(1, 1, 1), (1, 1, 2), . . . , (6, 6, 6)}.
3
Игральная кость по-английски dice
Эксперимент, он же опыт, он же испытание, он же случайный эксперимент — это всё синонимы.
5
В русскоязычной терминологии принято также название элементарный исход.
6
Оно же пространство элементарных исходов.
4
3
Понятие эксперимента несколько шире, чем может показаться из определения и примеров выше. Это
не обязательно действие, очень часто экспериментом является наблюдение за чем-то, что от наблюдателя
не зависит. Например, исследование заполняемости самолёта, то есть, сколько мест из имеющихся занято
в каждом рейсе. Каждый элементарный исход такого «эксперимента» — это число от 0 до N , где N —
общее количество мест в самолёте.
2.2
События
Определение 3. Событием (event) A называется подмножество (subset) пространства элементарных
исходов:
A⊆Ω
Если A — событие, ω — исход эксперимента/испытания и ω ∈ A, то говорится, что в испытании
произошло событие A (event A have occured). Событие, состоящее из одного исхода, называется элементарным событием (elementary event). События принято обозначать заглавными буквами: A, B, C, . . ..
Событие также называют случайным событием (random event).
Так как события являются множествами, к ним применимы стандартные приёмы из теории множеств.
Если A и B — это два события, то можно из них сконструировать:
• пересечение событий (intersection of events) A ∩ B (иногда пишется как AB и называется произведением событий);
• объединение событий (union of events) A ∪ B (иногда пишется как A + B и называется суммой событий);
• разность событий (difference of events) A \ B (иногда пишется как A − B).
Часто для демонстрации этих свойств используются диаграммы Эйлера-Венна (пересекающиеся овалы), но я предполагаю, что вы уже знакомы с элементарной теорией множеств и подобные картинки не
нужны.
Множество X \ A также называют дополнением (complement) A до X.
Определение 4 (Непересекающиеся множества (disjoint sets)). Два множества A и B называются непересекающимися (disjoint), если их пересечение равно пустому множеству: A ∩ B = ∅.
Также говорится, что множества A и B не пересекаются (A and B are disjoint). Ещё используется
выражение множества A и B дизъюнктны.
Следствия из этого определения:
• пустое множество ∅ не пересекается с любым множеством, так как A ∩ ∅ = ∅;
• пустое множество не пересекается с самим собой: ∅ ∩ ∅ = ∅.
Определение 5 (Взаимно непересекающиеся множества (mutually disjoint sets)). Семейство множеств
A называется дизюнктным семейством (disjoint family of sets), если любые два множества из A не пересекаются.
Синонимы: множества попарно не пересекаются (pairwise disjoint), множества взаимно не пересекаются (mutually disjoint), семейство множеств попарно дизъюнктно.
4
Очевидное следствие: в дизъюнктное семейство можно добавить любое количество пустых множеств
и оно останется дизъюнктным.
Определение 6. событие A называется противоположным событием (complementary event) к A, если
выполняется:
A=Ω\A
Другими словами A — это событие, которое происходит, когда не происходит событие A. В любом
эксперименте происходит либо событие A, либо A.
Определение 7. События A и B называются несовместными (mutually exclusive или disjoint), если выполняется условие:
A∩B =∅
Другими словами, события A и B не могут произойти в одном эксперименте в принципе.
Определение 8. Аналогично события A и B называются совместными (non-disjoint), если выполняется
условие:
A ∩ B ̸= ∅
Другими словами, события A и B могут произойти в одном эксперименте.
Несколько элементарных свойств:
• противоположные события являются несовместными, но несовместные не обязательно являются
противоположными;
• два любых разных элементарных события несовместны;
• событие Ω (то есть всё sample space) является совместным с любым непустым событием, событие
Ω всегда происходит и называется достоверным (certain event);
• событие ∅ является несовместным с любым, оно называется невозможным (impossible).
Пример. Игральная кость. Эксперимент: бросаем кость три раза подряд. Событие: выпадение ровно
двух четвёрок.
Выше мы уже выяснили, что в таком эксперименте sample space состоит из 6·6·6 = 216 элементарных
исходов. Нас интересуют только те из них, где выпало ровно две четвёрки. В это множество входят
следущие элементарные исходы:
• (4, 4, x), где x — это 1, 2, 3, 5, 6, то есть все грани без четвёрки, их всего пять штук;
• (4, x, 4), аналогично пять штук;
• (x, 4, 4), тоже пять штук.
Всего получаем 15 элементарных исходов в нашем множестве-событии.
5
Пример. Игральная кость. Эксперимент: бросаем кость один раз. Событие A: выпадает чётное количество очков. Событие B: выпадает нечётное количество очков. Событие C: выпадает количество очков,
меньше или равное четырём.
Пространство элементарных исходов (sample space) для этого эксперимента состоит из шести элементов: Ω = {ω1 , ω2 , ω3 , ω4 , ω5 , ω6 }; ωi означает, что выпало количество очков i. Тогда указанные выше
события выглядят так:
A = {ω2 , ω4 , ω6 }
B = {ω1 , ω3 , ω5 }
C = {ω1 , ω2 , ω3 , ω4 }
Для событий A, B, C справедливы следующие утверждения:
• AB = A ∩ B = ∅, то есть A и B несовместны (disjoint events);
• AC = A ∩ C = {ω2 , ω4 , ω6 } ∩ {ω1 , ω2 , ω3 , ω4 } = {ω2 , ω4 }, то есть A и C совместны, аналогично B
и C (non-disjoint events);
• A = Ω \ A = B, то есть A является противоположным (complementary) событием к B;
• B = Ω \ B = A, и наоборот.
2.3
Классическая вероятность
Интуитивно кажется понятным, что все элементарные исходы определённых экспериментов равновероятны. Например, при однократном броске кубика шанс выпадения каждого из очков один и тот же.
То есть вероятность каждого элементарного исхода равна 1/6. Можно ввести специальную функцию —
вероятность (probability function)7 , исторически её принято обозначать через латинскую заглавную P .
Теперь мы готовы определить формальную модель классической вероятности.
Определение 9 (Классическая вероятность (Classical Probability)). Пусть задано конечное пространство
элементарных исходов Ω:
Ω = {ω1 , ω2 , . . . , ωN }.
Множеством всех событий Ω является множество всех подмножеств, которое обозначается как 2Ω .
Все исходы равновероятны, а соответствующие им элементарные события {ωi } несовместны. Определим функцию P : 2Ω → R через значения на элементарных событиях {ωi }:
P ({ω1 }) = P ({ω2 }) = . . . = P ({ωN }) =
1
1
= .
|Ω|
N
Тогда значение P на произвольном событии A ⊆ Ω определяется формулой:
P (A) =
|A|
|A|
=
.
|Ω|
N
7
я специально не использую термин функция вероятности, поскольку в русскоязычной терминологии он обозначает другую
сущность и об этом мы поговорим позднее. При этом в англоязычной терминологии используется термин со словом function
6
Здесь |X| означает мощность множества X. Иногда также используется обозначение #(X)
Функция P называется вероятностью. Обратите внимание, что вероятность определена на событиях, а не конкретных элементарных исходах!
Помимо классической вероятности, где все элементарные исходы равновероятны, существуют другие
типы, о которых мы поговорим ниже. Классическая вероятность является частным случаем «теоретической», когда вероятности элементарных исходов установлены или заданы до начала эксперимента.
Очевидные свойства вероятности:
• для любого события A значение вероятности лежит между нулём и единицей: 0 ≤ P (A) ≤ 1;
• вероятность достоверного события равна единице: P (Ω) = 1;
• вероятность невозможного события равна нулю: P (∅) = 0.
Пример. Игральная кость. Эксперимент: бросаем кость три раза подряд. Событие A: выпадение ровно
двух четвёрок. Найти P (A).
Выше мы построили множество исходов для события A, его мощность равна 15, поэтому P (A) =
15/216 = 5/72 ≈ 0, 0694.
Пример. Сколько раз нужно бросить монету, чтобы вероятность выпадения headsa была не менее 0,9?
Уточним условия эксперимента: идеальная монета бросается N раз, искомым событием является
«выпадение орла хотя бы один раз», найти N так, чтобы P (A) ≥ 0, 9.
Sample space эксперимента является множество списков (c1 , . . . , cN ), где ci ∈ {h, t}, всего в Ω элементарных исходов 2N . Нам нужно выбрать из них только те, где хотя бы на одной позиции стоит h.
Очевидно, что таких списков (2N − 1), так как существует ровно один список, где на всех позициях
стоит t, а всего списков 2N . Поэтому мы получаем такое неравенство и сразу упрощаем его:
P (A) =
2N − 1
2N
1
1− N
2
1
10
2N
≥ 0, 9
≥ 0, 9
1
2N
≥ 10.
≥
Отсюда следует, что при N ≥ 4 вероятность выпадения хотя бы одного heads будет больше 0,9.
a
Я буду пользоваться традиционными для англоязычной культуры названиями сторон монеты: heads и tails, сокращённо
h и t.
Пример (Формула Пуанкаре). Из теории множеств известно следующее утверждение:
|A ∪ B| = |A| + |B| − |A ∩ B|.
Оно очевидным образом переносится на классическую вероятность:
P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
7
Справедливость этой формулы можно доказать и для теоретической вероятности, используя определение через сумму значений P (ω) на ω ∈ Ω.
Вообще, данная формула является частным случаем так называемого принципа включений-исключений
(Inclusion–exclusion principle).
Пример. Справедливо следующее утверждение для разности множеств: |A \ B| = |A| − |A ∩ B|, из него
автоматически следует выражение для вероятности: P (A \ B) = P (A) − P (A ∩ B).
В частности, P (Ω \ A) = P (Ω) − P (Ω ∩ A). А из определения противоположного (complementary)
события следует: P (A) = 1 − P (A).
2.4
Теоретическая вероятность
В определении классической вероятности (Определение 9) подразумевается, что вероятность каждого
элементарного исхода одинакова и равна 1/|Ω|. Условие равновероятности и конечности Ω можно убрать
и мы получим следующее более общее определение:
Определение 10 (Теоретическая вероятность (Theoretical Probability)). Пусть задано конечное или счётное множество Ω — пространство элементарных исходов. Для каждого элемента ω ∈ Ω задано значение
вероятности P (ω), при этом выполняется условие:
X
P (ω) = 1
ω∈Ω
Тогда значение вероятности на произвольном событии A ⊆ Ω задаётся формулой:
X
P (A) =
P (ω)
ω∈A
Для такого определения выполняются всё те же свойства:
• 0 ≤ P (A) ≤ 1;
• P (Ω) = 1;
• P (∅) = 0.
2.5
Частотная вероятность
В некоторых ситуациях вероятность элементарных исходов определить невозможно, в этом случае эти
значения находятся через многократные повторения эксперимента, при этом предполагается, что все условия наблюдений одинаковые и каждый раз эксперимент происходит по одним и тем же правилам.
Рассмотрим уже упомянутый выше пример с самолётом и наблюдениями над заполненностью его рейсов. Для простоты будем считать, что мест всего пять, тогда наше пространство исходов будет состоять
из шести чисел: {0, 1, 2, 3, 4, 5}, то есть «самолёт летел порожняком», «рейс состоял из одного человека»
и так далее. Вероятность каждого исхода до начала наблюдений неизвестна, допустим, мы пронаблюдали
за тысячей рейсов и собрали вот такую статистику по рейсам:
8
количество занятых мест
0
1
2
3
4
5
количество рейсов
4
15
80
510
291
100
По этой таблице мы можем вычислить частоту (frequency) каждого элементарного исхода, для этого
поделим соответствующее количество рейсов на общее количество наблюдений (1000). Получим вот такую
таблицу со значениями частот F (ω):
количество занятых мест (ω)
наблюдений
F (ω)
0
4
1
15
2
80
3
510
4
291
5
100
4
1000
15
1000
80
1000
510
1000
291
1000
100
1000
Если опыт хорошо исследован, а каждое наблюдение однородно и независимо, то значения F (ω) при
увеличении количества наблюдений будут сходиться к частотной вероятности (Frequentist probability).
Формальное определение вероятности в такой формулировке ниже.
Определение 11 (Частотная вероятность (Frequentist Probability)). Пусть задано конечное или счётное
множество Ω — пространство элементарных исходов случайного эксперимента, опыта или наблюдения.
Также задано событие A ⊆ Ω, исход каждого опыта однозначно определяет, произошло событие A или
нет.
Для каждого количества проведённых экспериментов, которое обозначим через n, определено значение Fn (A) — сколько раз произошло событие A за n экспериментов. Тогда частотная вероятность
события A определяется формулой:
P (A) = lim
n→∞
2.6
Fn (A)
.
n
Геометрическая вероятность
Рассмотрим такую задачу: в квадрат со стороной d вписан круг диаметром тоже d. В квадрат случайным
образом бросается точка, какова вероятность попадания точки в круг?
Ранее мы имели дело только с дискретными моделями, в которых количество исходов максимум счётно,
однако в описанной задаче эти модели не годятся. Но мы можем по аналогии построить модель, основываясь на понятии площади. Будем считать квадрат пространством элементарных исходов (Ω), а вписанный
круг — событием A.
И тогда вероятность события A: P (A) = SA /SΩ , где SA и SΩ — площади круга и квадрата соответственно, в нашем случае P (A) = π(d/2)2 /d2 = π/4 ≈ 0.785398.
Определение 12 (Геометрическая вероятность (geometric probability)). Пусть Ω — ограниченное измеримое подмножество Rn , имеющее (лебеговуa ) меру mesΩ > 0. Тогда для любого измеримого A ⊆ Ω
зададим геометрическую вероятность:
P (A) =
9
mesA
mesΩ
a
частично понятие меры я раскрываю позднее в этой статье
На R (вещественной прямой) мы будем иметь дело с длинами отрезков, в R2 — площадью, а в R3 —
объёмом.
Таким образом, мы дали формальное определение вероятности (и даже несколько раз), «отвязав» его
от наивного бытового понимания. Вероятность не существует сама по себе, а привязана к формально описанному эксперименту, пространству элементарных исходов и случайному событию. Только когда все
три этих элемента присутствуют в одном контексте, можно уверенно оценивать вероятность.
Вот базовые шаги, которые всегда должны присутствовать при оценке:
1. сформулируйте условия эксперимента;
2. определите пространство элементарных исходов (outcomes, sample space) этого эксперимента;
3. выделите подмножество в этом пространстве (event), которое описывает событие (при этом активно
используются методы из комбинаторики).
Ошибка на любом из этапов приведёт к неправильному ответу, при этом формулировка условий эксперимента и выделение подмножества, соответствующего событию, — пожалуй, самые сложные задачи. При
этом ответ на заданный вопрос также требует понимания всей этой цепочки: эксперимент — пространство
исходов — событие- подмножество.
Бытовой «наивный» вопрос о вероятности некоего события можно окружить такими условиями, что
ответы будут самыми разными. Например, вопрос: «Какова вероятность того, что при подбрасывании монеты два раза подряд выпадет heads?» не имеет смысла и вообще в такой формулировке не может быть
выражен на языке теории вероятностей. Уже первый шаг — формулировка условий эксперимента — вызывает затруднения. Сколько раз бросать монету? От количества бросков зависит ответ, причём его нельзя
вернуть задавшему вопрос в виде лишь числа, нужно обязательно описать условия, для которых ответ
применим.
10
3
Случайные величины
3.1
Мера, измеримое пространство, измеримое отображение
Напомню, что σ-алгебра (обозначим Σ, σ-algebra) множества X — это семейство подмножеств X, замкнутое относительно счётного объединения. То есть любое счётное объединение элементов-подмножеств
из Σ снова принадлежит Σ.
Определение 13 (измеримое пространство (measurable space)). Пара (X, Σ), то есть множество с σалгеброй, называется измеримым пространством (measurable space).
Соответственно множество (подразумевается подмножество) называется измеримым, если оно является элементом σ-алгебры.
Определение 14 (прообраз подмножества (preimage of a subset)). Пусть f : X → Y — произвольное
отображение, а S ⊆ Y — произвольное подмножество Y , тогда прообразом (preimage) S (обозначается
f −1 (S)) называется такое подмножество X:
f −1 (S) = {x ∈ X : f (x) ∈ S}
Определение 15 (измеримое отображение (measurable function)). Если (X, Σ) и (Y, T) — измеримые
пространства, то отображение f : X → Y называется измеримым (measurable function), если прообраз
любого E ∈ T лежит в Σ:
f −1 (E) = {x ∈ X : f (x) ∈ E} ∈ Σ, ∀E ∈ T
Другими словами, прообраз любого элемента σ-алгебры T является элементом σ-алгебры Σ.
Определение 16 (борелевская алгебра (Borel algebra)). Борелевской алгеброй называется σ-алгебра, состоящая из всевозможных открытых подмножеств. В частности, для вещественной прямой R и множества всех открытых интервалов B это называется борелевской прямой.
3.2
Случайная величина
Определение 17 (случайная величина (random variable)). Рассмотрим вероятностное пространство (Ω, F, P )
из Определения ??.
Случайной величиной (random variable) X называется измеримое отображение (функция) измеримого
пространства (Ω, F) на борелевскую прямую (R, B):
X : (Ω, F) → (R, B)
Случайные величины обычно обозначаются заглавными буквами X, Y , Z.
Очень важно осознать, что случайная величина — это именно функция, она сопоставляет численное
значение для каждого элементарного исхода. Например, рассмотрим эксперимент «бросаем кубик два раза», его пространство элементарных исходов состоит из 36 пар вида (r1 , r2 ), где r1 , r2 ∈ { , , , , , }.
Тогда мы можем сопоставить паре ( , ) число 1, паре ( , ) число 2, паре ( , ) число 7 и так далее до
пары ( , ) и числа 36.
11
Пример с кубиком даёт нам дискретную случайную величину, это функция, которая может принимать
не более чем счётное количество значений. Пример недискретной случайной величины: на отрезок от 0 до
1 случайно кидается точка, её координата и является значением случайной величины. Вообще, англоязычный термин (random variable) очень точно передаёт суть понятия: случайная величина принимает разные
значения.
Последний шаг в этом формализме — это перенос вероятности (как функции) на новое пространство.
Напомню, что в аксиоматической модели вероятности определена на множестве событий F, которое является σ-алгеброй. Но в области значений случайной переменной X задана своя σ-алгебра B и вполне
естественно возникает желание связать элементы из B с элементами из F. Но именно это и обеспечивает свойство измеримости функции: прообразы элементов из B (напомню, это подмножества) являются элементами множества F! Поэтому мы можем корректно определить индуцированную вероятность на
пространстве (R, B) следующим образом (назовём её PX , чтобы отличать от P из оригинального пространства):
3.3
Функция распределения
Определение 18. Функция PX называется распределением вероятностей случайной величины (probability
distribution of random variable) или просто распределением случайной величины.
PX (ξ) = P ({ω : X(ω) ∈ ξ}) = P (X −1 (ξ)) ∀ξ ∈ B
По сути PX говорит нам, какова вероятность события, являющегося подмножеством вещественной
числовой прямой.
Также приняты сокращённые обозначения, например, вместо PX ({x}) принято писать P (X = x) или
вместо PX ((−∞, x)) (что есть по сути PX ({t : t < x})) принято писать P (X < x).
Запись P (X = 14) принято читать как «вероятность того, что случайная величина X принимает значение 14». Аналогично для P (X < 14): «вероятность того, что значение случайной величины X меньше
14».
Определение 19. Функция FX (x) = PX ((−∞, x)) называется функцией распределения случайной величины X (cumulative distribution function of random variable X (CDF)).
С учётом замечаний выше можно записать FX (x) = P (X < x).
Утверждение. Функция распределения FX позволяет полностью восстановить распределение PX . То
есть, зная функцию FX , можно построить PX .
Доказательство этого утверждения достаточно сложное, поэтому я его здесь приводить не буду.
В итоге получаем, что FX и PX эквивалентны, поэтому можно ограничиться только функцией распределения, это нам позволит использовать одну и ту же σ-алгебру B для всех случайных величин, а именно
семейство неограниченных слева открытых интервалов:
B = {(−∞, x) : x ∈ R}
Утверждение. Некоторые свойства функции распределения (без доказательств):
1. (F1) lim F (x) = 0, lim F (x) = 1
x→−∞
x→+∞
12
2. (F2) F (x) — неубывающая функция, для t1 > t2 выполняется F (t1 ) ≥ F (t2 )
3. (F3) F (x) непрерывна слева: lim F (x) = F (a) (другими словами, F (x) сходится к F (a) при
x→a−
стремлении x к a слева).
Существует альтернативное эквивалентное определение, в нём используются не интервалы вида (−∞, x),
а вида (−∞, x]. Соответственно, функция распределения определяется как FX (x) = PX ({t : t ≤ x}) =
P (X ≤ x). При таком определении ничего существенно не меняется, только в свойствах функции распределения непрерывность слева заменяется непрерывностью справа.
Утверждение. Пусть X — случайная величина, a, b ∈ R таковы, что a < b, тогда вероятность попадания
значений случайной величины в интервал от a до b вычисляется по следующим формулам:
1. P (X ∈ [a, b)) = F (b) − F (a) = P (X < b) − P (X < a)
2. P (X ∈ [a, b]) = F (b+) − F (a) = P (X ≤ b) − P (X < a)
3. P (X ∈ (a, b])) = F (b+) − F (a+) = P (X ≤ b) − P (X ≤ a)
4. P (X ∈ (a, b))) = F (b) − F (a+) = P (X < b) − P (X ≤ a)
Утверждение. Если функция F : R → R удовлетворяет условиям (F1), (F2) и (F3) из утверждения выше,
то существует единственная вероятность P на борелевской прямой (R, B), для которой выполняется:
P ((−∞, x)) = F (x) для всех x ∈ R.
3.4
Дискретное распределение
Случайная величина называется дискретной (discrete), если она принимает конечное или счётное число
значений.
Перенумеруем все возможные значения X, пусть это будет множество {xi : i ∈ I}, где I ⊆ Z множество
индексов, причём xi < xj , если i < j (то есть значения упорядочены).
Построим функцию распределения такой случайной величины. Но сначала заметим, что все значения
вероятности PX сосредоточены в точках xi (в дальнейшем мы будем называть такие точки x атомами,
если P (X = x) ̸= 0). Действительно, из определения следует:
(
P ({ω : X(ω) = xi }) ∃i : x = xi
P (X = x) = P ({ω : X(ω) = x}) =
P (∅)
∄i : x = xi
Из этого следует, что значение функции распределения X:
X
FX (x) =
P (X = xi )
xi <x
Обратите внимание, что исходный случайный эксперимент, для которого строится случайная величина, не обязательно носит дискретный характер! Простейший пример: на отрезок числовой прямой [−1, 1]
случайно бросается точка, если её координата меньше или равна 0, то X = −1, если больше 0, то X = 1.
13
Полученная случайная величина дискретная, однако прообраз каждого из значений не является дискретным множеством.
Значения pi = P (X = xi ) принято называть массами или весами атомов. А функция p : R → R,
определённая как:
(
P (X = xi ), ∃i : x = xi
p(x) =
0,
∄i : x = xi
называется функцией вероятности (probability mass function, PMF) дискретной случайной величины.
Пример. Рассмотрим простейший эксперимент: подбрасываем монету, если выпадает H (heads), то выигрываем 1 рубль, если выпадает T (tails) — проигрываем один рубль. Тогда случайная величина X
может принимать два значения:
(
1
с вероятностью 0.5
X=
−1 с вероятностью 0.5
Атомами в этом распределении являются значения −1 и 1 с соответствующими весами 0.5 и 0.5.
Поэтому функция распределения выглядит так:


x ∈ (−∞, −1]
0,
FX (x) == p1 = 0.5,
x ∈ (−1, 1]


p1 + p2 = 1, x ∈ (1, ∞)
Из этого определения видно, что функция FX (x) не является непрерывной: разрывы в точках −1 и
1, например, FX (−1) = P (X < −1) = P (X −1 ((−∞, −1))) = P ({∅}) = 0. Но для любого достаточно
малого ε > 0 выполняется FX (−1 − ε) = F (−1) = 0, поэтому в точках разрыва функция является
непрерывной слева.
График FX (x) выглядит так (кружок на линии графика означает, что в этой точке находится разрыв
функции, а собственно значение находится там, где кружок заполненный, а не пустой):
FX (x)
1
−1
1
x
А вот если бы мы выбрали альтернативное определение FX (x) = P (X ≤ x), то точки непрерывности
были бы на другой стороне разрыва.
Пример. Другой пример, рассмотрим таблицу наблюдений о заполненности рейсов самолёта из раздела
«2.5 Частотная вероятность»:
14
количество занятых мест (ω)
наблюдений
F req(ω)
0
4
1
15
2
80
3
510
4
291
5
100
4
1000
15
1000
80
1000
510
1000
291
1000
100
1000
Случайная величина X здесь — это количество заполненных мест, атомами являются значения 1,2,3,4,5,
а p(x) = F req(x). График функции p(x) выглядит так:
p(x)
1
p3 = 0.51
p4 = 0.291
p0 = 0.004
p1 = 0.015
p2 = 0.08
1
2
p5 = 0.1
3
4
x
5
График функции распределения дискретной величины будет состоять из горизонтальных отрезков,
ограниченных атомами xi и бесконечностями −∞, ∞. Каждый последующий отрезок будет находиться
выше предыдущего на величину pi . В нашем случае это:
FX (x)
1
1
2
3
4
5
x
И вообще, любой график дискретного распределения будет состоять из конечного или счётного количества «ступенек».
3.5
Непрерывное распределение и его плотность
Распределение называется непрерывным (continuous probability distribution), если его функция распределения FX является непрерывной.
Утверждение. У непрерывного распределения случайной величины нет атомов.
Доказательство. Допустим, у распределения случайной величины X есть атом, то есть такая точка s,
что P (X = s) = PX ({s}) = ps ̸= 0.
По определению FX уже непрерывна слева, поэтому рассмотрим непрерывность справа, для достаточно малого ε > 0 справедливо:
FX (s + ε) = P (X < s + ε) = PX ((−∞, s + ε)) (разобъём (−∞, s + ε) на три множества)
= PX ((−∞, s) ∪ {s} ∪ (s, s + ε)) = PX ((−∞, s)) + P ({s}) + P ((s, s + ε))
= FX (s) + ps + PX ((s, s + ε))
15
При устремлении ε к нулю мы никак не сможем получить FX (s), поскольку для любого ε > 0 значение FX (s + ε) будет больше FX (s) как минимум на величину ps . Получили разрыв и противоречие, так
как FX должна быть непрерывной функцией.
При доказательстве мы воспользовались тем, что PX — это вероятность, а события (−∞, s), {s},
(s, s + ε) несовместные, поэтому вероятность их объединения равна сумме вероятностей каждого. ■
Непрерывные распределения делятся на два вида: абсолютно непрерывные и сингулярные. Мы будем
рассматривать только первые, поскольку сингулярные никогда на практике не встречаются8 .
График функции распределения не очень хорошо иллюстрирует сущность распределения, так как он
изображает монотонную функцию, следить за изменением которой очень сложно. Для дискретного распределения существует график функции вероятности (PMF), на котором наглядно видны конкретные вероятности и их изменения. Для непрерывной функции мы можем использовать её производную, которая
как раз отражает изменения в ключевых точках.
Определение 20 (Функция плотности распределения). Если F (x) — абсолютно непрерывная функция
распределения, то её производная9 f (x) = dF (x)/dx называется плотностью вероятности (probability
density function (PDF)).
Как следствие, если задана функция плотности распределения fX (x), то функция распределения вычисляется по стандартной формуле интегрирования как интеграл Лебега:
Z x
fX (t)dt
FX (x) =
−∞
Функцию плотности (PDF) можно неформально интерпретировать как оценку шанса 10 попадания случайной величины в эту точку.
Пример (Непрерывное равномерное распределение). Простейшим примером непрерывного распределения является непрерывное равномерное распределение (continuous uniform distribution) на отрезке [a, b].
Его принято обозначать как U (a, b), где a и b — параметры распределения.
По сути равномерное распределение случайной переменной означает, что она имеет равный шанс
попасть в любую точку отрезка [a, b] и не имеет шанса попасть в точку вне его. Поэтому функция плотности выглядит так:

 1 , x ∈ [a, b]
f (x) = b − a
0,
x∈
/ [a, b]
Функция f (x) разрывная и её график состоит из трёх сегментов:
8
Пример сингулярного распределения — «Канторова лестница» (https://en.wikipedia.org/wiki/Cantor_
distribution)
9
Производная в смысле интегрирования по Лебегу, см. https://en.wikipedia.org/wiki/Lebesgue_integration. В общем же случае идёт речь о производной Радона-Никодима (https://en.wikipedia.org/wiki/Radon–Nikodym_theorem).
10
Я специально не употребляю слово «вероятность», чтобы подчеркнуть неформальный характер объяснения. Вероятность
попадания случайной величины в конкретную точку равна нулю для непрерывного распределения, так как у него нет атомов.
16
f (x)
1
1
b−a
a
x
b
Функция распределения вычисляется как интеграл Лебега от f (x):
R x
0dt,
x<a


Z x
R−∞
R
a
x dt
F (x) =
f (t)dt =
0dt + a
a≤x≤b
−∞

−∞

Rb x− a
R b
f (t)dt + b 0dt, x > b
−∞
И в итоге получаем:
F (x) =


0,

x − a

b−a


1,
x<a
, a≤x≤b
x>b
График F (x):
FX (x)
1
a
b
x
Пример (Непрерывное равномерное распределение, анализ без привлечения плотности). Рассмотрим
следующий эксперимент: на отрезок [a, b] случайным образом бросается точка, причём для a ≤ α <
β ≤ b вероятность попасть в интервал (α, β) зависит только от длины интервала (это β − α), а не его
положения на отрезке. Рассмотрим случайную величину X: координата точки x внутри отрезка [a, b].
Такое распределение называется непрерывным равномерным (continuous uniform distribution) и для него
принято обозначение U (a, b).
Здесь есть очень важный момент: в рамках этого случайного эксперимента не существует точек за
пределами отрезка [a, b]. И хотя этот отрезок задан на R, наша случайная величина как функция определена исключительно на [a, b]: X : [a, b] → R и её можно неформально записать как X(ω) = ω, но
при этом важно понимать, что ω внутри выражения X(ω) — это непосредственно точка внутри отрезка
[a, b]; а ω после знака равенства — это координата точки. Также все прообразы X −1 будут являться
только лишь подмножествами [a, b].
Теперь построим функцию распределения FX (x). Помним, что мы работаем на пространстве (R, B),
где элементами σ-алгебры B являются интервалы (−∞, x). И мы можем для отображения X : [a, b] → R
сразу указать прообразы некоторых элементов из B).
17
Сначала рассмотрим интервалы (−∞, x), где x < a и построим цепочку из определений (помним,
что P — это вероятность в нашем эксперименте, который происходит на [a, b]).
FX (x) = PX ((−∞, x)) = P (X −1 ((−∞, x))) = P ({ω ∈ [a, b] : X(ω) ∈ (−∞, x)})
Очевидно, что в случае x < a множество {ω ∈ [a, b] : X(ω) ∈ (−∞, x)} является пустым. Поэтому
FX (x) = 0, если x < a.
Теперь рассмотрим интервалы (−∞, x), где x > b; из этой же цепочки определений получаем, что
в данном случае множество {ω ∈ [a, b] : X(ω) ∈ (−∞, x)} совпадает со всем отрезком [a, b]. Поэтому
FX (x) = 1, если x > a.
Осталось рассмотреть интервалы (−∞, x), где a ≤ x ≤ b. Опять рассмотрим множество {ω ∈ [a, b] :
X(ω) ∈ (−∞, x)}, словами его можно описать так: «точки из отрезка [a, b], координаты которых лежат
в интервале (−∞, x), где a ≤ x ≤ b». Из этого сразу следует, что это множество — [a, x).
Так как вероятность попасть в интервал (α, β) зависит только от его длины, то из геометрической
модели вероятностей следует, что вероятность события (α, β) (а это именно событие в рамках рассматриваемого эксперимента!) равна β−α
. Также помним, что длина интервала не зависит от того, включаем
b−a
мы в него его границы или нет. То есть длины всех этих интервалов равны (b − a): [a, b], [a, b), (a, b],
(a, b).
Теперь мы можем записать значение FX (x) для a ≤ x ≤ b:
FX (x) = P ([a, x)) =
x−a
b−a
И целиком:


x ∈ (−∞, a)
P (∅) = 0,
x−a
FX (x) = P ([a, x)) = b−a , x ∈ [a, b)


P ([a, b]) = 1,
x ∈ [b, ∞)
Получили точно тот же результат, что и выше.
Пример (Нормальное (гауссовское) распределение). Функция плотности (PDF) нормального распределения (normal distribution, Gaussian distribution) выглядит так:
1
2
2
f (x) = √ e−(x−µ) /2σ
σ 2π
Здесь µ и σ — параметры распределения. Если µ = 0 и σ = 1, то распределение называется стандартным нормальным (standard normal distribution), PDF (принято обозначать её через φ):
1
2
φ(x) = √ e−x /2
2π
(Кумулятивная) функция (CDF) стандартного нормального распределения записывается в виде интеграла, так как (φ(x) не интегрируется):
Z x
1
2
Φ(x) = √
e−t /2 dt
2π −∞
Ну и графики:
18
φ(x)
1
0.8
φ(x)
0.6
Φ(x)
0.4
0.2
0
−6
3.6
−4
−2
0
x
2
4
6
Смешанные распределения
Случайная величина со смешанным (mixed) распределением — это величина, которая может принимать дискретно-непрерывные значения. Рассмотрим такой пример случайного эксперимента: на отрезке
[−1, 1] случайно и равновероятно выбирается точка с координатой q (−1 ≤ q ≤ 1). Определим случайную величину X следующим образом:
(
0, q ≤ 0
X(q) =
q, q > 0
X принимает значения в интервале [0, 1]. Вычислим кумулятивную функцию распределения FX (x).
Очевидно, что FX (x) = 0, если x ≤ 0. Так же очевидно, что FX (x) = 1, если x > 1. А на интервале (0, 1)
случайная величина ведёт себя как непрерывная равномерная. В итоге получаем такой график:
FX (x)
1
1
x
Вообще, для смешанных распределений справедливо следующее утверждение:
Утверждение. CDF смешанного распределения FX является суммой двух функций:
FX (x) = C(x) + D(x)
Где C(x) — непрерывная, а D(x) — ступенчатая разрывная функция с конечным или счётным
количеством «ступенек».
19
3.7
Функции от случайной величины
Утверждение. Допустим X — некоторая случайная величина на вероятностном пространстве (Ω, F, P ),
а g : R → R — измеримая функция. Тогда существует случайная величина Y = g(X) (на том же вероятностном пространстве), которая определяется как Y (ω) = g(X(ω)) ∀ω ∈ Ω.
■
Доказательство. Без доказательства.
Из определения (18) получаем:
PY ((−∞, y)) = P (Y −1 ((−∞, y))) = P ({ω : Y (ω) < y})
= P ({ω : g(X(ω)) < y}
Если g является обратимой и при этом g −1 является возрастающей монотонной функцией (т.е. для любых y1 < y2 следует g −1 (y1 ) < g −1 (y2 )), то получаем:
P ({ω : g(X(ω)) < y} = P ({ω : X(ω) < g −1 (y)} = P (X < g −1 (y)) = FX (g −1 (y))
Аналогично для обратимой g и убывающей g −1 получаем:
P ({ω : g(X(ω)) < y} = P ({ω : X(ω) > g −1 (y)} = P (X > g −1 (y))
= 1 − FX (g −1 (y))
Последнее равенство следует из свойства вероятности:
P (X > x) = P ((x, ∞)) = P ((−∞, ∞)) − P ((−∞, x)) = 1 − P ((−∞, x)) = 1 − P (X < x)
И полностью:
(
FX (g −1 (y)),
если g −1 возрастает
FY (y) =
1 − FX (g −1 (y)), если g −1 убывает
Если g дифференцируемая, то можно вычислить PDF fY (y):
fY (y) = fX (g −1 (y))
3.8
dg −1 (y)
dy
Сумма случайных величин
Утверждение. Допустим X и Y — две случайные величины, заданные на одном вероятностном пространстве (Ω, F, P ), тогда существует случайная величина X + Y , которая обозначется как Z и определяется как Z(ω) = X(ω) + Y (ω), ∀ω ∈ Ω.
Доказательство. Подробное доказательство можно прочитать в [3], здесь я его приводить не буду. ■
Очевидно, что случайной величиной будет также и линейная комбинация двух случайных величин:
Z = aX + bY, a, b ∈ R.
20
3.9
Характеристики распределения случайной величины
Далее мы будем считать, что распределение либо непрерывное, либо дискретное, и для него определена
кумулятивная функция распределения (CDF): F (x).
Для дискретного распределения имеется функция распределения (PMF, probability mass function), её
будем обозначать как p(x).
Для непрерывного распределения имеется функция плотности (PDF, probabiluty density function), её
будем обозначать как f (x).
Через P (A) будем обозначать вероятность события A ⊆ R.
И ещё важное замечание: приводимые ниже формулы и определения (особенно для непрерывных распределений) имеют множество ограничений, о которых я здесь не рассказываю.
Графическое изображение функций f (x) или p(x) вызывает ассоцииации с изображением стержня,
масса которого распределена в соответствии с графиком. Общая масса такого стержня всегда одинакова
для всех распределений и равна единице. Стержень может быть бесконечной длины.
Для дискретного распределения масса-вероятность распределена по стержню в виде точечных участков с ненулевой массой, для непрерывного масса распределена «плавно».
В такой интерпретации событие будет являться участком стержня, а масса этого участка — значением
вероятности события:
X

p(x)
для дискретного распределения с PMF p(x)


 x∈B
Z
P (B) =


f (x)dx для непрерывного распределения с плотностью f (x)


x∈B
Аналогично переносятся в теорию вероятностей другие физические (а точнее, механические) характеристики.
Аналог центра масс называется средним значением, математическим ожиданием, матожиданием
или первым моментом11 (в английском языке: expected value, expectation, mathematical expectation, EV, average,
mean value, mean, first moment).
Определение 21. Математическое ожидание случайной величины X обозначается как E[X] или E X 12 и
вычисляется по формуле:
X
xi p(xi )
для дискретной величины с PMF p



 xi
Z
E[X] =


xf (x)dx для непрерывной величины с плотностью f


x∈R
В формуле подразумевается интеграл Лебега. Полная теория, стоящая за этими формулами весьма
сложная и выходит далеко за рамки этого текста.
Примерно как центр масс физического тела задаёт его условное положение в пространстве, так и математическое ожидание задаёт относительное «усреднённое» положение значений случайной величины на
числовой прямой.
11
Подробнее о моментах в математике см. https://en.wikipedia.org/wiki/Moment_(mathematics).
В русской нотации также принято обозначение M[X] или M X. А в статистике математическое ожидание принято обозначать греческой буквой «мю» µ, когда речь идёт о некотором зафиксированном в контексте распределении. Иногда пишут µX ,
чтобы подчеркнуть, что речь идёт о случайной величине X.
12
21
Пример. Матожидание не обязательно является конечным числом. Рассмотрим дискретную случайную
1
величину X с атомами ai = i и вероятностями pi = i(i+1)
(i = 1, 2, . . .).
Это действительно случайная величина, так как сумма всех вероятностей равна единице:
X
i
X 1
1
1 =
−
=1
i(i + 1)
i
i
+
1
i
Однако:
E[X] =
X
i
ai pi =
X
i
X 1
i
=
=∞
i(i + 1)
i+1
i
Утверждение. Математическое ожидание линейно, то есть для произвольных констант a, b ∈ R выполняется:
E[aX + bY ] = a E[X] + b E[Y ]
Определение 22. Второй центральный момент называется дисперсией (dispersion)13 и обозначается как
Var(X)14 .
Дисперсия вычисляется как матожидание случайной величины (X − µ)2 , где µ = E[X] — это матожидание X.
Var(X) = E[(X − µ)2 ]
По сути дисперсия является моментом инерции стержня относительно его центра масс (то есть матожидания E X).
2
2
В статистике дисперсию принято обозначать также как s2X , σX
или просто s2 /σp
, если случайная величина X понятна из контекста. Соответственно квадратный корень из дисперсии Var(X) называется
стандартным отклонением X 15 и обозначается просто как σX или σ.
Дисперсия является показателем «разброса» или «рассеивания», или «удалённости» значений случайной величины относительно её математического ожидания. Например, если Var(X) = 10 и Var(Y ) = 200,
то точки распределения X (с меньшей дисперсией) расположены более «тесно» относительно матожидания.
14
Другие названия: вариация (variance, scatter, spread), см. также https://en.wikipedia.org/wiki/Variance
В русской нотации принято обозначение D[X].
15
Также называется средним квадратическим отклонением, среднеквадратичным отклонением, квадратичным отклонением, по-английски: standard deviation, SD.
14
22
4
Упражнения 2
Разбор задач о случайных величинах: функция распределения, плотность.
Задача. ТЕКСТ ЗАДАЧИ
Решение.
23
Список литературы
[1] Володин И.Н. Лекции по теории вероятностей и математической статистике. Казанский государственный университет, Казань, 2006.
http://kpfu.ru/docs/F1021260618/TViMS.pdf
[2] Борисов И.С. Лекции по теории вероятностей. Новосибирский государственный университет, Новосибирск, 2010.
http://parallels.nsu.ru/~efomenko/teorver/lectures.pdf
[3] Probability Foundations for Electrical Engineers
http://www.ee.iitm.ac.in/~krishnaj/ee5110notes.htm
[4] Боровков А.А. Теория вероятностей. Либроком/URSS, Москва, 2018.
24
Download