В этом параграфе описываются, пожалуй, главные фичи теории вероятностей: независимые события и условные вероятности. Эти концепции имеют большое прикладное значение, да и с теоретической точки зрения главным образом благодаря им теория вероятностей выделяется в отдельную ветвь математики.
Условная вероятность
Условная вероятность возникает при ответе на вопрос о том, каковы шансы события $A$ при условии,что случилось событие $B$, и обозначается $\mathbb P(A\vert B)$.
Пример. Согласно исследованиям, в среднем $5%$ пациентов испытывают приступы кашля в течение дня, однако среди курильщиков доля кашляющих составляет $40%$. То есть (безусловная) вероятность $\mathbb P(\text{кашляет}) = 0.05$ при добавлении обусловливания может существенно измениться: $\mathbb P(\text{кашляет}\vert\text{курит}) = 0.4$.
Упражнение. Известно, что в семье два ребёнка, причём один из них мальчик. Какова вероятность, что другой ребёнок тоже мальчик?
Ответ (не открывайте сразу, попробуйте сначала решить самостоятельно)
Добавляя формализма, обозначим
и тогда условная вероятность $\mathbb P(B\vert A)$ вычисляется по формуле
$$ \mathbb P(B\vert A) = \frac{\mathbb{P}(A \cap B)}{\mathbb{P}(A)} = \frac{1/4}{3/4} = \frac 13. $$
В общем случае условная вероятность $\mathbb P(B\vert A)$ при $\mathbb P(A) \ne 0$ полагается равной
$$ \mathbb{P}(B \vert A) = \frac{\mathbb{P}(A \cap B)}{\mathbb{P}(A)}. $$
В зависимости от соотношения событий $A$ и $B$ условная вероятность $\mathbb{P}(B \vert A)$ может принимать разные значения, например:
- если $A\cap B = \varnothing$, то событие $A$ исключает реализацию события $B$, и $\mathbb{P}(B \vert A) = 0$;
- если $A \subset B$, то событие $A$ гарантирует осуществление события $B$, и $\mathbb{P}(B \vert A) = 1$.
Разумеется, чаще всего события $A$ и $B$ соотносятся между собой более хитрым образом, и значение условной вероятности $\mathbb{P}(B \vert A)$ находится строго между $0$ и $1$.
Формула полной вероятности
Пусть пространство $\Omega$ разбивается на попарно несовместные события $B_1, B_2, \dots, B_n$:
$$ \Omega = B_1 \cup \ldots \cup B_n, \quad B_i \cap B_j = \varnothing \text{ при } i\ne j. $$
Тогда
$$ A = A\cap\Omega = (A\cap B_1) \cup \ldots \cup (A\cap B_n); $$
отсюда по свойству конечной аддитивности находим, что
$$ \mathbb P(A) = \mathbb{P}(A \cap B_1) + \ldots + \mathbb{P}(A \cap B_n). $$
Переходя к условным вероятностям, получаем формулу полной вероятности:
$$ \mathbb{P}(A) = \sum\limits_{k=1}^n \mathbb{P}(A \vert B_k) \mathbb{P}(B_k). $$
Пример. Среди населения $33.7%$ имеют первую группу крови, $37.5%$ — вторую, $20.9%$ — третью, $7.9%$ — четвёртую. При переливании крови надо учитывать группы крови донора и рецепиента:
- реципиенту с четвёртой группой крови можно перелить кровь любой группы;
- реципиентам со второй и третьей группами можно перелить кровь той же группы или первой;
- реципиентам с первой группой крови можно перелить только кровь первой группы.
С какой вероятностью допустимо переливание в случайно взятой паре донор—реципиент?
Решение. Пусть событие $A$ состоит в том, что переливание возможно, а событие $B_k$ — в том, что донор имеет группу $k$. По формуле полной вероятности
$$ \mathbb P(A) = \mathbb P(A\vert B_1) \mathbb P(B_1) + \mathbb P(A\vert B_2) \mathbb P(B_2) + \mathbb P(A\vert B_3) \mathbb P(B_3) + \mathbb P(A\vert B_4) \mathbb P(B_4). $$
Вероятности $\mathbb P(B_k)$ даны в условии, оттуда же находим, что
$$ \mathbb P(A\vert B_1) = 1, $$ $$ \mathbb P(A\vert B_2) = \mathbb P(B_2) + \mathbb P(B_4), $$ $$ P(A\vert B_3) = \mathbb P(B_3) + \mathbb P(B_4), $$ $$ \mathbb P(A\vert B_4) = \mathbb P(B_4). $$
Подставляя численные значения, получаем
$$ \mathbb P(A) = 0.337 + (0.375+0.079)\cdot 0.375 + (0.209+0.079)\cdot 0.209 + 0.079^2 = 0.573683. $$
Упражнение. Решите предыдущий пример, выбирая в качестве разбиения набор событий $C_k$, каждое из которых заключается в том, что реципиент имеет группу $k$.
Ответ
$$ \mathbb P(A) = \mathbb P(A\vert С_1) \mathbb P(С_1) + \mathbb P(A\vert С_2) \mathbb P(С_2) + \mathbb P(A\vert С_3) \mathbb P(С_3) + \mathbb P(A\vert С_4) \mathbb P(С_4). $$
Ясно, что $\mathbb P(C_k) = \mathbb P(B_k)$; далее из условия находим, что
$$ \mathbb P(A\vert С_1) = \mathbb P(C_1), $$ $$ \mathbb P(A\vert C_2) = \mathbb P(C_1) + \mathbb P(C_2), $$ $$ P(A\vert C_3) = \mathbb P(C_1) + \mathbb P(C_3), $$ $$ \mathbb P(A\vert C_4) = 1. $$
Подставляя численные значения, получаем тот же ответ $\mathbb P(A) = 0.573683$.
Формула полной вероятности легко обобщается на случай счётного числа попарно несовместных событий $B_k$, а также на случай обусловливания по некоторому событию $C$, например:
$$ \mathbb{P}(A\vert C) = \sum\limits_n \mathbb{P}(A \vert B_n, C) \mathbb{P}(B_n \vert C). $$
Формула Байеса
Заметим, что вероятность $\mathbb{P}(A \cap B)$ можно записать двумя способами
$$ \mathbb{P}(B \vert A)\mathbb{P}(A) = \mathbb{P}(A \cap B) = \mathbb{P}(A \vert B)\mathbb{P}(B). $$
Оставим $\mathbb{P}(B \vert A)$ в левой части и получим формулу Байеса.
Формула Байеса. Для любоых событий $A$, $B$ c положительной вероятностью
$$ \mathbb{P}(B \vert A) = \frac{\mathbb{P}(A \vert B)\mathbb{P}(B)}{\mathbb{P}(A)}. $$
Для вычисления знаменателя в формуле Байеса часто используется формула полной вероятности.
Упражнение. Среди определенной группы людей вероятность некоторой болезни 0.02. Тест, позволяющий выявить болезнь, несовершенен. На больном он дает позитивный результат в 98 случаях из 100, и, кроме того, он дает позитивный результат в 4 случаях из 100 на здоровом. Найдите вероятность того, что человек, на котором тест дал положительный результат, действительно болен.
Ответ (не открывайте сразу, попробуйте сначала решить самостоятельно)
$$ \mathbb{P}(\text{болен}\vert\text{+}) = \frac{\mathbb{P}(\text{+}\vert\text{болен}) \mathbb{P}(\text{болен})}{\mathbb{P}(\text{+})}. $$
По условию, $\mathbb{P}(\text{+} \vert \text{болен}) = 0.98$, $\mathbb{P}(\text{болен}) = 0.02$. Чтобы посчитать вероятность теста быть положительньным, применим формулу полной вероятности:
$$ \mathbb{P}(\text{+}) = \mathbb{P}(\text{+} \vert \text{болен}) \mathbb{P}(\text{болен}) + \mathbb{P}(\text{+} \vert \text{здоров})\mathbb{P}(\text{здоров}) = 0.98 \cdot 0.02 + 0.04 \cdot 0.98 = 0.98 \cdot 0.06. $$
Тогда по формуле Байеса
$$ \mathbb{P}(\text{болен} \vert \text{+}) = \frac{0.98 \cdot 0.02}{0.98 \cdot 0.06} = \frac13. $$
Получается, что точность теста очень низка — всего лишь около 1 из 3. Это происходит, потому что больные люди встречаются редко (2 из 100), и эта частота сравнима с долей ошибок I и II рода — 0.02 и 0.04.
Для непрерывного случая тоже есть своя формула полной вероятности, см. раздел про условную вероятность.
Независимые события
События $A$ и $B$ называются независимыми, если $\mathbb{P}(A \vert B) = \mathbb{P}(A)$, то есть информация о реализации события $B$ никак не влияет на вероятность события $A$.
По определению условной вероятности независимость событий $A$ и $B$ эквивалентна тому, что
$$ \mathbb{P}(A \cap B) = \mathbb{P}(A) \mathbb{P}(B). $$
Последнее равенство годится для определения независмости событий $A$ и $B$ даже в том случае, если $\mathbb{P}(A) = 0 $ или $\mathbb{P}(B) = 0$.
Пример. В полной колоде карт находится $52$ карты: $4$ масти от двойки до туза. Вероятность вытащить туза равна $\mathbb P(\mathrm{Ace}) = \frac 4{52} = \frac 1{13}$, карту пиковой масти — $\mathbb P(\spadesuit) = \frac {13}{52} = \frac 1{4}$. Эти события независимы, поскольку в пересечении этих событий лежит ровно одна карта — туз пик, вероятность появления которого равна $\frac 1{52} = \frac 1{13} \cdot \frac 14 = \mathbb P(\mathrm{Ace})\mathbb P(\spadesuit)$.
Пусть теперь вытаскивается сразу две карты. Зависимы ли события «вытащены две карты пиковой масти» и «вытащены туз и король»? Посчитаем:
$$ \mathbb P(\spadesuit \spadesuit) = \frac{\binom{13}2}{\binom{52}2} = \frac{13\cdot 12}{52\cdot 51} = \frac 1{17}, $$
$$ \mathbb P(\mathrm{AK}) = \frac{16}{\binom{52}2} = \frac{32}{52\cdot 51} = \frac 8{663}. $$
Вероятность вытащить туза и короля пик равна $\frac 1{\binom{52}2} = \frac 1{1326}\approx 0.00075$, что отличается от $\mathbb P(\spadesuit \spadesuit)\mathbb P(\mathrm{AK}) = \frac 8{11271} \approx 0.00071$. Таким образом, эти события зависимы.
События $A_1, \ldots, A_n$ попарно независимы, если $\mathbb{P}(A_i \cap A_j) = \mathbb{P}(A_i) \mathbb{P}(A_j)$ при $i \ne j$. Эти же события независимы в совокупности, если
Упражнение. Приведите пример попарно независимых событий $A_1$, $A_2$, $A_3$, не являющихся независимыми в совокупности.
Ответ (не открывайте сразу, попробуйте сначала решить самостоятельно)
$$ \mathbb P(R) = \mathbb P(G) = \mathbb P(B) = \frac 12, $$ $$ \mathbb P(R \cap G) = \mathbb P(R \cap B) = \mathbb P(G\cap B) = \frac 14, $$
что влечёт попарную независимость событий $R$, $G$, $B$. Однако $\mathbb P(R \cap G \cap B) = 0$, что не равно $\mathbb P(R)\mathbb P(G)\mathbb P(B) = \frac 18$, поэтому эти события не являются независимыми совокупности.
Определение независимости случайных величин из предыдущего параграфа полностью согласуется с только что введённым определением независимых событий. Например, для случая дискретных случайных величин $\xi$ и $\eta$ обозначим
$$ A_i = \mathbb P(\xi = x_i), \quad B_j = \mathbb P(\eta = y_j); $$
тогда $\mathbb P(\xi = x_i, \eta = y_j) = \mathbb P(A_i \cap B_j)$, и поэтому независимость случайных величин $\xi$ и $\eta$ эквивалентна независимости событий $A_i$ и $B_j$ для всевозможных значений $i$ и $j$.
Замечание о статистической независимости
вы бросили монетку, быстро подняли с пола, и снова бросили;
монетка при первом броске укатилась далеко под диван, и вы полчаса ворочали мебель, прежде чем произвести второе испытание.
Весьма вероятно, что столь досадное происшествие после первого броска могло существенно повлиять на ваше физическое и моральное состояние. И уж точно второй бросок в ситуациях (1) и (2) вы бы совершили совершенно по-разному, что вполне могло отразиться на его результате.
Однако в математике подобным метафизическим измышлениям нет места. С абстрактным понятием независимости гораздо проще работать, поскольку оно игнорирует замысловатые причинно-следственные связи и прочие несущественные детали. В модели независимых испытаний Бернулли каждое следующее испытание статистически никак не зависит от предыдущих. Что бы с вами не происходило, шансы во втором броске — 50 на 50, именно об этом говорит нам независимость испытаний Бернулли с вероятностью успеха $\frac 12$, не больше и не меньше.
Условная независимость
Бывает так, что зависимые события $A$ и $B$ становятся независимыми при выполнении некоторого третьего события $C$. Более формально, события $A$ и $B$ условно независимы по отношению к событию $C$, если $\mathbb P(C) > 0$ и
$$ \mathbb P(A \vert B, C) = \mathbb P(A\vert C). $$
Поскольку
$$ \mathbb P(A \vert B, C) = \frac{\mathbb P(A \cap B \cap C)}{\mathbb P(B \cap C)}, \quad \mathbb P(A \vert C) = \frac{\mathbb P(A \cap C)}{\mathbb P(C)}, $$
то условная независимость событий $A$ и $B$ эквивалетна равенству
$$ \frac{\mathbb P(A \cap B \cap C)}{\mathbb P(C)} = \frac{\mathbb P(A \cap C)}{\mathbb P(C)} \cdot \frac{\mathbb P(B \cap C)}{\mathbb P(C)}, $$
а это, в свою очередь, означает, что
$$ \mathbb P(A \cap B\vert C) = \mathbb P(A\vert C) \mathbb P(B\vert C). $$
Таким образом, вероятность произведения условно независимых событий равна произведению условных вероятностей. Эта формула полностью аналогична формуле $\mathbb P(A\cap B) = \mathbb P(A)\mathbb P(B)$ для (безусловно) независимых событий.
Пример (цепь Маркова). Последовательность событий $S_0, S_1, S_2, \ldots, S_t, \ldots$ называется марковской цепью, если выполняется марковское свойство
$$ \mathbb P (S_{t+1} \vert S_t, S_{t-1}, \ldots, S_0) = \mathbb P(S_{t+1} \vert S_t), \quad t \in \mathbb N \cup {0}. $$
В марковском свойстве заложен следующий смысл: в каждый момент времени $t$ «будущее» $S_{t+1}$ зависит только от «настоящего» $S_t$, но не зависит от «прошлого»
$$ P_t = S_{t-1} \cap \ldots \cap S_0. $$
Итак, цепь Маркова характеризуется равенством $\mathbb P(S_{t+1} \vert P_t, S_t) = \mathbb P(S_{t+1} \vert S_t)$, которое означает, что события $S_{t+1}$ и $S_t$ условно независимы по отношению к событию $P_t$.
Условные распределения
Пусть $\xi$ и $\eta$ — дискретные случайные величины и $\mathbb P(\eta = y) > 0$. По аналогии с условными вероятностями условное распределение случайной величины $\xi$ при условии, что значение случайной величины $\eta$ равно $y$, определяется по формуле
$$ \mathbb P(\xi = x_i \vert \eta = y) = \frac{\mathbb P(\xi = x_i , \eta = y)}{\mathbb P(\eta = y)}. $$
Это действительно распределение вероятностей, поскольку $\mathbb P(\xi = x_i \vert \eta = y) \geqslant 0$ и
$$ \sum\limits_{i}\mathbb P(\xi = x_i \vert \eta = y) = \frac 1{\mathbb P(\eta = y)} \sum\limits_{i}\mathbb P(\xi = x_i , \eta = y) = 1. $$
В непрерывном случае условное распределение задаётся условной плотностью
$$ p_{\xi\vert \eta}(x\vert y) = \frac{p(x, y)}{p_\eta(y)}, $$
где $p(x, y)$ — совместная плотность случайных величин $\xi$ и $\eta$. И снова проведением маргинализации по $x$ убеждаемся в том, что с нормировкой всё в порядке:
Поскольку $\int\limits_{-\infty}^{+\infty} p(x, y),dy = p_\xi(x)$, из формулы условной плотности получаем непрерывный аналог формулы полной вероятности:
$$ p_\xi(x) = \int\limits_{\mathbb{R}} p_{\xi \mid \eta}(x\vert y) p_\eta(y) dy. $$
Пример. Выберем случайное число $x\in \big[\tfrac12, 1\big]$, а затем — случайное число $y \in [0, x]$. Как распределена случайная величина $y$?
Переформулируем задачу: известно, что $\xi \sim U\big[\tfrac12, 1\big]$ и $\eta \vert \xi \sim U[0, x]$. Требуется найти плотность случайной величины $\eta$. Имеем
$$ p_\xi(x) = 2\mathbb I_{\big[\tfrac12, 1\big]}(x), \quad p_{\eta\mid\xi}(y\vert x) = \frac 1x\mathbb I_{[0, x]}(y). $$
Применяя формулу полной вероятности, находим
Ответ (не открывайте сразу, попробуйте сначала решить самостоятельно)
$$ \mathbb P(\eta = k) = \int\limits_0^{+\infty} p_{\eta\vert \xi_k}(\eta = k \vert x) p_{\xi_k}(x),dx. $$
Далее, $p_{\xi_k}(x) = \lambda_k e^{-\lambda_k x}$, $x\geqslant 0$,
$$ p_{\eta\vert \xi_k}(\eta = k \vert x) = \mathbb P(\xi_i > x, i \ne k) = \prod\limits_{i\ne k} e^{-\lambda_i x}. $$
Таким образом,
$$ \mathbb P(\eta = k) = \int\limits_0^{+\infty} \lambda_k e^{-\lambda_k x}\prod\limits_{i\ne k} e^{-\lambda_i x} , dx = \lambda_k \int\limits_0^{+\infty} \exp\Big(-\sum\limits_{i=1}^n \lambda_i x\Big),dx= \frac{\lambda_k}{\lambda_1 + \ldots + \lambda_n}. $$
Условные распределения случайных векторов определяется аналогично с поправкой на возросшее число аргументов: в этом случае $x$ и $y$ уже не числа, а вектора тех же размерностей, что и сами случайные вектора.
Условные математические ожидания
Условное математическое ожидание $\mathbb E(\xi\vert\eta = y)$ отвечает на вопрос «чему равно среднее значение случайной величины $\xi$ при условии, что $\eta = y$?». Имея в распоряжении матрицу условного дискретного распределения $\mathbb P(\xi = x_i\vert \eta = y_j)$ или условную плотность $p_{\xi\vert \eta}(x\vert y)$, условное математическое ожидание можно вычислить следующим образом:
- $\mathbb E(\xi\vert\eta)\equiv \mathbb E(\xi\vert\eta=y) = \sum\limits_i x_i \mathbb P(\xi = x_i\vert \eta = y)$ в дискретном случае;
- $\mathbb E(\xi\vert\eta) \equiv \mathbb E(\xi\vert\eta=y) = \int\limits_{\mathbb R} x p_{\xi\vert \eta}(x\vert y),dx$ для непрерывных $\xi$ и $\eta$.
Важно отметить, что после суммирования или интегрирования по переменной $x$ в формуле условного математического ожидания остаются зависимость от $y$. Таким образом, в отличие от обычного среднего, которое является просто числом, условное ожидание представляет собой случайную величину $\zeta = \mathbb E(\xi\vert\eta=y)$, поскольку его значение зависит от случайного значения $\eta = y$.
Свойства условного математического ожидания
$\mathbb E(a\xi_1 + b \xi_2 \vert \eta) = a\mathbb E (\xi_1\vert \eta) + b \mathbb E (\xi_2 \vert\eta)$ (линейность).
Если $\xi_1 \leqslant \xi_2$, то $\mathbb E (\xi_1\vert \eta) \leqslant \mathbb E (\xi_2\vert \eta)$ (монотонность).
Если случайные величины $\xi$ и $\eta$ независимы, то $\mathbb E(\xi\vert\eta) = \mathbb E\xi$.
$\mathbb E(g(\eta) \xi\vert\eta) = g(\eta) \mathbb E(\xi\vert \eta)$.
$\mathbb E\big(\mathbb E(\xi\vert \eta)\big) = \mathbb E\xi$ (law of total expectation).
Упражнение. Prove the law of total expectation.
Ответ (не открывайте сразу, попробуйте сначала решить самостоятельно)
Пусть $\zeta = \mathbb E(\xi \vert \eta)$. Начнём с дискретного случая:
$$ \mathbb E\zeta = \sum\limits_j \mathbb E(\xi\vert\eta = y_j)\mathbb P(\eta = y_j) = \sum\limits_j\sum\limits_i x_i \mathbb P(\xi = x_i\vert \eta = y_j)\mathbb P(\eta = y_j)= $$ $$ =\sum\limits_i x_i \sum\limits_j\mathbb P(\xi = x_i, \eta = y_j) =\sum\limits_i x_i \mathbb P(\xi = x_i) = \mathbb E\xi. $$
В непрерывном случае вместо сумм потребуется переставить местами интегралы. Это позволяет сделать теорема Фубини о сведении двойного интеграла к повторному:
$$ \mathbb E\zeta = \int\limits_{-\infty}^{+\infty}\mathbb E(\xi\vert\eta = y) p_\eta(y),dy = \int\limits_{-\infty}^{+\infty} p_\eta(y),dy \int\limits_{-\infty}^{+\infty}x p_{\xi\vert\eta}(x\vert y),dx = $$ $$ = \int\limits_{-\infty}^{+\infty} x,dx \int\limits_{-\infty}^{+\infty} p(x, y),dy = \int\limits_{-\infty}^{+\infty} xp_\xi(x) ,dx = \mathbb E\xi. $$
Условная дисперсия определяется по формуле
$$ \mathbb V(\xi \vert \eta) = \mathbb E\big((\xi - \mathbb E(\xi\vert \eta))^2 \vert \eta\big) = \mathbb E(\xi^2 \vert \eta) - \big(\mathbb E(\xi \vert \eta))^2. $$
Справедливо равенство $\mathbb V \xi = \mathbb E\big(\mathbb V(\xi\vert \eta)\big) + \mathbb V\big(\mathbb E(\xi\vert \eta)\big)$ (law of total variance).
Регрессия
В машинном обучении часто встречается задача регрессии, в которой требуется восстановить зависимость $Y = f(X)$ при наличии выборки
$$ (X_1, Y_1), \ldots, (X_n, Y_n) $$
из некоторого неизвестного распределения с совместной плотностью $p(x, y)$. Стандартный способ решения задачи регресии — минимизация среднего значения функции потерь $\mathcal L(Y, f(X))$:
В качестве функции потерь на одном объекте $(x, y)$ в задаче регрессии обычно выбирают квадратичную функцию: $\mathcal L(y, f(x)) = (y-f(x))^2$. Тогда
для минимизации этого функционала применим немножко вариационного исчисления и продифференцируем по функции $f(x)$. Получим
откуда
Полученное условное математическое ожидание, называемое функцией регрессии, показывает, чему в среднем равно значение зависимой переменной $Y$ при условии, что $X=x$.