Принимая то или иное решение в условиях недостаточной информации, нам часто приходится взвешивать шансы, просчитывать риски, а то и вовсе уповать на удачу. Теория вероятностей предоставляет математические инструменты для проведения корректных рассуждений в условиях неопределённости, количественного измерения характеристик случайных событий и оценки правдоподобия их реализации.
Этот и последующий параграфы следует рассматривать как расширенный справочник, позволяющий освежить знания по вероятности и статистике, сделав при этом упор на приложении к машинному обучению. За более систематическим курсом по теории вероятностей читателю следует обратиться к серьёзным учебникам вроде Ширяева или Феллера. Для погружения в статистику смотри, например, книгу Лагутина. А особо нетерпеливым рекомендуем взглянуть на короткий и ёмкий Probability and Statistics Cookbook.
Вероятностное пространство
В учебниках вероятность традиционно поставляется в комплекте с вероятностным пространством. Не увлекаясь чрезмерным формализмом, можно сказать, что для задания вероятностного пространства нужны:
непустое множество $\Omega$, называемое пространством элементарных событий (исходов);
алгебра множеств $\mathcal F \subset 2^{\Omega}$ — набор подмножеств $\Omega$, замкнутый относительно дополнений, объединений и пересечений; каждый элемент $A\in\mathcal F$ называется событием;
вероятностная мера $\mathbb P \colon \mathcal F \to [0, 1]$, приписывающая каждому событию $A \in \mathcal F$ некоторую вероятность $\mathbb P(A) \in [0,1]$.
К вероятностному пространству $(\Omega, \mathcal F, \mathbb P)$ предъявляются следующие требования:
- $\varnothing \in \mathcal F$ (невозможное событие), $\Omega \in \mathcal F$ (достоверное событие);
- $\mathbb P(\Omega) = 1$;
- $\mathbb P(A\cup B) = \mathbb P(A) + \mathbb P(B)$, если $A, B \in \mathcal F$ и $A\cap B= \varnothing$ (аддитивность).
Упражнение. Докажите, что $\mathbb P(\varnothing) = 0$ и $\mathbb P(\bar A) = 1 - \mathbb P(A)$, если $A\in\mathcal F$.
Решение (не открывайте сразу, попробуйте сначала решить самостоятельно)
Аддитивность вероятности легко обобщается по индукции до свойства конечной аддитивности: если события $A_1, \ldots, A_n$ попарно несовместны, то
$$ \mathbb P\Big(\bigcup\limits_{k=1}^n A_k\Big) = \sum\limits_{k=1}^n \mathbb P(A_k). $$
Примечание
$$ \mathbb P\Big(\bigcup\limits_{n=1}^\infty A_n\Big) = \sum\limits_{n=1}^\infty \mathbb P(A_n), \quad A_i \cap A_j = \varnothing \text{ при } i\ne j. $$
Впрочем, эти свойства носят преимущественно теоретичеческий интерес, поскольку в прикладных задачах редко встречаются бесконечные наборы событий.
Множество $\Omega$ часто называют носителем; говорят также, что вероятностная мера (масса) $\mathbb P$ сосредоточена, или распределена, на носителе $\Omega$. В зависимости от типа носителя $\Omega$ распределения делятся на два типа: дискретные и непрерывные.
Дискретные распределения
Зачастую в результате эксперимента нас интересуют не вероятности событий сами по себе, а значения некоторой связанной с ними случайной величины, принимающей числовые значения. Например:
- сумма очков, выпавших при броске двух кубиков;
- число метеоритов диаметром более одного метра, падающих на Землю в течение года;
- ежедневный доход от показа рекламных объявлений в интернете.
На каждом элементарном исходе $\omega_k$ случайная величина $\xi$ принимает некоторое числовое значение $\xi_k = \xi(\omega_k)$. Иными словами, случайная величина — это функция $\xi \colon \Omega \to \mathbb R$, принимающая значение $\xi_k$ с вероятностью $p_k$; её математическое ожидание (среднее) и дисперсия (среднеквадратичное отклонение) вычисляются по формулам
$$ \mathbb E\xi = \sum\limits_{k} \xi_k p_k \text{ и }\mathbb V\xi = \mathbb E\big(\xi - \mathbb E \xi\big)^2 = \mathbb E \xi^2 - \big(\mathbb E \xi\big)^2 $$
соответственно. Корень из дисперсии $\sqrt{\mathbb V \xi}$ назвают стандартным отклонением случайной величины $\xi$. Стандартное отклонение и дисперсия показывают, насколько далеко значения случайной величины могут отклоняться от среднего значения. Стандартное отклонение хорошо тем, что, в отличие от дисперсии, измеряется в тех же единицах, что и сама случайная величина.
Равномерное распределение
Равномерным распределением моделируются различные игровые ситуации:
- подбрасывание симметричной монеты ($\omega_1 = «орёл»$, $\omega_2 = «решка»$);
- подбрасывание кубика ($\omega_k = k$, $1\leqslant k \leqslant 6$);
- вращение рулетки в казино ($n=37$ для европейской, $n=38$ для американской).
Упражнение. У европейской рулетки по $18$ чёрных и красных секторов и один сектор «зеро». Игрок ставит €10 на чёрное. В случае успеха казино выплачивает ему ещё €10, в противном случае забирает ставку. Чему равно математическое ожидание, дисперсия и стандартное отклонение выигрыша?
Решение (не открывайте сразу, попробуйте сначала решить самостоятельно)
Случайная величина $\xi^2$ постоянна (а вовсе не «случайна») и при любом исходе равна 100 («квадратных евро»?), поэтому
$$ \mathbb V\xi = \mathbb E \xi^2 - \big(\mathbb E \xi\big)^2 = 100 \cdot\Big(1 - \frac{1}{37^2}\Big)\approx 99.927. $$
Стандартное отклонение выигрыша равно $\frac{10 \sqrt{1368}}{37} \approx 9.996$ евро, что почти совпадает со ставкой игрока. Это отражает сущность игры в рулетку: либо пан, либо пропал. Причём последнее чуть вероятнее из-за отрицательности математического ожидания.
Вопрос на подумать. Бывают ли равномерные распределения в пространствах со счётным носителем?
Ответ (не открывайте сразу, сначала подумайте самостоятельно)
Равномерные распределения преимущественно встречаются в разного сорта играх. В более жизненных ситациях случайность обычно распределена отнюдь не равномерно.
Распределение Бернулли
Так называется очень простое распределение всего лишь с двумя исходами:
$$ \mathbb P(\text{«успех»}) = p, \quad \mathbb P(\text{«неудача»}) = 1-p, \quad 0\leqslant p \leqslant 1. $$
Бернуллиевская случайная величина $\xi\sim\mathrm{Bern}(p)$ — это просто индикаторная функция успешного события: $\xi = 1$, если случился «успех», $\xi = 0$, если нас постигла «неудача». Несложные вычисления показывают, что
$$ \mathbb E \xi = 1\cdot p + 0 \cdot (1-p) = p, \quad \mathbb V \xi = p-p^2 = p(1-p). $$
Если $p=\frac 12$, то снова получается равномерное распределение с двумя исходами. При $p\ne \frac 12$ бернуллиевская случайная величина моделирует подбрасывание несимметричной монеты. В машинном обучении часто встречается задача бинарной классификации, и разбиение на классы обычно кодируется с помощью $\mathrm{Bern}(p)$, например:
- диагностика болезни (болен — $1$, здоров — $0$);
- оценка кредитоспособности клиента (одобрить кредит — $0$, отказать $1$);
- предсказание поведения пользователя (кликнет на рекламу — $1$, пропустит — $0$).
В этих примерах вероятности классов явно не равны, поэтому несимметричное распределение Бернулли — типичная ситуация в реальных задачах.
Биномиальное распределение
Биномиальное распределение $\mathrm{Bin}(n, p)$ имеет сумма независимых бернуллиевских случайных величин $\xi_k\sim \mathrm{Bern}(p)$: $\eta \sim \mathrm{Bin}(n, p)$, если $\eta = \xi_1 + \ldots + \xi_n$. Другими словами, случайная величина $\eta$ равна количеству успехов в $n$ независимых испытаниях Бернулли с вероятностью успеха $p$. Случайная величина $\eta$ принимает значения от $0$ до $n$, и
$$ p_k=P(\eta = k) = \binom nk p^k (1-p)^k,\quad 0\leqslant k \leqslant n. $$
Отметим, что согласно биному Ньютона $$ \sum\limits_{k=0}^n p_k = \big(p + (1-p)\big)^n = 1, $$ поэтому числа ${p_k}$ действительно представляют собой распределение вероятностей, называемое также биномиальным. Если $\xi \sim\mathrm{Bin}(n, p)$, то
$$ \mathbb E \xi = np, \quad \mathbb V \xi = np(1-p). $$
Пример. Каждый день рекламу компании А поисковой выдаче Яндекса видят ровно $1000$ человек. Вчера $50$ из них кликнули на рекламу. Для прогнозирования объемов продаж компании А хочется знать, с какой вероятностью не менее 50 людей кликнут на ее рекламу сегодня.
Если моделировать наличие или отсутствие клика бернуллиевской случайной величиной, то общее количество кликов за день моделируется случайной величиной $\xi \sim \mathrm{Bin}(n, p)$ с параметрами $n=1000$ и $p = \frac{50}{1000} = 0.05$. Тогда с помощью вычислительной техники получаем, что
$$ \mathbb P(\xi \geqslant 50) = \sum\limits_{k = 50}^{n} \binom{n}{k} p^k (1 - p)^{n-k} = 1 - \sum\limits_{k = 0}^{49} \binom {1000}{k} 0.05^k 0.95^{1000 - k} \approx 0.52. $$
Отметим, что параметр $p$ в предыдущем примере нам, строго говоря, не был известен, и вместо него мы использовали частотную оценку.
Распределение Пуассона
Известное разложение экспоненты в ряд Тейлора $e^\lambda = \sum\limits_{k=0}^\infty \frac{\lambda^k}{k!}$ позволяет заключить, что вероятности распределения Пуассона действительно суммируются в единицу. Этот же ряд позволяет вычислить, что
$$ \mathbb E \xi = \mathbb V \xi = \lambda. $$
Пуассоновская случайная величина моделирует число редких событий, происходящих в течение фиксированного промежутка времени: если события наступают со средней скоростью $r$, то
Иногда приходится рассматривать биномиальное распределение $\mathrm{Bin}(n, p)$ с большим числом попыток $n$ и вероятностью успеха $p$ с условием $np \approx \lambda > 0$. Оказывается, что вне зависимости от $n$ такое распределение быстро стабилизируется, сходясь к пуассоновскому распределению с параметром $\lambda$. Точнее говоря, справедлива следующая теорема.
Теорема (Пуассон). Пусть $\xi \sim \mathrm{Bin}(n, p_n)$ и $\lim\limits_{n \to \infty} np_n = \lambda > 0$. Тогда
Пример. Известно, что на поисковой выдаче яндекса на рекламу компании А кликает в среднем примерно 50 пользоваталей в день. Количество показов достаточно большое и может меняться изо дня в день. Требуется оценить вероятность того, что сегодня будет совершено не менее 50 кликов по рекламным объявлениям.
Распределение количества кликов снова будем моделировать биномиальным распределением $\mathrm{Bin}(n, p)$. На этот раз число $n$ нам неизвестно, но сказано, что оно велико и $np \approx 50$ (вспомним, что $\mathbb E\xi = np$, если $\xi \sim \mathrm{Bin}(n, p)$). Поэтому можно воспользоваться теоремой Пуассона и заменить биномиальное распределение пуассоновским с параметром $\lambda = 50$. Тогда искомая вероятность равна
$$ 1 - \sum\limits_{k = 0}^{49} e^{-50} \frac{50^k}{k!} \approx 0.518, $$
что практически совпадает ответом, полученным с помощью биномиального распределения при $n = 1000$.
Геометрическое распределение
Пусть монетка с вероятностью «успеха» $p$ подбрасывается до тех пор, пока впервые не случится «успех». Случайная величина $\xi$, равная общему количеству попыток на этом пути, имеет геометрическое распределение, т.е.
$$ \mathbb P(\xi = k) = q^{k-1}p, \quad q = 1-p, \quad k \in \mathbb N. $$
По формуле геометрической прогрессии находим, что
$$ \sum\limits_{k=1}^\infty \mathbb P(\xi = k) = \sum\limits_{k=0}^\infty q^kp = \frac p{1-q} = 1, $$
поэтому с нормировкой тут всё в порядке. Чем меньше $p$, тем больше геометрическое распределение похоже на равномерное, что подтверждают и формулы для среднего и дисперсии:
$$ \mathbb E \xi = \frac 1p, \quad \mathbb V \xi = \frac{1-p}{p^2}. $$
Пример. По оценкам за предыдущие дни пользователь нажимает на рекламу с вероятностью $p=0.05$. Сегодня компания B планирует показать очень важное рекламное объявление и требует от Яндекса, чтобы с вероятностью не менее $99%$ на него кликнули хотя бы раз. Скольким различным людям следует показать это объявление?
Здесь мы имеем дело с геометрическим распределением с вероятностью «успеха» (клика) $p$: именно так распределена случайная величина $\xi$, равная количеству показов объявления до первого клика по нему. Следовательно,
$$ \mathbb P(\xi \leqslant n) = \sum\limits_{k=1}^n \mathbb P(\xi = k) = \sum\limits_{k=1}^n q^{k-1}p = p\cdot \frac{1 - q^{n}}{1-q} = 1-q^n. $$
Эта вероятность должна быть не меньше $99%$, т. е. $0.95^n \geqslant 0.01$. Отсюда находим, что $n \geqslant \frac{\log 0.01}{\log 0.95} \approx 89.78$. Таким образом, рекламу надо показать как минимум $90$ раз.
Гипергеометрическое распределение
Пример. Известно, что партия из $N$ деталей содержит $K$ бракованных. Какова вероятность того, что среди выбранных наугад $n$ деталей окажется ровно $k$ бракованных?
Всего есть $\binom N n$ способов выбора $n$ деталей из партии. Число вариантов выбрать $k$ деталей из $K$ бракованных и $n-k$ из $N-K$ деталей без дефектов равно $\binom K k \binom{N-K}{n-k}$. По классическому определению вероятности получаем, что искомая вероятность равна
Такое распределение называется гипергеометрическим. Равенство
следует из тождества Вандермонда. Если случайная величина $\xi$ имеет гипергеометрическое распределение с параметрами $N$, $K$, $n$, то
$$ \mathbb E \xi = \frac{nK}{N}, \quad \mathbb V\xi = n\frac{K(N-K)(N-n)}{N^2(N-1)}. $$
Гипергеометрическое распределение является аналогом биномиального, при котором моделируется выбор без возвращения с вероятностью успеха $p\approx \frac KN$.
Непрерывные распределения
Вероятностная модель с конечным или счётным носителем не подходит в тех случаях, когда результатом эксперимента удобно считать произвольное действительное число, например, распределение людей по росту или по весу. Для этого требуется пересмотреть подход к построению пространства элементарных событий $\Omega$: ведь множество действительных чисел $\mathbb R$ континуально, и поэтому вероятность события не получится определить как сумму вероятностей всех составляющих исходов, коих тоже может оказаться континуум. Приходится искать другие способы задания вероятности.
Наиболее часто встречающийся на практике класс непрерывных распределений на числовой прямой задаётся с помощью неотрицательной интегрируемой функции плотности (probability density function, pdf) $p(x)$ со свойством
$$ \int\limits_{-\infty}^{+\infty} p(x) dx = 1. $$
Вероятность события $A$ определяется как $$ \mathbb{P}(A) = \int\limits_{A} p(x) dx $$ при условии, что этот интеграл имеет смысл. В частности, $$ \mathbb{P}([a, b)) = \int\limits_a^b p(x) dx. $$
Замечание. Связь между вероятностью и плотностью распределения весьма напоминает связь между массой и физической плотностью. Когда плотность объекта всюду одинакова, то масса равна плотности, умноженной на объём. Если же объект неоднороден, то плотность становится функцией, сопоставляющей каждой точке некое число (что-то вроде предела отношения массы малого шарика вокруг этой точки к объёму шарика). Тогда масса любого куска объекта может быть вычислена, как интеграл функции плотности по объёму этого куска.
С плотностью вероятности $p(x)$ автоматически связана случайная величина $\xi\colon \mathbb R \to \mathbb R$, для которой $\mathbb P(a\leqslant \xi < b) = \int\limits_a^b p(x),dx$. Функция $p(x)$ называется плотностью случайной величины $\xi$, и обозначается также как $p_\xi(x)$. Иногда используется запись $\xi \sim p(x)$. Среднее и дисперсия случайной величины $\xi \sim p(x)$ вычисляются по формулам
$$ \mathbb E \xi = \int\limits_{-\infty}^{\infty} xp(x),dx,\quad \mathbb V \xi = \int\limits_{-\infty}^{\infty} x^2p(x),dx - (\mathbb E \xi)^2. $$
Равномерное распределение
Равномерное распределение на отрезке $[a;b]$, которое часто обозначают $U[a,b]$, имеет постоянную плонтность на этом отрезке:
Если $\xi \sim U[a,b]$, то
$$ \mathbb E \xi = \frac {a+b}2,\quad \mathbb V \xi = \frac{(b-a)^2}{12}. $$
Вопрос на подумать. Можно ли задать равномерное распределения на неограниченном промежутке, например, на $\mathbb R$ или на $\mathbb [0, +\infty)$?
Ответ (не открывайте сразу, сначала подумайте самостоятельно)
Аналогичным образом вводится равномерное распределение в многомерном пространстве: если множество $V \subset \mathbb R^n$ имеет объём $\vert V\vert$, то плотность равномерно распределённой на $V$ случайной величины $\xi$ задаётся как $p_\xi(\boldsymbol x) = \frac{\mathbb I(\boldsymbol x \in V)}{\vert V\vert}$. Если $A \subset V$, то
$$ \mathbb P(A) = \frac 1{\vert V\vert}\int\limits_A d\boldsymbol x = \frac {\vert A\vert}{\vert V\vert}, $$
и мы получили формулу геометрической вероятности.
Нормальное распределение
Случайная величина $\xi$ имеет нормальное (гауссовское) распределение $\mathcal N(\mu, \sigma^2)$, если её плотность равна
$$ p_\xi(x) = \frac 1{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}. $$
Параметры нормального распределения $\mathcal N(\mu, \sigma^2)$ представляют собой его среднее и дисперсию:
$$ \mathbb E \xi = \mu,\quad \mathbb V \xi = \sigma^2. $$
Параметр $\sigma$ отвечает за выраженность «колокола» плотности нормального распределения:
- при $\sigma \to 0$ «колокол» приобретает очертания резко выраженного пика, то есть практически вся вероятностная масса сосретдоточена в малой окрестности точки $x = \mu$;
- при $\sigma \to +\infty$ «колокол», наоборот, размывается, и распределение становится больше похоже на равномерное.
Гауссиана, у которой $\mu=0$ и $\sigma = 1$, называется стандартным нормальным распределением.
Иногда бывает полезно тесно связанное с гауссовским логнормальное распределение. Случайная величина $\xi \colon (0, +\infty) \to \mathbb R$ имеет логнормальное распределение, $\xi \sim \mathcal{LogN}(\mu, \sigma^2)$, если $\log \xi \sim \mathcal N(\mu, \sigma^2)$. Плотность логнормальной случайной величины равна
$$ p_\xi(x) = \frac 1{\sqrt{2\pi}\sigma x} e^{-\frac{(\log x-\mu)^2}{2\sigma^2}}, \quad x > 0, $$
а её среднее и дисперсию можно вычислить по формулам
$$ \mathbb E\xi = e^{\mu + \frac{\sigma^2}2}, \quad \mathbb V\xi=\big(e^{\sigma^2} - 1\big) e^{2\mu + \sigma^2}. $$
Показательное распределение
Плотность показательного (экспоненциального) распределения $\mathrm{Exp}(\lambda)$ сосредоточена на луче $[0, +\infty)$ и имеет параметр $\lambda > 0$: $p(x) = \lambda e^{-\lambda x}$, $x \geqslant 0$. Если $\xi \sim \mathrm{Exp}(\lambda)$, то
$$ \mathbb E \xi = \frac 1\lambda,\quad \mathbb V \xi = \frac 1{\lambda^2}. $$
Плотность показательного распределения является убывающей функцией на $[0, +\infty)$, а параметр $\lambda$ отвечает за скорость этого убывания:
- при $\lambda \to 0$ убывание очень медленное, и распределение больше похоже на равномерное;
- при $\lambda \to +\infty$, наоборот, вся вероятностная масса сосредоточена около точки $0$.
Показательное распределение моделирует временные интервалы между случайными событиями, наступающими с постоянной скоростью, например:
- время ожидания автобуса на остановке;
- время между телефонными звонками в колл-центре;
- время до выхода из строя вычислительного узла в дата-центре.
Гамма-распределение с положительными параметрами $\alpha$ и $\beta$ имеет плотность
$$ p(x) = \frac 1{\Gamma(\alpha) \beta^\alpha} x^{\alpha - 1} e^{-\frac x \beta},\quad x \geqslant 0, $$
где $\Gamma(\alpha)$ — гамма-функция Эйлера. При $\alpha =1$ гамма-распределение превращается в показательное с параметром $\lambda = \frac 1\beta$. Среднее и дисперсия случайной величины $\xi$, имеющей гамма-распределение с параметрами $\alpha$ и $\beta$, равны
$$ \mathbb E\xi = \alpha\beta, \quad \mathbb V\xi = \alpha\beta^2. $$
Бета-распределение
Плотность бета-распределения с параметрами $\alpha, \beta > 0$ равна
$$ p(x) = \frac 1{B(\alpha, \beta)} x^{\alpha - 1} (1-x)^{\beta -1}, \quad 0 < x < 1, $$
где $B(\alpha, \beta)$ — бета-функция Эйлера.
Бета-распределение имеет следующее статистическое приложение. Выберем случайным образом точки $x_1, \ldots, x_n \in [0,1]$, и упорядочим их по возрастанию. Получим набор значений
$$ 0\leqslant x_{(1)} \leqslant x_{(2)} \leqslant \ldots \leqslant x_{(k)} \leqslant \ldots \leqslant x_{(n)} \leqslant 1. $$
Оказывается, что случайная величина $\xi = x_{(k)}$, называемая $k$-й порядковой статистикой, имеет бета распределение с параметрами $k$ и $n+1 - k$:
$$ p_\xi(x) = \frac{n!}{(k-1)!(n-k)!} x^{k-1}(1-x)^{n-k} = k \binom nk x^{k-1}(1-x)^{n-k}. $$
Доказательство
$$\binom {n}{j}y^j(1 - y)^{n-j}.$$
Чтобы получить вероятность того, что успехов хотя бы $k$, надо просуммировать эти числа по $j$ от $k$ до $n$:
$$F_\xi(y) = \mathbb P (x_{(k)} \leqslant y) = \sum_{j=k}^n\binom {n}{j}y^j(1 - y)^{n-j}.$$
Чтобы получить плотность, продифференцируем функцию распределения:
$$ p_{\xi}(y) = \sum_{j=k}^n j\binom nj y^{j-1}(1 - y)^{n-j} - \sum_{j=k}^{n-1} (n-j)\binom nj y^{j}(1 - y)^{n-1-j}. $$
Легко проверяется, что $j\binom nj = n\binom {n-1}{j-1}$, $(n-j)\binom nj = n\binom{n-1}j$, и поэтому
$$ \sum_{j=k}^n j\binom nj y^{j-1}(1 - y)^{n-j} = \sum_{j=k-1}^{n-1} n\binom{n-1}j y^{j}(1 - y)^{n-1-j} $$
И мы видим, что большинство слагаемых сокращается и выживает лишь одно:
$$ p_{\xi}(y) = \frac{n!}{(k-1)!(n-k)!}y^{k-1}(1 - y)^{n-k}. $$
Распределение Стьюдента
При проверке статистических гипотез бывает полезно распределение Стьюдента (t-distribution) с $\nu$ степенями свободы, плотность которого равна
$$ p(x) = \frac{\Gamma(\frac{\nu+1}{2})} {\sqrt{\nu\pi},\Gamma(\frac{\nu}{2})} \left(1+\frac{x^2}\nu \right)^{-(\nu+1)/2}, \quad \nu > 0, $$
где $\Gamma(\alpha)$ — гамма-функция Эйлера. Распределение Стьюдента похоже на стандартное нормальное распределение; более того, при $\nu\to +\infty$ оно превращается в $\mathcal N(0, 1)$.
Однако при малых значениях $\nu$ распределение Стьюдента имеет гораздо более тяжёлые «хвосты»: например, при $\nu \leqslant 2$ его дисперсия бесконечна, а при $\nu \leqslant 1$ та же участь постигает и математическое ожидание (всё из-за расходимости соответствующих интегралов). В остальных случаях
$$ \mathbb E \xi = 0, \quad \mathbb V \xi = \frac{\nu}{\nu-2}, $$
если $\xi$ имеет распределение Стьюдента с $\nu$ степенями свободы.
Распределение Лапласа
Плотность распределения Лапласа с параметрами $\mu, b$ равна
$$ p(x) = \frac 1{2b} e^{-\frac{\vert x - \mu\vert}b}. $$
Такое распределение иногда обозначают $\mathrm{Laplace}(\mu, b)$. Если $\xi \sim \mathrm{Laplace}(\mu, b)$, то
$$ \mathbb E \xi = \mu, \quad \mathbb V \xi = 2b^2. $$
При $\mu=0$ распределение Лапласа представляет собой экспоненциальное распределение, плотность которого симметрично отражена на отрицательную полуось: если $\xi \sim \mathrm{Laplace}(0, b)$, то $\vert \xi \vert \sim \mathrm{Exp}\big(\frac 1b\big)$. Распределение Лапласа похоже на нормальное и отличается от него немного более тяжёлыми «хвостами» и тем, что его плотность теряет гладкость в нуле.
Характеристики случайных величин
Моменты
Если $n\in \mathbb N$, то $n$-й момент $\mu_n$ случайной величины $\xi$ равен $\mathbb E \xi^n$. В зависимости от типа случайной величины моменты вычисляются по-разному:
- $\mu_n = \sum\limits_k x_k^n \mathbb P(\xi = x_k)$, если $\xi$ принимает дискретные значения $x_1, x_2, \ldots, x_k, \ldots$;
- $\mu_n = \int\limits_{-\infty}^{+\infty} x^n p_\xi(x), dx$, если $\xi$ имеет плотность $p_\xi(x)$.
Первый момент $\mu_1$ — это в точности математическое ожидание (среднее) случайной величины $\xi$. Дисперсию тоже можно выразить через моменты:
$$ \mathbb V\xi = \mathbb E \xi^2 - \big(\mathbb E\xi\big)^2 = \mu_2 - \mu_1^2. $$
Не у всех случайных величин есть конечные среднее и дисперсия. Например, распределение Коши (оно же распределение Стьюдента с одной степенью свободы) имеет плотность $p(x) = \frac 1\pi \frac 1{1+x^2}$, и если мы попытаемся вычислить первые два момента, то получим расходящиеся интегралы
$$ \frac 1\pi\int\limits_{-\infty}^{+\infty} \frac{x}{1+x^2} dx \text{ и } \frac 1\pi\int\limits_{-\infty}^{+\infty} \frac{x^2}{1+x^2} dx. $$
Упражнение. Приведите пример дискретной случайной величины с бесконечным средним.
Ответ
Свойства математического ожидания
Если $\xi = C$, то $\mathbb E \xi = C$.
$\mathbb E(a\xi + b \eta) = a\mathbb E \xi + b \mathbb E \eta$ (линейность).
Если $\xi \leqslant \eta$, то $\mathbb E \xi \leqslant \mathbb E \eta$ (монотонность).
$\mathbb E \mathbb I(A) = \mathbb P(A)$.
Если случайные величины $\xi$ и $\eta$ независимы, то $\mathbb E\xi\eta = \mathbb E\xi \mathbb E\eta$.
Если $\xi \geqslant 0$, то $\mathbb P(\xi \geqslant a) \leqslant \frac{\mathbb E \xi}{a}$ (неравенство Маркова).
Если функция $f$ выпукла вниз, то $f(\mathbb E \xi) \leqslant \mathbb E(f(\xi))$ (неравенство Йенсена).
Law of the unconscious statistician (LOTUS)
Если случайная величина $\eta$ получена применением некоторой детерминированной функцией из случайной величины $\xi$, $\eta = g(\xi)$, то
- $\mathbb E\eta = \sum\limits_k g(x_k) \mathbb P(\xi = x_k)$, если $\xi$ дискретна;
- $\mathbb E\eta = \int\limits_{-\infty}^{+\infty} g(x) p_{\xi}(x),dx$, если $\xi$ непрерывна.
Дисперсия и ковариация
Ковариация случайных величин $\xi$ и $\eta$ определяется по формуле
$$ \mathrm{cov}(\xi,\eta) = \mathbb E(\xi - \mathbb \xi)(\eta - \mathbb E \eta) = \mathbb E\xi \eta - \mathbb E\xi \mathbb E\eta. $$
В частности, $\mathrm{cov}(\xi,\xi) = \mathbb V \xi$. На практике часто применяют коэффициент корреляции, который получается нормированием ковариации:
$$ \mathrm{corr}(\xi, \eta) = \frac{\mathrm{cov}(\xi,\eta)}{\sqrt{\mathbb V \xi}\sqrt{\mathbb V \eta}}. $$
Коэффициент корреляции всегда принимает значения из отрезка $[-1;1]$. Если $\mathrm{corr}(\xi, \eta) = 0$, то случайные величины $\xi$ и $\eta$ называют некоррелированными.
Свойства дисперсии и ковариации
$\mathbb V \xi \geqslant 0$, причём $\mathbb V \xi = 0 \iff \exists a\in\mathbb R \colon \mathbb P(\xi = a) = 1$.
$\mathbb V (a\xi) = a^2 \mathbb V \xi$, $\mathbb V(\xi + a) = \mathbb V\xi$.
$\mathrm{cov}(\xi, \eta) = \mathrm{cov}(\eta, \xi)$, $\mathrm{cov}(a\xi, b\eta) = ab\mathrm{cov}(\xi, \eta)$.
$\mathbb V(\xi + \eta) = \mathbb V \xi + \mathbb V \eta + 2\mathrm{cov}(\xi, \eta)$.
Если случайные величины $\xi$ и $\eta$ независимы, то $\mathrm{cov}(\xi, \eta) = 0$ и $\mathbb V(\xi + \eta) = \mathbb V\xi + \mathbb V\eta$.
$\mathbb P(\vert\xi - \mathbb E\xi\vert \geqslant a) \leqslant \frac{\mathbb V \xi}{a^2}$ (неравенство Чебышева).
Функции распределения и плотности
Случайная величина $\xi \colon \Omega \to \mathbb{R}$ является числовой функцией, заданной на пространстве элементарных событий; однако, больший интерес обычно представляет порождаемое ею распределение вероятностей. В дискретном случае достаточно задать вероятности отдельных значений $\mathbb{P}(\xi = x_i)$; для непрерывных же случайных величин на помощь приходят функция распределения и функция плотности.
Функцией распределения (cumulative distribution function, cdf) случайной величины $\xi$ называется функция $$F_\xi(x) = \mathbb{P}(\xi \leqslant x).$$
Свойства функции распределения $F_\xi$:
- $F_\xi(-\infty) = 0$, $F_\xi(+\infty) = 1$;
- функция $F_\xi$ неубывающая;
- функция $F_\xi$ непрерывна справа: $\lim\limits_{h \to 0+ } F_\xi(x + h) = F_\xi(x)$;
- $\mathbb{P}(a < \xi \leqslant b) = F_\xi(b) - F_\xi(a)$.
Любая дискретная случайная величина имеет ступенчатую функцию распределения. К примеру, вот как выглядит график функции $F_\xi$ для $\xi \sim \mathrm{Bin}(10, 0.5)$:
Если непрерывная случайная величина $\xi$ имеет непрерывную плотность $p_\xi(x)$, то
$$ F_\xi(x) - F_\xi(a) = \int\limits_a^x p_\xi(t), dt, $$
Замечание о плотностях дискретных случайных величин
Дискретные случайные величины не имеют плотности в описанном выше смысле. Например, возьмем $\xi$ – выпавшее число на идеальной кости. Тогда $p_\xi$ равна 0 везде кроме 1, 2, 3, 4, 5, 6. При этом вероятность выпасть 1 равна $\tfrac16$, то есть
$$ \int\limits_{1 - \varepsilon}^{1 + \varepsilon} p_\xi(x), dx = \frac16 $$
для любого малого $\varepsilon > 0$. Среди обычных функций мы такой плотности не найдём, однако, её можно выразить в терминах обобщенных функций:
$$ p_\xi(x) = \frac 16 \sum\limits_{k=1}^6 \delta(x-k), $$
где $\delta(x)$ – дельта-функция Дирака, обладающая свойством
$$ \int\limits_{-\infty}^{+\infty} \delta(x)f(x),dx = f(0) $$
для любой непрерывной функции $f$. Отсюда, в частности, следует, что
$$ \int\limits_{x_0-\varepsilon}^{x_0 + \varepsilon} \delta(x - x_0), dx = 1. $$
До какой-то степени $\delta(x)$ можно представлять себе как «функцию», равную $0$ везде, кроме $x=0$, а в нуле принимающую некоторое экзотическое «бесконечное» значение.
Медиана и мода
Математическое ожидание — не единственная числовая метрика, с помощью которой можно пытаться охарактеризовать, чему равно в среднем значение случайной величины. Медиана разбивает вероятностную массу распределения на две равные части. Если случайная величина $\xi$ имеет плотность $p_\xi(x)$, то её медиана $m = \mathrm{med}\xi$ определяется из условия
$$ \mathbb P(\xi \leqslant m) = \int\limits_{-\infty}^m p_\xi(x),dx = \int\limits_m^{+\infty} p_\xi(x),dx = \mathbb P(\xi \geqslant m) = \frac 12. $$
В терминах функции распределения это означает, что $F_\xi(m) = 1 - F_\xi(m)$, или $F_\xi(m) = \frac 12$. В непрерывном случае функция распределения $F_\xi(x)$ строго возрастает, поэтому уравнение $F_\xi(m) = \frac 12$ имеет единственное решение. Для дискретных случайных величин это может быть не так, и поэтому в общем случае медиану определяют как число $m$, удовлетворяющее условиям
$$ \mathbb P(\xi \leqslant m) \geqslant \frac 12, \quad \mathbb P(\xi \geqslant m) \geqslant \frac 12. $$
Например, если $\xi \sim \mathrm{Bern}\big(\frac 12\big)$, то $\mathbb P(\xi = 0) = \mathbb P(\xi = 1) = \frac 12$, и поэтому любое число $m \in (0, 1)$ является медианой симметричного бернуллиевского распределения. Бесконечное количество медиан будет у всякой дискретной случайной величины $\xi$, для которой $F_\xi(x) = \frac 12$ на целом промежутке.
Мода распределения максимизирует его pmf или pdf:
$$ \mathrm{mode}(\xi) = \mathrm{arg}\max\limits_k \mathbb P(\xi = k) \text{ или } \mathrm{mode}(\xi) = \mathrm{arg}\max\limits_x p_\xi(x). $$
Мод у распределения может быть больше одной; самое вырожденное в этом смысле распределение — равномерное, каждая точка носителя является его модой. Если плотность случайной величины имеет единственную точку максимума, то она и является модой. Например:
- $\mathrm{mode}(\xi) = \mu$, если $\xi \sim \mathcal N(\mu, \sigma^2)$;
- $\mathrm{mode}(\xi) = 0$, если $\xi \sim \mathrm{Exp}(\lambda)$;
- мода t-распределения Стьюдента также равна нулю.
Все такие распределения унимодальны. Если плотность $p_\xi(x)$ имеет два или более максимума, то случайная величина $\xi$ называется бимодальной или мультимодальной.
Для симметричных распределений вроде нормального математическое ожидание, медиана и мода совпадают, однако, в общем случае это три различные меры типичного среднего значения случайной величины. Смысл каждой из этой мер наглядно демострирует следующая иллюстрация:
Упражнение. Найдите среднее, медиану и моду экспоненциального распределения с параметром $\lambda$ и сравните их между собой.
Ответ
Классификация случайных величин
У внимательного читателя (отягощённого математическим образованием впридачу) может возникнуть вопрос: а все ли случайные величины относятся к дискретным или непрерывным? В буквально такой постановке ответ, конечно, отрицательный, поскольку можно получить гибридную случайную величину, сложив дискретную и непрерывную. Но, может быть, всякая случайная величина равна сумме непрерывной и дискретной компонент?
В терминах функций распределения этот вопрос можно переформулировать так: верно ли, что всякая монотонная функция $F \colon \mathbb R \to \mathbb [0, 1]$ может быть представлена в виде $F = F_{\mathrm{jump}} + F_{\mathrm{smooth}}$, где $F_{\mathrm{jump}}$ — неубывающая ступенчатая функция (функция скачков), а
$$ F_{\mathrm{smooth}}(x) = \int\limits_{-\infty}^x p(t),dt $$
— гладкая возрастающая функция, полученная интегрированием плотности?