16.5. Независимость и условные распределения вероятностей

Автор(ы):

Сергей Лыткин

В этом параграфе описываются, пожалуй, главные фичи теории вероятностей: независимые события и условные вероятности. Эти концепции имеют большое прикладное значение, да и с теоретической точки зрения главным образом благодаря им теория вероятностей выделяется в отдельную ветвь математики.

Условная вероятность

Условная вероятность возникает при ответе на вопрос о том, каковы шансы события $A$ при условии,что случилось событие $B$, и обозначается $\mathbb P(A\vert B)$.

Пример. Согласно исследованиям, в среднем $5%$ пациентов испытывают приступы кашля в течение дня, однако среди курильщиков доля кашляющих составляет $40%$. То есть (безусловная) вероятность $\mathbb P(\text{кашляет}) = 0.05$ при добавлении обусловливания может существенно измениться: $\mathbb P(\text{кашляет}\vert\text{курит}) = 0.4$.

Упражнение. Известно, что в семье два ребёнка, причём один из них мальчик. Какова вероятность, что другой ребёнок тоже мальчик?

Ответ (не открывайте сразу, попробуйте сначала решить самостоятельно)

Как ни странно, ответ вовсе не $50\%$. Пол новорождённого ребёнка можно приближённо считать результатом испытания Бернулли с вероятностью успеха $\frac 12$. Из четырёх возможных вариантов ММ, МД, ДМ, ДД условию удовлетворяют только первые три, и лишь в одном случае из этих трёх второй ребёнок тоже мальчик. Поэтому правильный ответ — $\frac 13$.

Добавляя формализма, обозначим

$$ A = \{\text{хотя бы один ребёнок — мальчик}\} $$

$$ B = \{\text{мальчики оба ребёнка}\}, $$

и тогда условная вероятность $\mathbb P(B\vert A)$ вычисляется по формуле

$$ \mathbb P(B\vert A) = \frac{\mathbb{P}(A \cap B)}{\mathbb{P}(A)} = \frac{1/4}{3/4} = \frac 13. $$

В общем случае условная вероятность $\mathbb P(B\vert A)$ при $\mathbb P(A) \ne 0$ полагается равной

$$ \mathbb{P}(B \vert A) = \frac{\mathbb{P}(A \cap B)}{\mathbb{P}(A)}. $$

В зависимости от соотношения событий $A$ и $B$ условная вероятность $\mathbb{P}(B \vert A)$ может принимать разные значения, например:

если $A\cap B = \varnothing$, то событие $A$ исключает реализацию события $B$, и $\mathbb{P}(B \vert A) = 0$;
если $A \subset B$, то событие $A$ гарантирует осуществление события $B$, и $\mathbb{P}(B \vert A) = 1$.

Разумеется, чаще всего события $A$ и $B$ соотносятся между собой более хитрым образом, и значение условной вероятности $\mathbb{P}(B \vert A)$ находится строго между $0$ и $1$.

Формула полной вероятности

Пусть пространство $\Omega$ разбивается на попарно несовместные события $B_1, B_2, \dots, B_n$:

$$ \Omega = B_1 \cup \ldots \cup B_n, \quad B_i \cap B_j = \varnothing \text{ при } i\ne j. $$

Тогда

$$ A = A\cap\Omega = (A\cap B_1) \cup \ldots \cup (A\cap B_n); $$

отсюда по свойству конечной аддитивности находим, что

$$ \mathbb P(A) = \mathbb{P}(A \cap B_1) + \ldots + \mathbb{P}(A \cap B_n). $$

Переходя к условным вероятностям, получаем формулу полной вероятности:

$$ \mathbb{P}(A) = \sum\limits_{k=1}^n \mathbb{P}(A \vert B_k) \mathbb{P}(B_k). $$

Пример. Среди населения $33.7%$ имеют первую группу крови, $37.5%$ — вторую, $20.9%$ — третью, $7.9%$ — четвёртую. При переливании крови надо учитывать группы крови донора и рецепиента:

реципиенту с четвёртой группой крови можно перелить кровь любой группы;
реципиентам со второй и третьей группами можно перелить кровь той же группы или первой;
реципиентам с первой группой крови можно перелить только кровь первой группы.

С какой вероятностью допустимо переливание в случайно взятой паре донор—реципиент?

Решение. Пусть событие $A$ состоит в том, что переливание возможно, а событие $B_k$ — в том, что донор имеет группу $k$. По формуле полной вероятности

$$ \mathbb P(A) = \mathbb P(A\vert B_1) \mathbb P(B_1) + \mathbb P(A\vert B_2) \mathbb P(B_2) + \mathbb P(A\vert B_3) \mathbb P(B_3) + \mathbb P(A\vert B_4) \mathbb P(B_4). $$

Вероятности $\mathbb P(B_k)$ даны в условии, оттуда же находим, что

$$ \mathbb P(A\vert B_1) = 1, $$ $$ \mathbb P(A\vert B_2) = \mathbb P(B_2) + \mathbb P(B_4), $$ $$ P(A\vert B_3) = \mathbb P(B_3) + \mathbb P(B_4), $$ $$ \mathbb P(A\vert B_4) = \mathbb P(B_4). $$

Подставляя численные значения, получаем

$$ \mathbb P(A) = 0.337 + (0.375+0.079)\cdot 0.375 + (0.209+0.079)\cdot 0.209 + 0.079^2 = 0.573683. $$

Упражнение. Решите предыдущий пример, выбирая в качестве разбиения набор событий $C_k$, каждое из которых заключается в том, что реципиент имеет группу $k$.

Ответ

По той же формуле полной вероятности получаем, что

$$ \mathbb P(A) = \mathbb P(A\vert С_1) \mathbb P(С_1) + \mathbb P(A\vert С_2) \mathbb P(С_2) + \mathbb P(A\vert С_3) \mathbb P(С_3) + \mathbb P(A\vert С_4) \mathbb P(С_4). $$

Ясно, что $\mathbb P(C_k) = \mathbb P(B_k)$; далее из условия находим, что

$$ \mathbb P(A\vert С_1) = \mathbb P(C_1), $$ $$ \mathbb P(A\vert C_2) = \mathbb P(C_1) + \mathbb P(C_2), $$ $$ P(A\vert C_3) = \mathbb P(C_1) + \mathbb P(C_3), $$ $$ \mathbb P(A\vert C_4) = 1. $$

Подставляя численные значения, получаем тот же ответ $\mathbb P(A) = 0.573683$.

Формула полной вероятности легко обобщается на случай счётного числа попарно несовместных событий $B_k$, а также на случай обусловливания по некоторому событию $C$, например:

$$ \mathbb{P}(A\vert C) = \sum\limits_n \mathbb{P}(A \vert B_n, C) \mathbb{P}(B_n \vert C). $$

Формула Байеса

Заметим, что вероятность $\mathbb{P}(A \cap B)$ можно записать двумя способами

$$ \mathbb{P}(B \vert A)\mathbb{P}(A) = \mathbb{P}(A \cap B) = \mathbb{P}(A \vert B)\mathbb{P}(B). $$

Оставим $\mathbb{P}(B \vert A)$ в левой части и получим формулу Байеса.

Формула Байеса. Для любоых событий $A$, $B$ c положительной вероятностью

$$ \mathbb{P}(B \vert A) = \frac{\mathbb{P}(A \vert B)\mathbb{P}(B)}{\mathbb{P}(A)}. $$

Для вычисления знаменателя в формуле Байеса часто используется формула полной вероятности.

Упражнение. Среди определенной группы людей вероятность некоторой болезни 0.02. Тест, позволяющий выявить болезнь, несовершенен. На больном он дает позитивный результат в 98 случаях из 100, и, кроме того, он дает позитивный результат в 4 случаях из 100 на здоровом. Найдите вероятность того, что человек, на котором тест дал положительный результат, действительно болен.

Ответ (не открывайте сразу, попробуйте сначала решить самостоятельно)

По формуле Байеса,

$$ \mathbb{P}(\text{болен}\vert\text{+}) = \frac{\mathbb{P}(\text{+}\vert\text{болен}) \mathbb{P}(\text{болен})}{\mathbb{P}(\text{+})}. $$

По условию, $\mathbb{P}(\text{+} \vert \text{болен}) = 0.98$, $\mathbb{P}(\text{болен}) = 0.02$. Чтобы посчитать вероятность теста быть положительньным, применим формулу полной вероятности:

$$ \mathbb{P}(\text{+}) = \mathbb{P}(\text{+} \vert \text{болен}) \mathbb{P}(\text{болен}) + \mathbb{P}(\text{+} \vert \text{здоров})\mathbb{P}(\text{здоров}) = 0.98 \cdot 0.02 + 0.04 \cdot 0.98 = 0.98 \cdot 0.06. $$

Тогда по формуле Байеса

$$ \mathbb{P}(\text{болен} \vert \text{+}) = \frac{0.98 \cdot 0.02}{0.98 \cdot 0.06} = \frac13. $$

Получается, что точность теста очень низка — всего лишь около 1 из 3. Это происходит, потому что больные люди встречаются редко (2 из 100), и эта частота сравнима с долей ошибок I и II рода — 0.02 и 0.04.

Для непрерывного случая тоже есть своя формула полной вероятности, см. раздел про условную вероятность.

Независимые события

События $A$ и $B$ называются независимыми, если $\mathbb{P}(A \vert B) = \mathbb{P}(A)$, то есть информация о реализации события $B$ никак не влияет на вероятность события $A$.

По определению условной вероятности независимость событий $A$ и $B$ эквивалентна тому, что

$$ \mathbb{P}(A \cap B) = \mathbb{P}(A) \mathbb{P}(B). $$

Последнее равенство годится для определения независмости событий $A$ и $B$ даже в том случае, если $\mathbb{P}(A) = 0 $ или $\mathbb{P}(B) = 0$.

Пример. В полной колоде карт находится $52$ карты: $4$ масти от двойки до туза. Вероятность вытащить туза равна $\mathbb P(\mathrm{Ace}) = \frac 4{52} = \frac 1{13}$, карту пиковой масти — $\mathbb P(\spadesuit) = \frac {13}{52} = \frac 1{4}$. Эти события независимы, поскольку в пересечении этих событий лежит ровно одна карта — туз пик, вероятность появления которого равна $\frac 1{52} = \frac 1{13} \cdot \frac 14 = \mathbb P(\mathrm{Ace})\mathbb P(\spadesuit)$.

Пусть теперь вытаскивается сразу две карты. Зависимы ли события «вытащены две карты пиковой масти» и «вытащены туз и король»? Посчитаем:

$$ \mathbb P(\spadesuit \spadesuit) = \frac{\binom{13}2}{\binom{52}2} = \frac{13\cdot 12}{52\cdot 51} = \frac 1{17}, $$

$$ \mathbb P(\mathrm{AK}) = \frac{16}{\binom{52}2} = \frac{32}{52\cdot 51} = \frac 8{663}. $$

Вероятность вытащить туза и короля пик равна $\frac 1{\binom{52}2} = \frac 1{1326}\approx 0.00075$, что отличается от $\mathbb P(\spadesuit \spadesuit)\mathbb P(\mathrm{AK}) = \frac 8{11271} \approx 0.00071$. Таким образом, эти события зависимы.

События $A_1, \ldots, A_n$ попарно независимы, если $\mathbb{P}(A_i \cap A_j) = \mathbb{P}(A_i) \mathbb{P}(A_j)$ при $i \ne j$. Эти же события независимы в совокупности, если

$$ \mathbb P\big(A_{i_1}\cap \ldots \cap A_{i_m}\big) = \prod\limits_{k=1}^m \mathbb P(A_{i_k}) $$

$$ \text{ для любого набора индексов } 1\leqslant i_1 < \ldots < i_m\leqslant n. $$

Упражнение. Приведите пример попарно независимых событий $A_1$, $A_2$, $A_3$, не являющихся независимыми в совокупности.

Ответ (не открывайте сразу, попробуйте сначала решить самостоятельно)

Раскрасим тетраэдр в три цвета следующим образом: одна грань красная (R), вторая — зелёная (G), третья — синяя (B), а четвёртая содержит все три цвета. События $R$, $G$, $B$ состоят в том, что при случайном броске на нижней грани тетраэдра есть соответствующий цвет. Тогда

$$ \mathbb P(R) = \mathbb P(G) = \mathbb P(B) = \frac 12, $$ $$ \mathbb P(R \cap G) = \mathbb P(R \cap B) = \mathbb P(G\cap B) = \frac 14, $$

что влечёт попарную независимость событий $R$, $G$, $B$. Однако $\mathbb P(R \cap G \cap B) = 0$, что не равно $\mathbb P(R)\mathbb P(G)\mathbb P(B) = \frac 18$, поэтому эти события не являются независимыми совокупности.

Определение независимости случайных величин из предыдущего параграфа полностью согласуется с только что введённым определением независимых событий. Например, для случая дискретных случайных величин $\xi$ и $\eta$ обозначим

$$ A_i = \mathbb P(\xi = x_i), \quad B_j = \mathbb P(\eta = y_j); $$

тогда $\mathbb P(\xi = x_i, \eta = y_j) = \mathbb P(A_i \cap B_j)$, и поэтому независимость случайных величин $\xi$ и $\eta$ эквивалентна независимости событий $A_i$ и $B_j$ для всевозможных значений $i$ и $j$.

Замечание о статистической независимости

Математический термин «независимость» подразумевает статистическую (или стохастическую) независимость, которая может не вполне совпадать по смыслу с интуитивным значением этого термина. Например, если вы два раза подкидываете симметричную монетку, то статистически результат первого броска никак не влияет на результат второго броска. Но так ли это с философской точки зрения? Вот представим две ситуации:

вы бросили монетку, быстро подняли с пола, и снова бросили;
монетка при первом броске укатилась далеко под диван, и вы полчаса ворочали мебель, прежде чем произвести второе испытание.

Весьма вероятно, что столь досадное происшествие после первого броска могло существенно повлиять на ваше физическое и моральное состояние. И уж точно второй бросок в ситуациях (1) и (2) вы бы совершили совершенно по-разному, что вполне могло отразиться на его результате.

Однако в математике подобным метафизическим измышлениям нет места. С абстрактным понятием независимости гораздо проще работать, поскольку оно игнорирует замысловатые причинно-следственные связи и прочие несущественные детали. В модели независимых испытаний Бернулли каждое следующее испытание статистически никак не зависит от предыдущих. Что бы с вами не происходило, шансы во втором броске — 50 на 50, именно об этом говорит нам независимость испытаний Бернулли с вероятностью успеха $\frac 12$, не больше и не меньше.

Условная независимость

Бывает так, что зависимые события $A$ и $B$ становятся независимыми при выполнении некоторого третьего события $C$. Более формально, события $A$ и $B$ условно независимы по отношению к событию $C$, если $\mathbb P(C) > 0$ и

$$ \mathbb P(A \vert B, C) = \mathbb P(A\vert C). $$

Поскольку

$$ \mathbb P(A \vert B, C) = \frac{\mathbb P(A \cap B \cap C)}{\mathbb P(B \cap C)}, \quad \mathbb P(A \vert C) = \frac{\mathbb P(A \cap C)}{\mathbb P(C)}, $$

то условная независимость событий $A$ и $B$ эквивалетна равенству

$$ \frac{\mathbb P(A \cap B \cap C)}{\mathbb P(C)} = \frac{\mathbb P(A \cap C)}{\mathbb P(C)} \cdot \frac{\mathbb P(B \cap C)}{\mathbb P(C)}, $$

а это, в свою очередь, означает, что

$$ \mathbb P(A \cap B\vert C) = \mathbb P(A\vert C) \mathbb P(B\vert C). $$

Таким образом, вероятность произведения условно независимых событий равна произведению условных вероятностей. Эта формула полностью аналогична формуле $\mathbb P(A\cap B) = \mathbb P(A)\mathbb P(B)$ для (безусловно) независимых событий.

Пример (цепь Маркова). Последовательность событий $S_0, S_1, S_2, \ldots, S_t, \ldots$ называется марковской цепью, если выполняется марковское свойство

$$ \mathbb P (S_{t+1} \vert S_t, S_{t-1}, \ldots, S_0) = \mathbb P(S_{t+1} \vert S_t), \quad t \in \mathbb N \cup {0}. $$

В марковском свойстве заложен следующий смысл: в каждый момент времени $t$ «будущее» $S_{t+1}$ зависит только от «настоящего» $S_t$, но не зависит от «прошлого»

$$ P_t = S_{t-1} \cap \ldots \cap S_0. $$

Итак, цепь Маркова характеризуется равенством $\mathbb P(S_{t+1} \vert P_t, S_t) = \mathbb P(S_{t+1} \vert S_t)$, которое означает, что события $S_{t+1}$ и $S_t$ условно независимы по отношению к событию $P_t$.

Условные распределения

Пусть $\xi$ и $\eta$ — дискретные случайные величины и $\mathbb P(\eta = y) > 0$. По аналогии с условными вероятностями условное распределение случайной величины $\xi$ при условии, что значение случайной величины $\eta$ равно $y$, определяется по формуле

$$ \mathbb P(\xi = x_i \vert \eta = y) = \frac{\mathbb P(\xi = x_i , \eta = y)}{\mathbb P(\eta = y)}. $$

Это действительно распределение вероятностей, поскольку $\mathbb P(\xi = x_i \vert \eta = y) \geqslant 0$ и

$$ \sum\limits_{i}\mathbb P(\xi = x_i \vert \eta = y) = \frac 1{\mathbb P(\eta = y)} \sum\limits_{i}\mathbb P(\xi = x_i , \eta = y) = 1. $$

В непрерывном случае условное распределение задаётся условной плотностью

$$ p_{\xi\vert \eta}(x\vert y) = \frac{p(x, y)}{p_\eta(y)}, $$

где $p(x, y)$ — совместная плотность случайных величин $\xi$ и $\eta$. И снова проведением маргинализации по $x$ убеждаемся в том, что с нормировкой всё в порядке:

$$ \int\limits_{-\infty}^{+\infty} p_{\xi\vert \eta}(x\vert y)\,dx = \frac 1{p_\eta(y)}\int\limits_{-\infty}^{+\infty} p(x, y)\,dx = \frac {p_\eta(y)}{p_\eta(y)} = 1. $$

Поскольку $\int\limits_{-\infty}^{+\infty} p(x, y),dy = p_\xi(x)$, из формулы условной плотности получаем непрерывный аналог формулы полной вероятности:

$$ p_\xi(x) = \int\limits_{\mathbb{R}} p_{\xi \mid \eta}(x\vert y) p_\eta(y) dy. $$

Пример. Выберем случайное число $x\in \big[\tfrac12, 1\big]$, а затем — случайное число $y \in [0, x]$. Как распределена случайная величина $y$?

Переформулируем задачу: известно, что $\xi \sim U\big[\tfrac12, 1\big]$ и $\eta \vert \xi \sim U[0, x]$. Требуется найти плотность случайной величины $\eta$. Имеем

$$ p_\xi(x) = 2\mathbb I_{\big[\tfrac12, 1\big]}(x), \quad p_{\eta\mid\xi}(y\vert x) = \frac 1x\mathbb I_{[0, x]}(y). $$

Применяя формулу полной вероятности, находим

$$ p_\eta(y) = \int\limits_{1/2}^1 \frac 2x \mathbb I[y \leqslant x]\, dx = \begin{cases} 2 \ln2, & 0 \leqslant y < \tfrac12, \\ -2 \ln{y}, & \tfrac12 \leqslant y \leqslant 1. \end{cases} $$

Упражнение. Пусть случайные величины $\xi_k \sim \mathrm{Exp}(\lambda_k)$, $k=1, \ldots, n$, независимы в совокупности. Чему равна вероятность $\mathbb P\big(\xi_k = \min \{\xi_1, \ldots, \xi_n \}\big)$?

Ответ (не открывайте сразу, попробуйте сначала решить самостоятельно)

Обозначим $\eta = \operatorname*{argmin}\limits_{1\leqslant k \leqslant n} \{\xi_k\}$. Требуется найти $\mathbb P(\eta = k)$. По формуле полной вероятности имеем

$$ \mathbb P(\eta = k) = \int\limits_0^{+\infty} p_{\eta\vert \xi_k}(\eta = k \vert x) p_{\xi_k}(x),dx. $$

Далее, $p_{\xi_k}(x) = \lambda_k e^{-\lambda_k x}$, $x\geqslant 0$,

$$ p_{\eta\vert \xi_k}(\eta = k \vert x) = \mathbb P(\xi_i > x, i \ne k) = \prod\limits_{i\ne k} e^{-\lambda_i x}. $$

Таким образом,

$$ \mathbb P(\eta = k) = \int\limits_0^{+\infty} \lambda_k e^{-\lambda_k x}\prod\limits_{i\ne k} e^{-\lambda_i x} , dx = \lambda_k \int\limits_0^{+\infty} \exp\Big(-\sum\limits_{i=1}^n \lambda_i x\Big),dx= \frac{\lambda_k}{\lambda_1 + \ldots + \lambda_n}. $$

Условные распределения случайных векторов определяется аналогично с поправкой на возросшее число аргументов: в этом случае $x$ и $y$ уже не числа, а вектора тех же размерностей, что и сами случайные вектора.

Условные математические ожидания

Условное математическое ожидание $\mathbb E(\xi\vert\eta = y)$ отвечает на вопрос «чему равно среднее значение случайной величины $\xi$ при условии, что $\eta = y$?». Имея в распоряжении матрицу условного дискретного распределения $\mathbb P(\xi = x_i\vert \eta = y_j)$ или условную плотность $p_{\xi\vert \eta}(x\vert y)$, условное математическое ожидание можно вычислить следующим образом:

$\mathbb E(\xi\vert\eta)\equiv \mathbb E(\xi\vert\eta=y) = \sum\limits_i x_i \mathbb P(\xi = x_i\vert \eta = y)$ в дискретном случае;
$\mathbb E(\xi\vert\eta) \equiv \mathbb E(\xi\vert\eta=y) = \int\limits_{\mathbb R} x p_{\xi\vert \eta}(x\vert y),dx$ для непрерывных $\xi$ и $\eta$.

Важно отметить, что после суммирования или интегрирования по переменной $x$ в формуле условного математического ожидания остаются зависимость от $y$. Таким образом, в отличие от обычного среднего, которое является просто числом, условное ожидание представляет собой случайную величину $\zeta = \mathbb E(\xi\vert\eta=y)$, поскольку его значение зависит от случайного значения $\eta = y$.

Свойства условного математического ожидания

$\mathbb E(a\xi_1 + b \xi_2 \vert \eta) = a\mathbb E (\xi_1\vert \eta) + b \mathbb E (\xi_2 \vert\eta)$ (линейность).
Если $\xi_1 \leqslant \xi_2$, то $\mathbb E (\xi_1\vert \eta) \leqslant \mathbb E (\xi_2\vert \eta)$ (монотонность).
Если случайные величины $\xi$ и $\eta$ независимы, то $\mathbb E(\xi\vert\eta) = \mathbb E\xi$.
$\mathbb E(g(\eta) \xi\vert\eta) = g(\eta) \mathbb E(\xi\vert \eta)$.
$\mathbb E\big(\mathbb E(\xi\vert \eta)\big) = \mathbb E\xi$ (law of total expectation).

Упражнение. Prove the law of total expectation.

Ответ (не открывайте сразу, попробуйте сначала решить самостоятельно)

Пусть $\zeta = \mathbb E(\xi \vert \eta)$. Начнём с дискретного случая:

$$ \mathbb E\zeta = \sum\limits_j \mathbb E(\xi\vert\eta = y_j)\mathbb P(\eta = y_j) = \sum\limits_j\sum\limits_i x_i \mathbb P(\xi = x_i\vert \eta = y_j)\mathbb P(\eta = y_j)= $$ $$ =\sum\limits_i x_i \sum\limits_j\mathbb P(\xi = x_i, \eta = y_j) =\sum\limits_i x_i \mathbb P(\xi = x_i) = \mathbb E\xi. $$

В непрерывном случае вместо сумм потребуется переставить местами интегралы. Это позволяет сделать теорема Фубини о сведении двойного интеграла к повторному:

$$ \mathbb E\zeta = \int\limits_{-\infty}^{+\infty}\mathbb E(\xi\vert\eta = y) p_\eta(y),dy = \int\limits_{-\infty}^{+\infty} p_\eta(y),dy \int\limits_{-\infty}^{+\infty}x p_{\xi\vert\eta}(x\vert y),dx = $$ $$ = \int\limits_{-\infty}^{+\infty} x,dx \int\limits_{-\infty}^{+\infty} p(x, y),dy = \int\limits_{-\infty}^{+\infty} xp_\xi(x) ,dx = \mathbb E\xi. $$

Условная дисперсия определяется по формуле

$$ \mathbb V(\xi \vert \eta) = \mathbb E\big((\xi - \mathbb E(\xi\vert \eta))^2 \vert \eta\big) = \mathbb E(\xi^2 \vert \eta) - \big(\mathbb E(\xi \vert \eta))^2. $$

Справедливо равенство $\mathbb V \xi = \mathbb E\big(\mathbb V(\xi\vert \eta)\big) + \mathbb V\big(\mathbb E(\xi\vert \eta)\big)$ (law of total variance).

Регрессия

В машинном обучении часто встречается задача регрессии, в которой требуется восстановить зависимость $Y = f(X)$ при наличии выборки

$$ (X_1, Y_1), \ldots, (X_n, Y_n) $$

из некоторого неизвестного распределения с совместной плотностью $p(x, y)$. Стандартный способ решения задачи регресии — минимизация среднего значения функции потерь $\mathcal L(Y, f(X))$:

$$ \mathbb E \big[\mathcal L(Y, f(X))\big] = \iint\limits_{\mathbb R^2} \mathcal L(y, f(x)) p(x, y) \,dxdy \to \min. $$

В качестве функции потерь на одном объекте $(x, y)$ в задаче регрессии обычно выбирают квадратичную функцию: $\mathcal L(y, f(x)) = (y-f(x))^2$. Тогда

$$ \mathbb E \big[\mathcal L(Y, f(X))\big] = \iint\limits_{\mathbb R^2} \mathcal (y-f(x))^2 p(x, y) \,dxdy; $$

для минимизации этого функционала применим немножко вариационного исчисления и продифференцируем по функции $f(x)$. Получим

$$ 2\iint\limits_{\mathbb R^2} (f(x)-y) p(x, y) \,dxdy = 0, $$

откуда

$$ f(x) = \frac 1{p(x)} \int\limits_{-\infty}^{+\infty} yp(x, y)\,dy = \int\limits_{-\infty}^{+\infty} yp_{Y\vert X}(y \vert x)\,dy = \mathbb E(Y\vert X = x). $$

Полученное условное математическое ожидание, называемое функцией регрессии, показывает, чему в среднем равно значение зависимой переменной $Y$ при условии, что $X=x$.

Параграф прочитан Сообщить об ошибке