Введение
Интуитивно понятно, что в данных нас интересует в первую очередь их распределение. Для числовых данных этот интерес сводится к трём вопросам:
- Какое максимально возможное значение?
- Какое минимальное возможное значение?
- Какие значения встречаются чаще всего?
Если на первый и второй вопрос ответить однозначно довольно легко, то на третий можно ответить разными способами. Мы попробуем разобраться с ним в этой главе.
Эмпирическое и нормальное распределение
Простейший ответ на третий вопрос — построить эмпирическое распределение для какой-то переменной. Это описание мы можем сделать в форме таблицы или графика.
Эмпирическое распределение размера зарплат в данных для некоторых значений в форме таблицы:
Значение | Частота |
---|---|
50000 | 2 |
100000 | 12 |
160000 | 6 |
Из теории вероятности мы знаем, что если у нас будет достаточно много случайных наблюдений, то они приближенно будут соответствовать нормальному распределению.
Физическое явление может быть распределено случайным образом, если оно подвергается воздействию огромного количества помех, каждая из которых влияет случайным образом.
Распределение мы можем изобразить в форме линейного графика или гистограммы. Мы выбираем линейный график для переменных, выраженных непрерывными шкалами, и гистограмму для дискретных переменных.
Горизонтальная ось со стрелкой отражает шкалу и её направление. Слева-направо по оси шкала движется от меньших значений к большим. Чем дальше и выше проходит прямая, тем больше значений встречается с таким значением переменной.
Меры центральности
Чтобы ответить на вопрос «Каких значений больше всего?» мы можем найти центр распределения. Сделать это можно разными способами. В этой части мы рассмотрим три меры центральности: моду, среднее арифметическое и медиану.
Давайте ненадолго представим себя исследователями, которые решили изучить уровень зарплат в IT-компаниях. У нас есть информация о вакансиях и предложенных в них уровнях зарплат.
Данные о зарплатах:
Идентификатор резюме | Заработная плата (тыс. рублей) |
---|---|
1 | 60 |
2 | 95 |
3 | 60 |
4 | 120 |
5 | 70 |
6 | 90 |
Давайте посчитаем среднюю зарплату в резюме. Мы должны сложить все значения зарплат в наших данных и эту сумму поделить на количество наблюдений. Иными словами, мы берём месячные зарплаты всех вакансий, складываем их в одну копилку, а потом разбиваем и делим поровну на всех. Так мы узнали, что средняя зарплата сотрудника IT-компании составляет 82,5 тысяч рублей. Зная, где находится центр распределения, мы для каждого из наблюдений можем сказать больше его значение, чем среднее или меньше.
Бывают ситуации, когда нам нужно вычислить самое часто встречающееся значение в наборе данных. Такая мера называется «мода». Предположим, что мы хотим узнать это, исходя из собранных нами данных по зарплатам. И здесь мы просто находим самое частое значение, встречающееся в нашей последовательности. Самым частым значением зарплаты в наборе данных оказывается 60 тысяч рублей.
Однако на этом не всё. Мы решили посмотреть на то, каковы средние показатели зарплаты среди всех сотрудников компании, а не только IT-специалистов. К нам добавились сотрудники финансового отдела, технический персонал и начальство. Запишем наши новые результаты и упорядочим их в таблице от наименьшего к наибольшему, чтобы было удобнее и нагляднее. Доходы мы можем увидеть ниже:
Идентификатор резюме | Заработная плата (тыс. рублей) |
---|---|
1 | 60 |
2 | 95 |
3 | 60 |
4 | 120 |
5 | 70 |
6 | 85 |
7 | 90 |
8 | 95 |
9 | 95 |
10 | 100 |
11 | 120 |
12 | 500 |
Если мы теперь попробуем посчитать среднее арифметическое, то у нас возникнет проблема. Оно резко увеличится и станет равно 124,17 тысяч рублей. Оно увеличилось практически вдвое. Эта мера центральности сильно зависит от того, насколько максимальные и минимальные значения отличаются от всех остальных значений. Мы говорим, что среднее арифметическое — чувствительно к выбросам.
В нашем примере у генерального директора очень высокий доход по сравнению с остальными сотрудниками. Поэтому среднее арифметическое изменилось довольно сильно. Если мы уберем последнее значение, равно 500 тысячам рублей, то средняя будет равна 90 тысячам. Эту проблему можно избежать, если мы посчитаем медиану по зарплатам. Даже с учетом самой большой заработной платы медиана равна 95 тысячам. Главное преимущество медианы в том, что она устойчива к выбросам.
Чтобы получить медиану мы сортируем все наблюдения по размеру показателя, а дальше берем такое значение показателя, чтобы показатели больше и меньше него были ровно по половине значений. Это легко сделать, если число наблюдений нечетное. В случае, если наш набор чисел четный — мы берём два числа, которые наиболее близки к середине и получаем их среднее арифметическое — оно и будет медианой.
В нашем примере если бы у нас была информация о тринадцати резюме, то медиана соответствовала бы седьмому сотруднику из отсортированного ряда. Если бы резюме было двенадцать, то мы должны взять значения показателя для шестого и седьмого, сложить и поделить на два.
Допустим, что в нашей выборке самый богатый человек имеет зарплату в 500 тысяч. Вернёмся к графику распределений и добавим на него меры центральности, чтобы увидеть где они расположены.
Предположим, что все наши значения в выборке распределены нормально. Из этого следует, что в нормальном распределении среднее арифметическое, медиана и мода совпадают друг с другом. Они равны и не отличаются друг от друга. И тогда не важно, через какую меру мы будем выражать центральность нашего распределения. Однако, если у нас появляются выбросы, значения мер центральности смещаются.
Из-за появления выбросов происходит смещение среднего. В таком случае уместно использовать медиану.
Дисперсия и стандартное отклонение
Для полного понимания, нам не хватает понимания мер, с помощью которых измеряют величину разброса в данных. Нормальное распределение имеет пик и два хвоста. Мы знаем как описать середину с помощью мер центральности и расстояние между крайними точками хвостов (просто минимум и максимум распределения), однако это не говорит нам о разбросе. То есть о том, насколько много или мало наблюдений ближе к центру или к хвостам функции. Мы можем использовать показатель меры разброса — дисперсию, чтобы зафиксировать это. Дисперсия обозначается греческой буквой сигма, возведенной в квадрат: $\sigma^2$. Это то, что показывает нам отклонение от среднего арифметического, возведённое в квадрат (т.е. умноженная саму на себя).
Давайте обратимся к нашему примеру с зарплатами и попробуем рассчитать дисперсию для них. Для этого мы должны найти сумму возведённой в квадрат разницы между значением наблюдения и среднего арифметического для каждого из наблюдений. Возведение в квадрат необходимо, чтобы разницы не обнуляли друг друга: если для части наблюдений разница отрицательная (то есть они меньше среднего), для части больше (то есть они больше среднего), то при их складывании общая сумма будет равна нулю для теоретического распределения. Далее мы просто делим получившееся число на число наблюдений и получаем дисперсию.
Если мы вернемся к нашим данным по зарплатам, то мы увидим, что дисперсия будет равна 449,96 тысячам. Эту цифру сложно интерпретировать, так как её сложно связать с фактическим размером зарплат. Именно для этого мы получаем показатель стандартного отклонения, так как его легче связать со значением показателя. Чтобы получить стандартное отклонение из дисперсии, мы просто берём из неё квадратный корень.
Выборочная дисперсия переменной x
вычисляется по формуле:
$$ \sqrt{\sigma^2} = \sqrt{\frac{\sum (x_i - M)^2}{n-1}} $$
Стандартное отклонение равно квадратному корню из выборочной дисперсии:
$$ \sigma = \sqrt{\sigma^2} = \sqrt{\frac{\sum (x_i - M)^2}{n-1}} $$
Простыми словами, мера стандартного отклонение — это значение, которое отражает, насколько наши случайные величины разбросаны по отношению к среднему значению нашей выборки. Возвращаясь к нашим гипотетическим данным о зарплатах людей, $\sigma$ в случае нашей выборки — это то, насколько в среднем отклоняется значение наших данных.
Стандартное отклонение равно квадратному корню из суммы разниц значения каждого наблюдения и среднего в квадрате, делённое на количество наблюдений в данных минус один.
Предположим, что в нашей выборке десять человек. Она распределена нормально. Их значения распределены вот так:
Идентификатор резюме | Заработная плата (тыс. рублей) |
---|---|
1 | 140 |
2 | 145 |
3 | 150 |
4 | 160 |
5 | 170 |
6 | 170 |
7 | 180 |
8 | 190 |
9 | 195 |
10 | 200 |
Сложив все значения и разделив на количество, мы узнаем, что среднее значение равно 170000. В таком случае стандартное отклонение равно 21000. То есть в среднем результаты наблюдения отклоняются от среднего на 21000.
Здесь мы можем увидеть шаг отклонения на оси. Отложим на шкале от среднего значения среднеквадратического отклонения (сигмы). В нормально распределённой величине, в плюс первую и минус первую сигму, обычно, входят 68,2 % величин всех данных, отражённых на графике.
Таким образом, мы получаем вероятностные распределения. Это значит, что в нашем примере, с вероятностью 68,2 % зарплата будет попадать в диапазон от 148,79 до 191,21 тысяч. Соответственно, в минус первую сигму, которая строго меньше среднего арифметического, попадает половина этой вероятности — 34,1 %.
Одним из свойств нормального распределения является то, что для каждого значения переменной можно оценить вероятность встретить такое или меньшее значение.
Заключение
Теперь мы понимаем, что такое распределение данных. Мы можем кратко охарактеризовать отдельные переменные в данных, с которыми мы работаем. В следующем пункте, посвященным анализу данных, мы поговорим о базовых статистических тестах. В следующем пункте мы разберемся с тем, как получать описательные статистики для данных с помощью языка Python.