Введение
В отличие от физического мира мы не очень хорошо понимаем, как устроен мир человеческих отношений, которые изучают социальные и гуманитарные науки. В них нет законов, аналогичных законам физики, которые действуют на всех индивидов в мире. При этом интуитивно нам понятно, что мы можем создать описание, которое могло бы объяснить, как функционируют те или иные явления.
Художественная литература, философские книги стремятся создать такое описание, которое их читатель посчитал бы правдоподобным. Они выстраивают такую модель мира, которая, с одной стороны, описывает конкретные примеры. А с другой — кажется универсальной для тех явлений, которым соответствуют эти примеры.
Они исходят из предположения о том, что точное описание явлений может быть сформулировано в виде теоретической модели распределения этих явлений. Для этого нам необходимо точно зафиксировать характеристики тех или иных явлений: от стоимости цен на молоко до отношения людей к незнакомцам. Мы не можем зафиксировать эти характеристики для всех возможных вариантов явления (назовем их наблюдениями), но можем зафиксировать их для какой-то части наблюдений. Дальше для собранных данных мы можем определить наиболее точно соответствующую им модель их распределения. В этой главе мы поговорим о том, что такое данные и какие простые модели распределения мы можем построить для них.
Понятие данных, переменные, шкалы, вектор и матрица
Данные
Данные отличаются от любой другой информации. Например, бумажная книга обычно содержит массу полезной информации, но ее сложно назвать данными. Различие между книгой и данными в том, что первая не формализована, то есть не подходит для анализа с помощью тех методов, которые применяются к данным. Чтобы сделать пригодной книгу для методов анализа текстовых данных, мы должны записать её в текстовый файл. В таком случае, информация из книги станет данными, пригодными для использования.
Попробуем теперь разобраться с тем, что такое факт. Можно привести несколько примеров:
- Возраст человека;
- Отметка о наличии или отсутствии прививки у кошки;
- Средний балл для каждого класса в школе;
- Температура 10 апреля 2021 года в Санкт-Петербурге;
- Толщина книги.
Когда мы говорим о фактах в данных, важно, что мы фиксируем к кому или к чему относятся эти факты. Мы говорим, что факты принадлежат каким-то наблюдениям. Все факты мы называем «генеральной совокупностью». Наблюдением может быть индивид, группа индивидов (например, жители какого-то района), единичные природные явления или организмы, тексты, изображения, аудио- или видеоматериалы. Соответственно, все примеры выше — это единичные наблюдения. Решение о том, что такое наблюдение и какие факты (иначе их называют признаками) о нём нужно зафиксировать принимает исследователь, руководствуясь вопросом, который он перед собой ставит. Тот диапазон наблюдений, который фиксируется исследователем, называется выборка.
Обычно пригодные для анализа наблюдения обладают идентичным набором заполненных признаков. Бывают ситуации, когда для каких-то наблюдений не хватает информации о каких-то фактах, но обычно мы можем анализировать только данные, в которых мало таких пропущенных значений. Мы должны знать максимально возможное количество случайных вариантов признака, чтобы наш анализ был точным.
Как мы уже сказали, чтобы формализовать (иначе мы можем говорить «упорядочить в форме») данные, мы должны записать наблюдения и факты так, чтобы их можно было анализировать. Является ли формализация достаточной, зависит от целей исследователя и используемого метода. Данные, которые являются формализованными для одного метода, могут оказаться совершенно непригодными для использования с применением какого-то другого метода. Например, если мы занимаемся текстовым анализом, то статья, в которой через запятую перечисляются числовые показатели, уже является формализованной информацией, но если мы анализируем цифры, то данные должны быть представлены в форме таблиц.
Практически всегда формализация означает сохранение данных в каком-нибудь текстовом формате. Существует несколько вариантов представления данных в текстовых формах:
- Простой неструктурированный текстовый файл (например, txt, doc);
- Таблица (csv);
- Структурированный текстовый файл (xml, json).
Подробнее мы поговорим про них позднее. Сейчас важно другое: каждый из этих форматов предполагает, что данные записаны в форме текста и содержат информацию о том, как разделены между собой отдельные элементы. Например, когда мы говорим о таблице, то обычно:
- Таблица соответствует всем доступным данным по теме;
- Строка — наблюдению;
- Отдельная ячейка в строке — признаку наблюдения.
Данные могут быть преобразованы в более подходящую форму. Для формализации табличных данных обычно достаточно убедиться в том, что наблюдения единообразны, содержат упорядоченные и единообразные признаки и записаны в одной из форм, описанных в предыдущем абзаце.
Кроме того, бывает необходимо исключить наблюдения, которые отличаются от всех остальных, а также признаки, которые есть не для всех примеров в данных. При удалении мы теряем какую-то информацию, но зато оставшаяся становится пригодной для анализа. В некоторых ситуациях мы можем вменить пропущенным значениям какие-то значения, которые неизвестны нам наверняка, но которые мы можем считать правдоподобными, исходя из наших знаний о том, какие значения и как часто встречаются в данных. Такое присвоение называется импутацией данных.
Хороший пример: возраст Маши, возраст Пети и всех их одноклассников, есть ли у них у всех прививка от гриппа. Тут наблюдение — это отдельный школьник, а признак — их возраст.
Плохой пример: возраст Маши, возраст Пети, вес кота Мурзика, средний возраст жителей города Суздаль.
Плохой пример, который стал хорошим: возраст Маши, возраст Пети, добавить возраста всех одноклассников, удалить данные про кота Мурзика и о жителях Суздаля.
Переменная
Переменная — это термин, существующий и в программировании, и в статистике, но с разным значением. В этой главе мы будем говорить о том, что значит переменная в статистике.
- В программировании переменная — это имя или условное обозначение для данных разных типов, которые сохранены в оперативной памяти компьютера и используются при исполнении программы.
- В статистике переменная — это значение, которое описывает характеристику наблюдения.
Важно, что значение переменной — это некоторая величина, которая позволяет операционализировать и зафиксировать характеристику объекта. Например, использование названия города в качестве описания места рождения позволяет выразить место рождения в виде какого-то значение, которое может быть записано и сопоставлено с другими значениями в других наблюдениях.
Исследователи говорят, что бывают независимые и зависимые переменные. Чтобы понять, откуда возникает такое деление, мы должны разобраться с исследовательскими гипотезами.
- Исследовательская гипотеза — это предположение о наличии или отсутствии связи между признаками.
- Связь между признаками — это наличие строго определённого соответствия между значениями одной переменной и значения другой переменной.
Исследовательская гипотеза состоит из двух отдельных предположений:
- связи между признаками нет (нулевая гипотеза);
- связь между признаками есть (альтернативная гипотеза).
В понимании процесса формирования исследовательских гипотез есть два важных момента:
- При анализе проверяется только нулевая гипотеза об отсутствии связи между признаками. Мы можем либо отвергнуть ее, либо принять ее.
- Мы не говорим ничего о направлении связи, то есть какая переменная влияет на какую.
Вот теперь можно объяснить, откуда берутся зависимая и независимая переменные. Это исследовательское допущение, которое делается до того, как происходит проверка нулевой гипотезы.
- Зависимая переменная — это та, которая подвергается воздействию независимой (или нескольких независимых) переменных.
- Независимая переменная — переменная, изменения которой связывают с изменениями независимой переменной.
Например, размер ежемесячной зарплаты связан со многими показателями, но мы можем предположить, что в ситуации полного рабочего дня, зарплата будет больше, чем в случае работы пару часов в неделю. Мы говорим, что число рабочих часов в месяц связано с размером ежемесячной зарплаты.
Важно! Никакая исследовательская гипотеза не содержит в себе ни направления связи, ни объяснения ее причины.
Шкалы
С понятием шкалы тесно связано понятие «тип переменной». Шкала содержит в себе все возможные значения переменной для какой-то характеристики.
Типы переменных:
- Категориальная (Дискретная)
- Непрерывная
Варианты шкал:
- Номинальная
- Ранговая
- Интервальная
- Абсолютная
Связь между типами переменных и шкалами, в которых они измеряются.
Тип переменной | Шкала | Пример | Возможные значения | Особенности |
---|---|---|---|---|
Категориальная | Номинальная | Регион проживания | гор. Санкт-Петербург, Тюменская область | Значения не упорядочены |
Категориальная | Интервальная | Возраст человека, округленный до 10 лет | 11-20, 21-30, | Значения упорядочены, но их ограниченное количество |
Непрерывная | Ранговая | Место участника марафона | 1, 2, … , 543 | Значения упорядочены, обычно одному значению соответствует одно наблюдение |
Непрерывная | Абсолютная | Рост человека | 167, 178, 203 | Значения упорядочены, обычно одному значению может соответствовать несколько наблюдений |
Важно! Хотя шкала ассоциируется с линейкой и последовательным расположением элементов на ней, это верно только для абсолютной шкалы. Например, в Санкт-Петербурге восемнадцать районов, которые могут использоваться в качестве шкалы, например, для определения места жительства, но эта шкала не является абсолютной.
Массивы: вектор и матрица
Школьное определение вектора звучит следующим образом: это отрезок, у которого есть величина и направление.
У массива может быть несколько измерений.
Пример вектора:
2
6
8
Пример матрицы размером 3 x 3.
1 | 2 | 3 |
---|---|---|
2 | 7 | 0 |
5 | 2 | 8 |
Практически все исследовательские методы, которые применяются при анализе данных, исходят из представления о том, что данные записаны в виде матрицы. Чаще всего ряды матрицы соответствуют отдельным наблюдениям, а отдельные колонки — тем или иным характеристикам наблюдений.
Пример данных, записанных в форме матрицы:
ID | Имя | Фамилия | Год рождения | Произведение |
---|---|---|---|---|
1 | Александр | Пушкин | 1799 | Руслан и Людмила |
2 | Антон | Чехов | 1860 | Вишневый сад |
3 | Лев | Толстой | 1828 | Анна Каренина |
4 | Михаил | Лермонтов | 1814 | Герой нашего времени |
5 | Иван | Тургенев | 1818 | Отцы и дети |
Может возникнуть резонный вопрос: «В чём различие между матрицами и таблицами?» В программировании матрица — это тип данных, который позволяет обрабатывать табличные данные и не только. Например, графы тоже можно записать и обрабатывать в форме матрицы. Поэтому когда мы говорим о данных, то говорим, что храним их в форме таблиц, но когда обрабатываем их с помощью компьютера, то работаем с матрицей, в которую записаны данные из табличной формы.
Заключение
Мы рассмотрели понятие данных и некоторых элементы их представления. В следующей главе, в части посвященной данным, мы рассмотрим подробнее типологию данных и переменных, различия между выборками и генеральной совокупностью, а также начнем говорить о работе с таблицами и их преобразовании. В следующем пункте этой главы мы поговорим о простых способах получить какие-то описательные характеристики данных.