Мы привыкли, что книжки про физику, строительство и прочий сопромат — это формулы, схемы и иные малопонятные вещи. А в книжках про культуру, историю и другие гуманитарные дисциплины — длинные и увлекательные (если повезёт) рассказы.
Раньше социальные учёные были вынуждены работать только с «рассказами», результатами опросов или статистикой, потому что других данных просто не было.
Революция данных, произошедшая в 2010-х годах во всем мире, пересобрала социальные науки. Сегодня у нас есть технологические возможности анализировать большие массивы данных, которые не были доступны исследователям раньше.
Это позволяет нам находить неочевидные связи: например, теперь мы понимаем, почему рост или падение уровня доверия к соседям очень сильно связано с доходами как домохозяйства, так и страны в целом. Понимаем не потому, что некий теоретик сформулировал красивую гипотезу, а потому, что мы эту гипотезу проверили.
Говоря очень упрощённо — знания, которые добывают социальные науки, в конечном счёте помогают принимать решения: руководителям, маркетологам, государственным служащим, предпринимателям и многим другим. Американский инженер и статистик Уильям Деминг говорил: «Без данных вы просто ещё один человек со своим мнением».
И действительно: сейчас главный принцип современного управления и основа принятий решений — это доказательность. То есть проверка идеи или мнения на реальных данных. Почему так произошло?
- Во-первых, данных стало много. Раньше, чтобы проверить какую-то гипотезу, нужно было вкладывать много лет и много сил. Сейчас гипотезу можно проверить за пару-тройку месяцев.
- Во-вторых, возросла цена ошибки: сейчас гораздо дешевле проверить гипотезу заранее, чем сначала реализовать непроверенное решение, а потом разбираться с последствиями.
Однако далеко не все российские ВУЗы дают возможность освоить те навыки, которые необходимы для современной работы. Анализ данных — один из таких навыков.
Наш учебник призван восполнить этот пробел. Мы расскажем о том, что такое данные, как с ними работать, как проводить исследования и интерпретировать результаты — чтобы в конце концов вы могли увидеть полную картину и принять наилучшее решение. В какой бы сфере вы не работали, навыки работы с данными откроют перед вами новые возможности или приведут к неожиданным открытиями.
Важно отметить: вам не потребуется специальных знаний, чтобы освоить этот курс.
Учебник разделён на 12 глав, отсортированных по возрастанию сложности материала. Каждая из них (кроме текущей) делится на три части:
Первая — про данные. Данные бывают очень разные причем как с технической, так и с исследовательской точки зрения. Мы попробуем рассказать, как работать с разными данными.
Вторая — про статистику. Анализ данных, будем честны, это статистические методы. Нужно уметь их понимать и ими пользоваться. Вывод должен быть основан не только на правильных данных, но и на уместно применённых методах анализа.
Третья — про работу с программами. И работа с данными и статистический анализ могут быть реализованы в разных средах. Мы будем работать с языком Python — сейчас это один из самых распространённых языков для обработки данных. А ещё он относительно лёгок в изучении.
Если что-то из сказанного прозвучало сложно — не волнуйтесь, учебник составлен так, чтобы новые знания во всех трех областях приходили постепенно.
В следующей части мы узнаем, как составлять команды для компьютера — и как можно автоматизировать свою работу.