Журнал / польза

Зачем нужен язык SQL и как ему обучиться

Когда вы ищете информацию в поисковике или регистрируетесь в соцсети, вы сталкиваетесь с базами данных и SQL. Этот язык находится «под капотом» у многих сайтов и приложений. Рассказываем, зачем нужен SQL, как он работает и с чего начать изучение

Как работает язык SQL

SQL — язык запросов, с помощью которого можно получать информацию из базы данных. Пример использования SQL — отображение личного профиля в соцсети «ВКонтакте»:

SQL используют разработчики, аналитики, тестировщики, продуктовые маркетологи. Например, для обработки запросов внутри сайтов и приложений или для сбора большого массива данных, чтобы протестировать гипотезы. С помощью SQL компания может быстро узнать, какие клиенты чаще пользовались её услугами в прошлом году, или сравнить зарплаты сотрудников в разных отделах.

Что такое база данных в SQL

База данных — это большие таблицы с данными, примерно как в Excel. С той разницей, что Excel может хранить до нескольких сотен мегабайт, а база данных — сотни гигабайт или терабайты.

Язык SQL предназначен для работы с реляционными базами данных — множеством таблиц, которые связаны между собой.

Пример реляционной базы данных интернет-магазина
Пример реляционной базы данных интернет-магазина

Таблица в базе данных SQL состоит из следующих элементов:

1. Ключи — то, что идентифицирует сущность в таблице. Сущность — это информация в базе данных, а ключом может быть, например, порядковый номер строки. Ключи делятся на три типа: первичные, внешние и потенциальные.

У каждой сущности в таблице свой первичный ключ. Например, ИНН человека — идеальный пример первичного ключа. Не может быть двух разных людей с одинаковым ИНН. Внешний ключ связывает разные таблицы и сущности в таблицах. К примеру, таблицу с фильмами и таблицу с актёрами, которые в этих фильмах снимались.

Потенциальный ключ — альтернативное значение, которое наряду с первичным ключом может идентифицировать сущность в таблице. Допустим, человека можно идентифицировать по ИНН, а можно — по ФИО и дате рождения.

Владимир Самойлов, тимлид в продуктовой разработке

2. Атрибут — столбец с одним параметром. Например, «Название», «Дата» или «Стоимость».

3. Домен — тип значения атрибута. Например, в столбце «Цена» стоимость должна быть указана числом с десятичной частью.

4. Кортеж — пронумерованная строка в таблице.

5. Значение — содержимое одной ячейки.

6. Индекс — объект базы данных, который упрощает поиск по ней. В таблице содержится множество строк в произвольном порядке, поиск нужной информации может занимать много времени. Индекс ускоряет процесс.

Представим, что у нас есть телефонный справочник. У него индексы — буквы. По букве можно легко найти фамилию человека. Если индекса нет, придётся долго искать нужный контакт, перебирая все строки в таблице.

Ещё есть уникальные индексы. Мы просим реляционную базу данных поддерживать какие-то ограничения: например, что не может быть паспортов с одинаковым номером. Тогда база при попытке записать в неё что-то нарушающее просто вернёт ошибку.

Владимир Самойлов, тимлид в продуктовой разработке

Для чего нужны операторы SQL

Операторы SQL — это слова и символы для выполнения разных операций с базой данных. Они делятся по типам задач, которые решают. Например, есть операторы чтения и операторы записи:

  1. Операторы чтения помогают запросить информацию из базы данных. К таким относится SELECT.
  2. Операторы записи добавляют новую информацию или обновляют старую в базе данных. К ним относятся INSERT, UPDATE.

Допустим, нужно выбрать всех белых котов из таблицы с домашними животными. Тогда запрос в базу данных будет таким:

Теперь нужно добавить в таблицу с животными новую породу собак — корги. Запрос будет таким:

Что такое СУБД и чем они различаются

СУБД, система управления базами данных, — программа, с помощью которой можно работать с базой: создавать таблицы, изменять их, получать из них информацию.

Это отдельная программа, которая где-то запущена, обычно на сервере. Однако вы можете запустить её и на своём компьютере, чтобы попрактиковаться с ней. То есть СУБД — фактически как оператор кол-центра, который работает 24/7. Ему можно позвонить и сказать: «Назови мне все адреса филиалов компании в Санкт-Петербурге». Только вы обращаетесь к СУБД с помощью SQL-запросов.

Владимир Самойлов, тимлид в продуктовой разработке

Выделяют несколько видов СУБД:

  • Универсальные. Хорошо работают с быстрыми командами: внести изменения, добавить информацию, сделать выборку. Однако после достижения определённого объёма данных могут перегружаться и подвисать. Примеры универсальных СУБД: MySQL, MSSQL, PostgreSQL, Oracle.

Из этих систем хорошо масштабируется Oracle. Если у других СУБД проблемы с производительностью могут начаться на терабайте, у Oracle они начнутся на сотне терабайт.

Владимир Самойлов, тимлид в продуктовой разработке
  • Колоночные. Такой тип СУБД особенно подходит для аналитики. Если обычные базы хранят данные построчно, то колоночные — по колонкам. Даже если нет индекса, такая СУБД сможет быстро собрать нужную информацию.

Известная колоночная СУБД — ClickHouse. Это продукт Яндекса, который вырос из базы данных для Яндекс Метрики. Она отлично подходит для аналитики. Однако не очень удобна для скоростного решения задач, а это, например, требуется в банкинге для проведения транзакций. В таких случаях лучше использовать универсальные базы данных.

Владимир Самойлов, тимлид в продуктовой разработке

С чего начать изучение SQL

Ознакомиться с теорией. Например, с вводным учебным пособием по SQL, где есть объяснения базовых понятий, основы работы с базами данных, операторами. Кроме туториала читайте профильные книги: «SQL. Полное руководство», «Введение в системы баз данных», «Программирование баз данных SQL. Типичные ошибки и их устранение».

Отработать на практике. На портале HackerRank есть много готовых задач по SQL. Задачи варьируются от простых до очень сложных. Особенно удобно, что есть решения: можно сверить ответы.

Общаться с сообществом. В Telegram есть сообщество начинающих дата-инженеров. Там обсуждают любые вопросы по SQL — от решения задач до полезных ресурсов для изучения.