Современные технологии баз данных: от In-Memory до решений искусственного интеллекта
Название спецкурса на английском языке
Modern database technologies: from in-memory to artificial intelligence solutions
Пререквизиты
Отсутствуют
Целевая аудитория
3-6 курс, магистранты
аспиранты
Подразделение
[Кафедра теоретической информатики]
Семестр
Весна
Тип спецкурса
Спецкурс по выбору кафедры
Учебный год
2025/26
Список тем
Корпоративные приложения: современные требования. Проблемы в аппаратном и программном обеспечении и способы их решения. Характеристики современных корпоративных приложений (OLTP и OLAP системы; хранилища данных; озёра данных; конвейеры данных; компании, управляемые данными).
Словарное кодирование в In-Memory базе данных, понятие энтропии.
Сжатие данных в In-Memory базе данных: префиксное кодирование (Prefix Encoding), разреженное кодирование (Sparse encoding), непрямое кодирование (In-direct encoding), кодирование длин серий (Run-length encoding), кластерное кодирование (Cluster Encoding), дельта-кодирование (Delta encoding).
Методы хранения баз данных: секционирование, мульти-температурное управление данными, фактические и исторические данные.
Операторы манипулирования данными в In-Memory базе данных: вставка, обновление, удаление, "insert only"-подход (представление точки, интервальное представление, хронологические и битемпоральные базы данных).
Построчное и поколоночное размещение данных в In-Memory базе данных: сравнение подходов при реконструкции кортежей. «Компромиссная» модель хранения таблиц PAX (Partition Attributes Across). iHEAP таблицы Postgres. Сравнение подходов при полном сканировании таблицы, шаговом доступе и полном сканировании столбца.
Оператор выборки в In-Memory базе данных: стратегии материализации (возможные стратегии, преимущества и недостатки). Агрегатные функции.
Оператор соединения таблиц Join. Алгоритмы соединения: хешированием, слиянием отсортированных списков, вложенными циклами. Алгоритм многопроходного разделения.
In-Memory СУБД: архитектура, понятие дифференциального буфера и процесс слияния, кеш для агрегатов.
Индексы в In-Memory базе данных, инвертированный индекс, эффективность инвертированного индекса при словарном кодировании.
Логическая и физическая регистрация в In-Memory базах данных. Ведение журнала в случае словарного кодирования. Процесс восстановления.
k-безопасность. Горизонтальное и вертикальное масштабирование. Реплики для рабочей нагрузки. Нетерпеливые и ленивые репликации.
Обработка SQL запросов. In-memory специфичные запросы. Планирование запросов.
Параллелизм на уровне аппаратного обеспечения, параллелизм на уровне программного обеспечения. Распараллеливание SIMD. Законы Амдала и Густавсона-Барсиса. Распараллеливание в In-Memory базах данных.
Управление параллелизмом транзакций. Побочные эффекты параллелизма. Пессимистическая двухфазная блокировка. Мультиверсионное управление параллелизмом. Проблемы архитектуры СУБД: MVCC и внутренний идентификатор (xid) транзакции.
NoSQL: идея NoSQL, модели целостности (BASE vs ACID), теоремы CAP и PACELC. Типы согласованности данных, модель настраиваемой согласованности. Типы хранилищ данных для NoSQL. “Очень быстрый OLTP”.
Базы данных и технология распределенного реестра, блокчейн, дерево Меркла. Блокчейн 2.0. Трилемма масштабируемости.
Подход к разработке БД: «толстая» база данных, база данных как хранилище, база данных как код, платформа бессерверных вычислений. OLTP и большие OLAP. Особенности работы с данными в облаке.
База данных с технологиями ИИ: адаптивное управление, оптимизация запросов, запросы с учетом достоверности. Автономная база данных. Современный стек данных для приложений ИИ.
Векторные базы данных в современных приложениях искусственного интеллекта. Основные аспекты векторных баз данных: метрики, индексирование. Метод инвертированного индексирования файлов (Inverted File Indexing) для оптимизации работы векторных баз данных
Словарное кодирование в In-Memory базе данных, понятие энтропии.
Сжатие данных в In-Memory базе данных: префиксное кодирование (Prefix Encoding), разреженное кодирование (Sparse encoding), непрямое кодирование (In-direct encoding), кодирование длин серий (Run-length encoding), кластерное кодирование (Cluster Encoding), дельта-кодирование (Delta encoding).
Методы хранения баз данных: секционирование, мульти-температурное управление данными, фактические и исторические данные.
Операторы манипулирования данными в In-Memory базе данных: вставка, обновление, удаление, "insert only"-подход (представление точки, интервальное представление, хронологические и битемпоральные базы данных).
Построчное и поколоночное размещение данных в In-Memory базе данных: сравнение подходов при реконструкции кортежей. «Компромиссная» модель хранения таблиц PAX (Partition Attributes Across). iHEAP таблицы Postgres. Сравнение подходов при полном сканировании таблицы, шаговом доступе и полном сканировании столбца.
Оператор выборки в In-Memory базе данных: стратегии материализации (возможные стратегии, преимущества и недостатки). Агрегатные функции.
Оператор соединения таблиц Join. Алгоритмы соединения: хешированием, слиянием отсортированных списков, вложенными циклами. Алгоритм многопроходного разделения.
In-Memory СУБД: архитектура, понятие дифференциального буфера и процесс слияния, кеш для агрегатов.
Индексы в In-Memory базе данных, инвертированный индекс, эффективность инвертированного индекса при словарном кодировании.
Логическая и физическая регистрация в In-Memory базах данных. Ведение журнала в случае словарного кодирования. Процесс восстановления.
k-безопасность. Горизонтальное и вертикальное масштабирование. Реплики для рабочей нагрузки. Нетерпеливые и ленивые репликации.
Обработка SQL запросов. In-memory специфичные запросы. Планирование запросов.
Параллелизм на уровне аппаратного обеспечения, параллелизм на уровне программного обеспечения. Распараллеливание SIMD. Законы Амдала и Густавсона-Барсиса. Распараллеливание в In-Memory базах данных.
Управление параллелизмом транзакций. Побочные эффекты параллелизма. Пессимистическая двухфазная блокировка. Мультиверсионное управление параллелизмом. Проблемы архитектуры СУБД: MVCC и внутренний идентификатор (xid) транзакции.
NoSQL: идея NoSQL, модели целостности (BASE vs ACID), теоремы CAP и PACELC. Типы согласованности данных, модель настраиваемой согласованности. Типы хранилищ данных для NoSQL. “Очень быстрый OLTP”.
Базы данных и технология распределенного реестра, блокчейн, дерево Меркла. Блокчейн 2.0. Трилемма масштабируемости.
Подход к разработке БД: «толстая» база данных, база данных как хранилище, база данных как код, платформа бессерверных вычислений. OLTP и большие OLAP. Особенности работы с данными в облаке.
База данных с технологиями ИИ: адаптивное управление, оптимизация запросов, запросы с учетом достоверности. Автономная база данных. Современный стек данных для приложений ИИ.
Векторные базы данных в современных приложениях искусственного интеллекта. Основные аспекты векторных баз данных: метрики, индексирование. Метод инвертированного индексирования файлов (Inverted File Indexing) для оптимизации работы векторных баз данных
Список источников
Рогов Е. В. PostgreSQL 17 изнутри. — М.: ДМК Пресс, 2025.
Лесовский А. В. Мониторинг PostgreSQL. – М.: Бумба, 2024.
Комаров В.И. Путеводитель по базам данных. — Москва: ДМК Пресс, 2024.
Новиков Б.А. Основы технологий баз данных: учеб. пособие / Б.А. Новиков, Е.А. Горшкова, Н.Г. Графеева; под ред. Е.В. Рогова. – 2-е изд. – М.: ДМК Пресс, 2020.
Лесовский А. В. Мониторинг PostgreSQL. – М.: Бумба, 2024.
Комаров В.И. Путеводитель по базам данных. — Москва: ДМК Пресс, 2024.
Новиков Б.А. Основы технологий баз данных: учеб. пособие / Б.А. Новиков, Е.А. Горшкова, Н.Г. Графеева; под ред. Е.В. Рогова. – 2-е изд. – М.: ДМК Пресс, 2020.
Дополнительная информация
Телеграмм-канал: https://t.me/+QtRwZHC_2nfoYnSm
Чат для организационных вопросов: https://t.me/+TwIcwKp1C2JT3JlS
День недели
четверг
Время
18:30-20:05
Аудитория
1402
Дата первого занятия
Аудитория первого занятия
1402
Статус курса
Запись открыта
Форма записи на курс
Заполнение формы записи на курс доступно только студентам. Для записи на курс авторизуйтесь, пожалуйста, в студенческом аккаунте.