Аналитика больших данных

Название спецкурса на английском языке
Big Data Analytics
Авторы курса
Главацкий Сергей Тимофеевич, Бурыкин Илья Геннадиевич
Пререквизиты
Отсутствуют
Целевая аудитория
3-6 курс, магистранты
аспиранты
Подразделение
[Кафедра теоретической информатики]
Семестр
Год
Тип курса
Спецкурс по выбору кафедры
Учебный год
2024/25
Список тем
Матричное представление множеств. Хеширование, хешированные подписи. Вычисление хешированных подписей.
Локально-чувствительное хеширование документов. LSH для хешированных подписей. Анализ техники группировок (S-кривые). Использование методов хешированных подписей и LSH для определения вероятно схожих элементов.
Метрики. Евклидовы метрики. Расстояние по Жаккару, расстояние по косинусу. Расстояние редактирования, расстояние Хемминга.
Теория локально-чувствительных функций. Локально-чувствительные семейства для расстояния по Жаккару. Усиление локально-чувствительного семейства (AND-конструкции и OR-конструкции).
LSH-семейства для расстояния Хемминга. Случайные гиперплоскости и расстояние по косинусу, эскизы векторов. LSH-семейства для евклидова расстояния (размерность 2). Другие LSH-семейства для евклидовых пространств.
Модель рыночной корзины. Задача поиска частых наборов элементов. Использование оперативной памяти при поиске частых наборов элементов. Метод треугольной матрицы и метод троек.
Масштабируемый алгоритм поиска ассоциативных правил A-Priori. Ассоциативные правила. Достоверность и поддержка. Алгоритм поиска ассоциативных правил с заданными достоверностью и поддержкой.
Обработка больших наборов данных в оперативной памяти. Алгоритм Парка-Чена-Ю (PCY). Многоэтапный алгоритм. Многохешевый алгоритм. Алгоритм с ограниченным числом проходов. Простой рандомизированный алгоритм. Алгоритм SON. Алгоритм Тойвонена.
Методы кластеризации. Иерархическая кластеризация. Эффективность иерархической кластеризации. BFR алгоритм кластеризации. Алгоритмы k-средних и CURE: сходства и различия.
Алгоритм параллельной обработки данных MapReduce – принципы построения. Умножение матриц в MapReduce. Операции реляционной алгебры в MapReduce.
Алгоритм ранжирования Web-страниц PageRank. Терминологический спам. Первое определение PageRank. Ловушки для пауков. Эффективное вычисление PageRank. Эффективное представление матрицы перехода.
PageRank, чувствительный к теме. Анализ спам-фермы. TrustRank. Масса спама. Концентраторы и авторитеты.
Рекомендательные системы. Матрица предпочтений. Рекомендации на основе содержания. Обнаружение особенностей документов. Рекомендация товаров пользователям в зависимости от содержания. Алгоритмы классификации. Кластеризация пользователей и товаров.
Снижение размерности. UV-разложение. Оптимизация произвольного элемента. Сходимость к минимуму. Как избежать переподгонки.
Метод главных компонент. Использование собственных векторов для понижения размерности. Матрица расстояний. Сингулярное разложение. Запросы с использованием концептов. Вычисление сингулярного разложения матрицы. CUR-декомпозиция.
Интеллектуальный анализ процессов. Методы и типы анализа. Моделирование бизнес-процессов. Процессы: модели и экземпляры. Анализ процессов. Cети Петри.
Список источников
Лесковец Ю., Раджараман А., Ульман Д.Д. Анализ больших наборов данных. - Москва: ДМК Пресс, 2016.
Маккинни, У. Python и анализ данных: первичная обработка данных с применением pandas, NumPy и Jupiter. — 3-е изд.. — Москва : ДМК Пресс, 2023.
van der Aalst W. Process Mining. Data Science in Action, Second Edition. - Springer-Verlag Berlin Heidelberg, 2016.
Котов В.Е. Сети Петри. — Москва: Наука, 1984.
Дополнительная информация

Телеграмм-канал: https://t.me/+Sx35lZYIMNKrJhxD
Чат для организационных вопросов: https://t.me/+TthMMjeXdGazhGkZ
 

День недели
четверг
Время
16:45-18:20
Аудитория
1311
Дата первого занятия
Аудитория первого занятия
1311
Статус курса
Запись открыта
Форма записи на курс
Заполнение формы записи на курс доступно только студентам. Для записи на курс авторизуйтесь, пожалуйста, в студенческом аккаунте.