Аналитика больших данных: основные алгоритмы
Название спецкурса на английском языке
Big Data Analytics: basic algorithms
Пререквизиты
Отсутствуют
Целевая аудитория
3-6 курс, магистранты
аспиранты
Подразделение
[Кафедра теоретической информатики]
Семестр
Полгода (осень)
Тип курса
Спецкурс по выбору кафедры
Учебный год
2024/25
Список тем
Матричное представление множеств. Хеширование, хешированные подписи. Вычисление хешированных подписей.
Локально-чувствительное хеширование документов. LSH для хешированных подписей. Анализ техники группировок (S-кривые). Использование методов хешированных подписей и LSH для определения вероятно схожих элементов.
Метрики. Евклидовы метрики. Расстояние по Жаккару, расстояние по косинусу. Расстояние редактирования, расстояние Хемминга.
Теория локально-чувствительных функций. Локально-чувствительные семейства для расстояния по Жаккару. Усиление локально-чувствительного семейства (AND-конструкции и OR-конструкции).
LSH-семейства для расстояния Хемминга. Случайные гиперплоскости и расстояние по косинусу, эскизы векторов. LSH-семейства для евклидова расстояния (размерность 2). Другие LSH-семейства для евклидовых пространств.
Модель рыночной корзины. Задача поиска частых наборов элементов. Использование оперативной памяти при поиске частых наборов элементов. Метод треугольной матрицы и метод троек.
Масштабируемый алгоритм поиска ассоциативных правил A-Priori. Ассоциативные правила. Достоверность и поддержка. Алгоритм поиска ассоциативных правил с заданными достоверностью и поддержкой.
Обработка больших наборов данных в оперативной памяти. Алгоритм Парка-Чена-Ю (PCY). Многоэтапный алгоритм. Многохешевый алгоритм. Алгоритм с ограниченным числом проходов. Простой рандомизированный алгоритм. Алгоритм SON. Алгоритм Тойвонена.
Методы кластеризации. Иерархическая кластеризация. Эффективность иерархической кластеризации. BFR алгоритм кластеризации. Алгоритмы k-средних и CURE: сходства и различия.
Алгоритм параллельной обработки данных MapReduce – принципы построения. Умножение матриц в MapReduce. Операции реляционной алгебры в MapReduce.
Локально-чувствительное хеширование документов. LSH для хешированных подписей. Анализ техники группировок (S-кривые). Использование методов хешированных подписей и LSH для определения вероятно схожих элементов.
Метрики. Евклидовы метрики. Расстояние по Жаккару, расстояние по косинусу. Расстояние редактирования, расстояние Хемминга.
Теория локально-чувствительных функций. Локально-чувствительные семейства для расстояния по Жаккару. Усиление локально-чувствительного семейства (AND-конструкции и OR-конструкции).
LSH-семейства для расстояния Хемминга. Случайные гиперплоскости и расстояние по косинусу, эскизы векторов. LSH-семейства для евклидова расстояния (размерность 2). Другие LSH-семейства для евклидовых пространств.
Модель рыночной корзины. Задача поиска частых наборов элементов. Использование оперативной памяти при поиске частых наборов элементов. Метод треугольной матрицы и метод троек.
Масштабируемый алгоритм поиска ассоциативных правил A-Priori. Ассоциативные правила. Достоверность и поддержка. Алгоритм поиска ассоциативных правил с заданными достоверностью и поддержкой.
Обработка больших наборов данных в оперативной памяти. Алгоритм Парка-Чена-Ю (PCY). Многоэтапный алгоритм. Многохешевый алгоритм. Алгоритм с ограниченным числом проходов. Простой рандомизированный алгоритм. Алгоритм SON. Алгоритм Тойвонена.
Методы кластеризации. Иерархическая кластеризация. Эффективность иерархической кластеризации. BFR алгоритм кластеризации. Алгоритмы k-средних и CURE: сходства и различия.
Алгоритм параллельной обработки данных MapReduce – принципы построения. Умножение матриц в MapReduce. Операции реляционной алгебры в MapReduce.
Список источников
Лесковец Ю., Раджараман А., Ульман Д.Д. Анализ больших наборов данных. - Москва: ДМК Пресс, 2016.
Маккинни, У. Python и анализ данных: первичная обработка данных с применением pandas, NumPy и Jupiter. — 3-е изд.. — Москва : ДМК Пресс, 2023.
Маккинни, У. Python и анализ данных: первичная обработка данных с применением pandas, NumPy и Jupiter. — 3-е изд.. — Москва : ДМК Пресс, 2023.
Дополнительная информация
Телеграмм-канал: https://t.me/+Sx35lZYIMNKrJhxD
Чат для организационных вопросов: https://t.me/+TthMMjeXdGazhGkZ
День недели
четверг
Время
16:45-18:20
Аудитория
1311
Дата первого занятия
Аудитория первого занятия
1311
Статус курса
Запись открыта
Форма записи на курс
Заполнение формы записи на курс доступно только студентам. Для записи на курс авторизуйтесь, пожалуйста, в студенческом аккаунте.