Название спецкурса на русском языке
Аналитика больших данных: основные алгоритмы
Перевод названия курса на английский язык
Big Data Analytics: basic algorithms
Авторы курса
Главацкий Сергей Тимофеевич, Бурыкин Илья Геннадиевич
Целевая аудитория
3 курс
4 курс
5 курс
6 курс
Магистранты
Аспиранты
Подразделение
[Кафедра теоретической информатики]
Семестр
Полгода (осень)
Тип курса
Спецкурс по выбору кафедры
Учебный год
2021/22
День недели
пятница
Время
16:45-18:20
Формат проведения
Дистанционно
Аудитория
[Дистанционно]
Аннотация
Курс посвящен интеллектуальному анализу данных (Data Mining) - области науки о данных, включающей разработку алгоритмов и создание моделей, которые превращают ранее непригодные данные в ценную информацию. Рассматривается анализ больших объемов данных, которые не могут быть целиком размещены в оперативной памяти компьютера. Материал преподносится с алгоритмической точки зрения, т.е. интеллектуальный анализ данных рассматривается, прежде всего, в применении определенных алгоритмов (классических и современных) к данным. Основными темами являются: распределенные файловые системы и Map-Reduce как инструмент для создания параллельных алгоритмов, эффективных для обработки больших объемов данных; поиск по сходству, в том числе ключевые методы хеширования (minhashing) и локально чувствительное хеширование, применяемые в задачах обнаружения дубликатов веб-страниц, в кластеризации документов по подобию наборов слов и т.п.; теория локально-чувствительных (LSH) функций: локально-чувствительные семейства для расстояний по Жаккару, по Хеммингу, для евклидова расстояния и расстояния по косинусу; анализ рыночной корзины (поиск ассоциативных правил), масштабируемый алгоритм поиска ассоциативных правил (A-Priori); алгоритмы кластеризации многомерных массивов данных (BFR, k-means, CURE и др.).
Дополнительная информация

Запись и организационная информация: онлайн t.me/joinchat/AAAAAEsd-ZWWCDDSqyYcQw