Название спецкурса на русском языке
Аналитика больших данных
Перевод названия курса на английский язык
Big Data Analytics
Авторы курса
Главацкий Сергей Тимофеевич, Бурыкин Илья Геннадиевич, Айдагулов Рустем Римович
Целевая аудитория
3 курс
4 курс
5 курс
6 курс
Магистранты
Аспиранты
Подразделение
[Кафедра теоретической информатики]
Семестр
Годовой
Тип курса
Спецкурс по выбору кафедры
Аннотация
Курс посвящен интеллектуальному анализу данных (Data Mining) - области науки о данных, включающей разработку алгоритмов и создание моделей, которые превращают ранее непригодные данные в ценную информацию. Рассматривается анализ больших объемов данных, которые не могут быть целиком размещены в оперативной памяти компьютера. Материал преподносится с алгоритмической точки зрения, т.е. интеллектуальный анализ данных рассматривается, прежде всего, в применении определенных алгоритмов (классических и современных) к данным. Основными темами являются: распределенные файловые системы и Map-Reduce как инструмент для создания параллельных алгоритмов, эффективных для обработки больших объемов данных; поиск по сходству, в том числе ключевые методы хеширования (minhashing) и локально чувствительное хеширование, применяемые в задачах обнаружения дубликатов веб-страниц, в кластеризации документов по подобию наборов слов и т.п.; теория локально-чувствительных (LSH) функций: локально-чувствительные семейства для расстояний по Жаккару, по Хеммингу, для евклидова расстояния и расстояния по косинусу; анализ рыночной корзины (поиск ассоциативных правил), масштабируемый алгоритм поиска ассоциативных правил (A-Priori); алгоритмы кластеризации многомерных массивов данных (BFR, k-means, CURE и др.); анализ ссылок в Интернет, вычисление PageRank; две ключевые проблемы для веб-приложений: управление рекламой и работа рекомендательных систем; определение важных свойств больших наборов данных методами сокращения размерности, в том числе сингулярным разложением и латентной семантической индексацией. Для работы с большими массивами числовых данных, а также для демонстрации различных математических методов и алгоритмов используется язык Python и модули с открытым исходным кодом NumPy (Numeric Python), SciPy (Scientific Python) и др.
Как проходит
Пятница, 16-45 - 18-20, ауд. 802 2 УК. Telegram канал: t.me/joinchat/AAAAAEsd-ZWWCDDSqyYcQw. E-mail: b_ilia@mail.ru
Учебный год
2020/22