Название спецкурса на русском языке
Аналитика больших данных
Перевод названия курса на английский язык
Big Data Analytics
Авторы курса
Главацкий Сергей Тимофеевич, Бурыкин Илья Геннадиевич
Целевая аудитория
3 курс
4 курс
5 курс
6 курс
Магистранты
Аспиранты
Подразделение
[Кафедра теоретической информатики]
Семестр
Год
Тип курса
Спецкурс по выбору кафедры
Учебный год
2022/23
День недели
четверг
Время
16:45-18:20
Формат проведения
В аудитории
Аудитория
802
Аннотация
Курс посвящен интеллектуальному анализу данных (Data Mining) - области науки о данных, включающей разработку алгоритмов и создание моделей, которые превращают ранее непригодные данные в ценную информацию. Рассматривается анализ больших объемов данных, которые не могут быть целиком размещены в оперативной памяти компьютера. Материал преподносится с алгоритмической точки зрения, т.е. интеллектуальный анализ данных рассматривается, прежде всего, в применении определенных алгоритмов (классических и современных) к данным. Основными темами являются: распределенные файловые системы и Map-Reduce как инструмент для создания параллельных алгоритмов, эффективных для обработки больших объемов данных; поиск по сходству, в том числе ключевые методы хеширования (minhashing) и локально чувствительное хеширование, применяемые в задачах обнаружения дубликатов веб-страниц, в кластеризации документов по подобию наборов слов и т.п.; теория локально-чувствительных (LSH) функций: локально-чувствительные семейства для расстояний по Жаккару, по Хеммингу, для евклидова расстояния и расстояния по косинусу; анализ рыночной корзины (поиск ассоциативных правил), масштабируемый алгоритм поиска ассоциативных правил (A-Priori); алгоритмы кластеризации многомерных массивов данных (BFR, k-means, CURE и др.); анализ ссылок в Интернет, вычисление PageRank; две ключевые проблемы для веб-приложений: управление рекламой и работа рекомендательных систем; определение важных свойств больших наборов данных методами сокращения размерности, в том числе сингулярным разложением и латентной семантической индексацией. Для работы с большими массивами числовых данных, а также для демонстрации различных математических методов и алгоритмов используется язык Python и модули с открытым исходным кодом NumPy (Numeric Python), SciPy (Scientific Python) и др.
Дополнительная информация

Запись и организационная информация по курсу: онлайн https://t.me/+Sx35lZYIMNKrJhxD
Начало занятий в весеннем семестре: 16.02

ауд.802, 2й учебный корпус