Математические методы анализа данных, II

Название спецкурса на английском языке
Mathematical methods of data analysis, II
Авторы курса
Любецкий Василий Александрович
Пререквизиты
Отсутствуют
Целевая аудитория
1-2 курс
3-6 курс, магистранты
аспиранты
Подразделение
[Кафедра математической логики и теории алгоритмов]
Семестр
Осень
Тип спецкурса
Спецкурс по выбору кафедры
Учебный год
2025/26
Список тем
Постановка задачи об оптимальном преобразовании одного ориентированного нагруженного графа в другой наперёд заданными операциями над графами. Каждая операция имеет свою цену и минимизируется суммарная цена последовательности операций, которая преобразуем один данный граф в другой.
Постановка задачи об оптимальной эволюции вдоль дерева (ациклической сети): даны данные в листьях дерева и ищутся данные в нелистовых вершинах. Один из подходов основан на марковской (или близкой к ней) эволюции.
Постановка задачи о классификации данного множества точек в многомерном вещественном пространстве (иными словами, столбцов неотрицательной числовой матрицы данных). Минимизируется функционал, который накладывает условие на искомую кластеризацию: для каждого её кластера, «близость» точек внутри него значимо больше, чем близость точек кластера к точкам вне кластера. Оставшаяся часть курса обсуждает эту задачу кластеризации.
Удаление скрытых параметров в данных. Преобразование данных, приводящее к минимальной зависимости дисперсии строки данной матрицы от среднего строки.
Выбор характерных для кластеризации строк матрицы.
Переход к оптимальным и наиболее информативным координатам исходных точек, т.е. к новым координатам столбцов.
Переход к графу: вершины – исходные точки, рёбра соединяют вершины, у которых окрестности вершин пересекаются, и рёбрам приписаны ранговые веса.
Максимизация функции модулярности, аргумент которой – переменная кластеризация вершин (=точек) графа.
Алгоритм такой максимизации.
Выбор индивидуальных признаков каждого кластера в оптимальной кластеризации.
Понижение размерности исходных данных (матрица типично имеет более 30 тысяч строк 50 тысяч столбцов; возможно понижение размерности пространства до значения 2).
Список источников
Butler A, Hoffman P, Smibert P, Papalexi E, Satija R. Integrating data across different conditions, technologies, and species. Nat Biotechnol. 2018 Jun;36(5):411-420. doi:10.1038/nbt.4096. Epub 2018 Apr 2 PMID: 29608179; PMCID: PMC6700744.
Дополнительная информация

Курс не предполагает предварительных знаний; в частности, знакомства с курсами лектора прошлого учебного года.

Страница спецкурса: http://logic.math.msu.ru/staff/lyubetsky/mmdp/. 

Cлушатели должны зарегистрироваться по адресу gorbunov@iitp.ru, сообщив о себе: ФИО полностью, факультет, группу, свой email и мобильный.

Компьютерная обработка больших данных — универсальное направление исследований буквально во всех областях естественных и гуманитарных наук. В тоже время такая обработка опирается на методы современной математики, от алгоритмов до геометрии. Используемые здесь методы/алгоритмы в основном эвристические, интуитивно построенные, для которых почти неизвестны доказательства их правильности. Более того, обычно не существует даже математической постановки задачи, решаемой таким эвристическим алгоритмом; сама эта задача понимается интуитивно, на основе компьютерных экспериментов и опыта применения в данной прикладной области. Будет рассказан, так называемый, метод Seurat, широко применяемый в разных прикладных задачах и особенно в биоинформатике. Будут обсуждаться проблемы его обоснования, далёкие от математического решения. Будут предложены компьютерные вычислительные программистские математические задачи, как и реально прикладные, для курсовых и дипломных работ; для аспирантских тем. Никакие предварительные знания не предполагаются; все необходимые сообщаются на лекциях. После каждой лекции предполагается факультативный семинар и обсуждение задач.

День недели
понедельник
Время
16:45-18:20
Аудитория
Ещё не назначена
Дата первого занятия
Аудитория первого занятия
Ещё не назначена
Статус курса
Запись открыта
Форма записи на курс
Заполнение формы записи на курс доступно только студентам. Для записи на курс авторизуйтесь, пожалуйста, в студенческом аккаунте.