Математические методы анализа данных, II
Постановка задачи об оптимальной эволюции вдоль дерева (ациклической сети): даны данные в листьях дерева и ищутся данные в нелистовых вершинах. Один из подходов основан на марковской (или близкой к ней) эволюции.
Постановка задачи о классификации данного множества точек в многомерном вещественном пространстве (иными словами, столбцов неотрицательной числовой матрицы данных). Минимизируется функционал, который накладывает условие на искомую кластеризацию: для каждого её кластера, «близость» точек внутри него значимо больше, чем близость точек кластера к точкам вне кластера. Оставшаяся часть курса обсуждает эту задачу кластеризации.
Удаление скрытых параметров в данных. Преобразование данных, приводящее к минимальной зависимости дисперсии строки данной матрицы от среднего строки.
Выбор характерных для кластеризации строк матрицы.
Переход к оптимальным и наиболее информативным координатам исходных точек, т.е. к новым координатам столбцов.
Переход к графу: вершины – исходные точки, рёбра соединяют вершины, у которых окрестности вершин пересекаются, и рёбрам приписаны ранговые веса.
Максимизация функции модулярности, аргумент которой – переменная кластеризация вершин (=точек) графа.
Алгоритм такой максимизации.
Выбор индивидуальных признаков каждого кластера в оптимальной кластеризации.
Понижение размерности исходных данных (матрица типично имеет более 30 тысяч строк 50 тысяч столбцов; возможно понижение размерности пространства до значения 2).
Курс не предполагает предварительных знаний; в частности, знакомства с курсами лектора прошлого учебного года.
Страница спецкурса: http://logic.math.msu.ru/staff/lyubetsky/mmdp/.
Cлушатели должны зарегистрироваться по адресу gorbunov@iitp.ru, сообщив о себе: ФИО полностью, факультет, группу, свой email и мобильный.
Компьютерная обработка больших данных — универсальное направление исследований буквально во всех областях естественных и гуманитарных наук. В тоже время такая обработка опирается на методы современной математики, от алгоритмов до геометрии. Используемые здесь методы/алгоритмы в основном эвристические, интуитивно построенные, для которых почти неизвестны доказательства их правильности. Более того, обычно не существует даже математической постановки задачи, решаемой таким эвристическим алгоритмом; сама эта задача понимается интуитивно, на основе компьютерных экспериментов и опыта применения в данной прикладной области. Будет рассказан, так называемый, метод Seurat, широко применяемый в разных прикладных задачах и особенно в биоинформатике. Будут обсуждаться проблемы его обоснования, далёкие от математического решения. Будут предложены компьютерные вычислительные программистские математические задачи, как и реально прикладные, для курсовых и дипломных работ; для аспирантских тем. Никакие предварительные знания не предполагаются; все необходимые сообщаются на лекциях. После каждой лекции предполагается факультативный семинар и обсуждение задач.