Машинное обучение с подкреплением

Название спецкурса на английском языке
Reinforcement learning
Авторы курса
Миронов Андрей Михайлович
Пререквизиты
математический анализ, линейная алгебра, теория вероятностей, базовый Python
Целевая аудитория
1-2 курс
3-6 курс, магистранты
аспиранты
Подразделение
[Кафедра МаТИС]
Семестр
Весна
Тип спецкурса
Спецкурс по выбору студента
Учебный год
2025/26
Список тем
Многорукие бандиты
Контекстуальные бандиты
MDP и основы RL
Уравнения Беллмана и динамическое программирование
Обучение по траекториям
Аппроксимация функций и Deep RL
Policy Gradient
Actor–Critic
Trust Region методы
Современная policy optimization: GRPO
Off-policy и Offline RL
Современные направления и ограничения
Список источников
Sutton, Barto. Reinforcement Learning: An Introduction (2nd ed.).
Дополнительная информация

Курс посвящён современным методам обучения с подкреплением (Reinforcement Learning, RL) с акцентом на практическое применение.

В курсе излагаются модели многоруких и контекстуальных бандитов (regret, UCB, Thompson Sampling), затем излагаются марковскиие процессы принятия решений (MDP) и динамическое программирование, методы обучения по траекториям (MC/TD), глубокое обучение (DQN, источники нестабильности), policy gradient и actor–critic подходы, trust-region оптимизация (TRPO, PPO), а также современные направления: off-policy и offline RL, GRPO и связь RL с RLHF и обучение больших языковых моделей (LLM).

 

Занятия начинаются в 17-00.

День недели
четверг
Время
16:45-18:20
Аудитория
428
Дата первого занятия
Аудитория первого занятия
428
Статус курса
Запись открыта
Форма записи на курс
Заполнение формы записи на курс доступно только студентам. Для записи на курс авторизуйтесь, пожалуйста, в студенческом аккаунте.