Добавить
Уведомления

MIT Лекция 5. Обучение с подкреплением (Массачусетский технологический институт)

Перевод пятой лекции легендарного курса MIT 6.S191 «Введение в глубокое обучение» посвящена одной из самых захватывающих областей — обучению с подкреплением (Reinforcement Learning, RL). Лектор Александр Амини (Alexander Amini) рассказывает, как научить агента принимать решения в сложной среде, чтобы максимизировать награду. Из этой лекции вы узнаете: Основы RL: Агент, среда, состояния (state), действия (action) и награды (reward). Чем это отличается от обучения с учителем. Марковский процесс принятия решений (MDP): Математическая формализация задачи RL. Q-обучение (Q-Learning): Как агент учится ценить свои действия с помощью функции полезности Q. Глубокие Q-сети (Deep Q-Networks, DQN): Комбинация RL с глубокими нейросетями, позволившая агентам играть в видеоигры на уровне человека (и выше). Политики градиентов (Policy Gradients): Альтернативный подход, где сеть учится напрямую выбирать лучшие действия. Примеры применения: Игры (Atari, AlphaGo), робототехника, оптимизация трафика, рекомендательные системы и даже дизайн лекарств. #MIT #DeepLearning #ReinforcementLearning #ОбучениеСПодкреплением #RL #DQN #MachineLearning #ИскусственныйИнтеллект #AI #НейронныеСети #ГлубокоеОбучение #AlphaGo #КурсMIT #AlexanderAmini #Робототехника #ИгровойИИ #MDP

Иконка канала Диванный разраб
1 подписчик
12+
16 дней назад
12+
16 дней назад

Перевод пятой лекции легендарного курса MIT 6.S191 «Введение в глубокое обучение» посвящена одной из самых захватывающих областей — обучению с подкреплением (Reinforcement Learning, RL). Лектор Александр Амини (Alexander Amini) рассказывает, как научить агента принимать решения в сложной среде, чтобы максимизировать награду. Из этой лекции вы узнаете: Основы RL: Агент, среда, состояния (state), действия (action) и награды (reward). Чем это отличается от обучения с учителем. Марковский процесс принятия решений (MDP): Математическая формализация задачи RL. Q-обучение (Q-Learning): Как агент учится ценить свои действия с помощью функции полезности Q. Глубокие Q-сети (Deep Q-Networks, DQN): Комбинация RL с глубокими нейросетями, позволившая агентам играть в видеоигры на уровне человека (и выше). Политики градиентов (Policy Gradients): Альтернативный подход, где сеть учится напрямую выбирать лучшие действия. Примеры применения: Игры (Atari, AlphaGo), робототехника, оптимизация трафика, рекомендательные системы и даже дизайн лекарств. #MIT #DeepLearning #ReinforcementLearning #ОбучениеСПодкреплением #RL #DQN #MachineLearning #ИскусственныйИнтеллект #AI #НейронныеСети #ГлубокоеОбучение #AlphaGo #КурсMIT #AlexanderAmini #Робототехника #ИгровойИИ #MDP

, чтобы оставлять комментарии