Результаты (
русский) 2:
[копия]Скопировано!
Агент-среда интерфейса
Проблема обучения армирование предназначается , чтобы быть простым обрамлением задачи обучения от взаимодействия для достижения цели. Учащийся и принимающее решение, называется агентом. Дело в том, что взаимодействует с, содержащее все вне агента, называется окружением. Они взаимодействуют непрерывно, агент выбора действий и окружающей среды в ответ на эти действия и представляя новые ситуации в agent.3.1 среда также приводит к образованию наград, специальных числовых значений , что агент пытается максимизировать в течение долгого времени. Полная спецификация среды , определяет задачу, один экземпляр проблемы обучения с подкреплением.
Более конкретно, агент и среда взаимодействуют в каждом из последовательности дискретных шагов по времени, .3.2 На каждом шаге времени агент получает некоторого представления состояния окружающей среды, в , где есть множество возможных состояний, и на этой основе выбирает действие, где есть множество действий , доступных в состоянии. Один шаг позже, отчасти как следствие его действия, агент получает численное вознаграждение, и находит себя в новом состоянии, .3.3 Рисунок 3.1 Схемы взаимодействия агента и окружающей среды.
переводится, пожалуйста, подождите..
