The Agent-Environment InterfaceThe

The Agent-Environment Interface

The reinforcement learning problem is meant to be a straightforward framing of the problem of learning from interaction to achieve a goal. The learner and decision-maker is called the agent. The thing it interacts with, comprising everything outside the agent, is called the environment. These interact continually, the agent selecting actions and the environment responding to those actions and presenting new situations to the agent.3.1 The environment also gives rise to rewards, special numerical values that the agent tries to maximize over time. A complete specification of an environment defines a task, one instance of the reinforcement learning problem.

More specifically, the agent and environment interact at each of a sequence of discrete time steps, .3.2 At each time step , the agent receives some representation of the environment's state, , where is the set of possible states, and on that basis selects an action, , where is the set of actions available in state . One time step later, in part as a consequence of its action, the agent receives a numerical reward, , and finds itself in a new state, .3.3 Figure 3.1 diagrams the agent-environment interaction.

The Agent-Environment Interface

The reinforcement learning problem is meant to be a straightforward framing of the problem of learning from interaction to achieve a goal. The learner and decision-maker is called the agent. The thing it interacts with, comprising everything outside the agent, is called the environment. These interact continually, the agent selecting actions and the environment responding to those actions and presenting new situations to the agent.3.1 The environment also gives rise to rewards, special numerical values that the agent tries to maximize over time. A complete specification of an environment defines a task, one instance of the reinforcement learning problem.

More specifically, the agent and environment interact at each of a sequence of discrete time steps, .3.2 At each time step , the agent receives some representation of the environment's state, , where is the set of possible states, and on that basis selects an action, , where is the set of actions available in state . One time step later, in part as a consequence of its action, the agent receives a numerical reward, , and finds itself in a new state, .3.3 Figure 3.1 diagrams the agent-environment interaction.

0/5000

Источник: -

Цель: -

Результаты (русский) 1: [копия]

Скопировано!

Интерфейс агента средыПроблема обучения армирование должен быть простым обрамлять проблемы изучения взаимодействия для достижения цели. Ученик и decision-maker называется агентом. Вещь, которую она взаимодействует с, включая все за пределами агента, называется окружающей среды. Они взаимодействуют постоянно, агент, выбор действий и окружающей среды в ответ на эти действия и представление новых ситуаций agent.3.1, окружающей среды также порождает награды, специальные числовые значения, которые агент пытается максимизировать с течением времени. Полная спецификация среды определяет задачу, один экземпляр проблемы обучения с подкреплением.В частности, агент и окружающей среды взаимодействуют в каждой последовательности дискретных временных шагов,.3.2 на каждом временном шаге, агент получает некоторое представление состояния окружающей среды, где находится набор возможных состояний и на этой основе выбирает действие, где набор действий в государстве. Один раз шаг позже, отчасти в результате ее действий, агент получает численное вознаграждение и находит себя в новом государстве,.3.3 рисунок 3.1 схемы взаимодействия агента и окружающей среды.

переводится, пожалуйста, подождите..

Результаты (русский) 2:[копия]

Скопировано!

Агент-среда интерфейса

Проблема обучения армирование предназначается , чтобы быть простым обрамлением задачи обучения от взаимодействия для достижения цели. Учащийся и принимающее решение, называется агентом. Дело в том, что взаимодействует с, содержащее все вне агента, называется окружением. Они взаимодействуют непрерывно, агент выбора действий и окружающей среды в ответ на эти действия и представляя новые ситуации в agent.3.1 среда также приводит к образованию наград, специальных числовых значений , что агент пытается максимизировать в течение долгого времени. Полная спецификация среды , определяет задачу, один экземпляр проблемы обучения с подкреплением.

Более конкретно, агент и среда взаимодействуют в каждом из последовательности дискретных шагов по времени, .3.2 На каждом шаге времени агент получает некоторого представления состояния окружающей среды, в , где есть множество возможных состояний, и на этой основе выбирает действие, где есть множество действий , доступных в состоянии. Один шаг позже, отчасти как следствие его действия, агент получает численное вознаграждение, и находит себя в новом состоянии, .3.3 Рисунок 3.1 Схемы взаимодействия агента и окружающей среды.

переводится, пожалуйста, подождите..

Результаты (русский) 3:[копия]

Скопировано!

агент среды интерфейсусиление проблемы обучения должна быть простой постановки проблемы изучения взаимодействия для достижения цели.ученик и политик не назвал агента.то, что он взаимодействует с, в том числе снаружи агент, называется среды.эти контакты постоянно, агент выбор мер и окружающей среды в ответ на эти действия и представление новых ситуаций, с тем чтобы агент. 3.1 окружающая среда порождает награды, специальных цифровых значений, что агент пытается максимизировать с течением времени.полное описание условий, определяет задачи, одним из примеров усиления проблемы обучения.более конкретно, агент и окружающая среда взаимодействуют на каждой серии отдельных время шаги, 3.2 на каждый раз шаг, агент получает некоторые представительства состояния окружающей среды, где комплекс возможных государств, и на этой основе отбирает действий, где набор мер, имеющихся в государстве.один раз шаг позднее, отчасти в результате его действий, агент получает номерной награды, и считает себя в новом государстве, 3.3 диаграмма 3.1 чертежи агент условий взаимодействия.

переводится, пожалуйста, подождите..

Другие языки

Поддержка инструмент перевода: Клингонский (pIqaD), Определить язык, азербайджанский, албанский, амхарский, английский, арабский, армянский, африкаанс, баскский, белорусский, бенгальский, бирманский, болгарский, боснийский, валлийский, венгерский, вьетнамский, гавайский, галисийский, греческий, грузинский, гуджарати, датский, зулу, иврит, игбо, идиш, индонезийский, ирландский, исландский, испанский, итальянский, йоруба, казахский, каннада, каталанский, киргизский, китайский, китайский традиционный, корейский, корсиканский, креольский (Гаити), курманджи, кхмерский, кхоса, лаосский, латинский, латышский, литовский, люксембургский, македонский, малагасийский, малайский, малаялам, мальтийский, маори, маратхи, монгольский, немецкий, непальский, нидерландский, норвежский, ория, панджаби, персидский, польский, португальский, пушту, руанда, румынский, русский, самоанский, себуанский, сербский, сесото, сингальский, синдхи, словацкий, словенский, сомалийский, суахили, суданский, таджикский, тайский, тамильский, татарский, телугу, турецкий, туркменский, узбекский, уйгурский, украинский, урду, филиппинский, финский, французский, фризский, хауса, хинди, хмонг, хорватский, чева, чешский, шведский, шона, шотландский (гэльский), эсперанто, эстонский, яванский, японский, Язык перевода.