At each time step, the agent implem

At each time step, the agent implements a mapping from states to probabilities of selecting each possible action. This mapping is called the agent's policy and is denoted , where is the probability that if . Reinforcement learning methods specify how the agent changes its policy as a result of its experience. The agent's goal, roughly speaking, is to maximize the total amount of reward it receives over the long run.

This framework is abstract and flexible and can be applied to many different problems in many different ways. For example, the time steps need not refer to fixed intervals of real time; they can refer to arbitrary successive stages of decision-making and acting. The actions can be low-level controls, such as the voltages applied to the motors of a robot arm, or high-level decisions, such as whether or not to have lunch or to go to graduate school. Similarly, the states can take a wide variety of forms. They can be completely determined by low-level sensations, such as direct sensor readings, or they can be more high-level and abstract, such as symbolic descriptions of objects in a room. Some of what makes up a state could be based on memory of past sensations or even be entirely mental or subjective. For example, an agent could be in "the state" of not being sure where an object is, or of having just been "surprised" in some clearly defined sense. Similarly, some actions might be totally mental or computational. For example, some actions might control what an agent chooses to think about, or where it focuses its attention. In general, actions can be any decisions we want to learn how to make, and the states can be anything we can know that might be useful in making them.

In particular, the boundary between agent and environment is not often the same as the physical boundary of a robot's or animal's body. Usually, the boundary is drawn closer to the agent than that. For example, the motors and mechanical linkages of a robot and its sensing hardware should usually be considered parts of the environment rather than parts of the agent. Similarly, if we apply the framework to a person or animal, the muscles, skeleton, and sensory organs should be considered part of the environment. Rewards, too, presumably are computed inside the physical bodies of natural and artificial learning systems, but are considered external to the agent.

The general rule we follow is that anything that cannot be changed arbitrarily by the agent is considered to be outside of it and thus part of its environment. We do not assume that everything in the environment is unknown to the agent. For example, the agent often knows quite a bit about how its rewards are computed as a function of its actions and the states in which they are taken. But we always consider the reward computation to be external to the agent because it defines the task facing the agent and thus must be beyond its ability to change arbitrarily. In fact, in some cases the agent may know everything about how its environment works and still face a difficult reinforcement learning task, just as we may know exactly how a puzzle like Rubik's cube works, but still be unable to solve it. The agent-environment boundary represents the limit of the agent's absolute control, not of its knowledge.

The agent-environment boundary can be located at different places for different purposes. In a complicated robot, many different agents may be operating at once, each with its own boundary. For example, one agent may make high-level decisions which form part of the states faced by a lower-level agent that implements the high-level decisions. In practice, the agent-environment boundary is determined once one has selected particular states, actions, and rewards, and thus has identified a specific decision-making task of interest.

The reinforcement learning framework is a considerable abstraction of the problem of goal-directed learning from interaction. It proposes that whatever the details of the sensory, memory, and control apparatus, and whatever objective one is trying to achieve, any problem of learning goal-directed behavior can be reduced to three signals passing back and forth between an agent and its environment: one signal to represent the choices made by the agent (the actions), one signal to represent the basis on which the choices are made (the states), and one signal to define the agent's goal (the rewards). This framework may not be sufficient to represent all decision-learning problems usefully, but it has proved to be widely useful and applicable.

Of course, the particular states and actions vary greatly from application to application, and how they are represented can strongly affect performance. In reinforcement learning, as in other kinds of learning, such representational choices are at present more art than science.

This framework is abstract and flexible and can be applied to many different problems in many different ways. For example, the time steps need not refer to fixed intervals of real time; they can refer to arbitrary successive stages of decision-making and acting. The actions can be low-level controls, such as the voltages applied to the motors of a robot arm, or high-level decisions, such as whether or not to have lunch or to go to graduate school. Similarly, the states can take a wide variety of forms. They can be completely determined by low-level sensations, such as direct sensor readings, or they can be more high-level and abstract, such as symbolic descriptions of objects in a room. Some of what makes up a state could be based on memory of past sensations or even be entirely mental or subjective. For example, an agent could be in "the state" of not being sure where an object is, or of having just been "surprised" in some clearly defined sense. Similarly, some actions might be totally mental or computational. For example, some actions might control what an agent chooses to think about, or where it focuses its attention. In general, actions can be any decisions we want to learn how to make, and the states can be anything we can know that might be useful in making them.

In particular, the boundary between agent and environment is not often the same as the physical boundary of a robot's or animal's body. Usually, the boundary is drawn closer to the agent than that. For example, the motors and mechanical linkages of a robot and its sensing hardware should usually be considered parts of the environment rather than parts of the agent. Similarly, if we apply the framework to a person or animal, the muscles, skeleton, and sensory organs should be considered part of the environment. Rewards, too, presumably are computed inside the physical bodies of natural and artificial learning systems, but are considered external to the agent.

The general rule we follow is that anything that cannot be changed arbitrarily by the agent is considered to be outside of it and thus part of its environment. We do not assume that everything in the environment is unknown to the agent. For example, the agent often knows quite a bit about how its rewards are computed as a function of its actions and the states in which they are taken. But we always consider the reward computation to be external to the agent because it defines the task facing the agent and thus must be beyond its ability to change arbitrarily. In fact, in some cases the agent may know everything about how its environment works and still face a difficult reinforcement learning task, just as we may know exactly how a puzzle like Rubik's cube works, but still be unable to solve it. The agent-environment boundary represents the limit of the agent's absolute control, not of its knowledge.

The agent-environment boundary can be located at different places for different purposes. In a complicated robot, many different agents may be operating at once, each with its own boundary. For example, one agent may make high-level decisions which form part of the states faced by a lower-level agent that implements the high-level decisions. In practice, the agent-environment boundary is determined once one has selected particular states, actions, and rewards, and thus has identified a specific decision-making task of interest.

The reinforcement learning framework is a considerable abstraction of the problem of goal-directed learning from interaction. It proposes that whatever the details of the sensory, memory, and control apparatus, and whatever objective one is trying to achieve, any problem of learning goal-directed behavior can be reduced to three signals passing back and forth between an agent and its environment: one signal to represent the choices made by the agent (the actions), one signal to represent the basis on which the choices are made (the states), and one signal to define the agent's goal (the rewards). This framework may not be sufficient to represent all decision-learning problems usefully, but it has proved to be widely useful and applicable.

Of course, the particular states and actions vary greatly from application to application, and how they are represented can strongly affect performance. In reinforcement learning, as in other kinds of learning, such representational choices are at present more art than science.

4871/5000

Источник: английский

Цель: русский

Результаты (русский) 1: [копия]

Скопировано!

На каждом временном шаге агент реализует сопоставление государств к вероятности выбора каждого возможного действия. Это сопоставление называется политикой агента и обозначено, где — вероятность того, что, если. Методы обучения армирование определяют, как агент меняет свою политику с учетом его опыта. Цель агента, грубо говоря, заключается в том, чтобы максимизировать сумму награду, которую он получает в долгосрочной перспективе.Эта структура является абстрактным и гибким и может применяться для многих различных проблем различными способами. Например время действия должны не ссылаются на фиксированные интервалы реального времени; они могут ссылаться на произвольные последовательные стадии принятия решений и действовать. Действия могут быть низкоуровневые элементы управления, такие как напряжения, применяемые к моторам руке робота или высокого уровня решения, например, или не иметь обед или пойти в аспирантуру. Аналогичным образом государства могут принимать различные формы. Они могут быть полностью определяется низкого уровня ощущения, такие как прямые датчиков, или они могут быть более высокого уровня и абстрактные, такие как символические описания объектов в комнате. Некоторые из того, что составляет государство может основываться на память прошлых ощущений или даже полностью психического или субъективной. Например агент может быть в «государстве» не уверены, где находится объект, или только что был «удивлен», в некоторых четко определенных смысле. Аналогичным образом некоторые действия могут быть полностью психического или вычислений. Например некоторые действия могут контролировать, что агент выбирает думать, или где он сосредотачивает свое внимание. В целом действия могут быть любые решения, которые мы хотим узнать, как сделать, и государства могут быть все, что мы можем знать, что может быть полезным при принятии их.В частности граница между агентом и окружающей среды часто не совпадает с физической границей робота или животного тела. Как правило граница ближе обращается к агенту, чем это. Например двигатели и механических связей робота и его зондирования оборудования обычно следует частей окружающей среды, а не частей агента. Аналогично Если мы применяем рамки для человека или животного, мышцы, скелет и органы чувств следует считать частью окружающей среды. Награды, тоже, предположительно вычисляются внутри физических тел обучения естественных и искусственных систем, но считаются внешними по отношению к агенту.Общее правило, мы следуем заключается в том, что все, что не может произвольно изменить агент считается вне его и, таким образом, часть его окружающей среды. Мы не предполагаем, что все в окружающей среде неизвестно к агенту. Например агент часто знает совсем немного о как его награды вычисляются в зависимости от своих действий и государств, в которых они принимаются. Но мы всегда учитываем вознаграждение вычислений будет внешним агентом, поскольку он определяет задачи, стоящие перед агентом и поэтому должна быть вне ее способность произвольно изменять. В самом деле в некоторых случаях агент может знать все о том, как работает его окружающей среды и по-прежнему сталкиваются с трудной подкрепление задачи обучения, так же, как мы можем знать, как именно работает головоломки как Рубика, но по-прежнему не сможет ее решить. Граница агента среды представляет собой ограничение абсолютного контроля агента, не его знаний.Граница агента среды могут быть расположены в разных местах для разных целей. В сложный робот многие различные агенты могут работать одновременно, каждый со своей собственной границы. Например один агент может принимать высокого уровня решения которые являются частью государства, сталкиваются более низкого уровня агент, который реализует решения высокого уровня. На практике агент среды граница определяется после того, как один выбрал конкретные государства, действия и награды и таким образом определил конкретную задачу принятия решений интереса.Концепция обучения армирование — значительное абстракция проблемы целенаправленного обучения от взаимодействия. Он предлагает, чтобы все детали сенсорных, памяти и управления аппарата и все цель один пытается достичь, любой проблемы обучения целенаправленного поведения может быть уменьшена до трех сигналов, проходя взад и вперед между агентом и его окружение: один сигнал для представления выбора агента (действия), один сигнал, представляют собой основу, на которой выборы производятся (Штаты) и один сигнал для определения цели агента (награды). Эта структура может оказаться недостаточно представлять все проблемы обучения решение полезно, но оно оказалось широко полезным и применимым.Конечно конкретные государства и действия зависят от приложения, и как они представлены могут сильно влиять на производительность. В обучения с подкреплением, как и в других видах обучения, такой representational выбор находятся в настоящее время больше искусство, чем наука.

переводится, пожалуйста, подождите..

Результаты (русский) 2:[копия]

Скопировано!

На каждом шаге времени агент реализует отображение состояний для вероятностей выбора каждого возможного действия. Это отображение называется политикой агента и обозначается, где есть вероятность того, что , если. Методы обучения Армирование определяют , как агент изменяет свою политику в результате своего опыта. Цель агента, грубо говоря, состоит в максимизации общей суммы вознаграждения , которую он получает в течение длительного времени.

Эта структура является абстрактным и гибким и может быть применена ко многим различным проблемам по - разному. Например, временные шаги нужно не относятся к фиксированные интервалы реального времени; они могут ссылаться на произвольные последовательные этапы принятия решений и действий. Действия могут быть органы управления более низкого уровня, такие как напряжений , приложенных к двигателям руки робота, или решений высокого уровня, например, является ли или не иметь обед или пойти в аспирантуру. Аналогичным образом , государства могут принимать самые разнообразные формы. Они могут быть полностью определяется ощущениями низкого уровня, таких как прямые показания датчиков, или они могут быть более высокого уровня и абстрактного, такие как символические описания объектов в комнате. Некоторые из того, что составляет состояние может быть основано на памяти о прошлых ощущений или даже быть полностью психическое или субъективное. Например, агент может быть в "состояние" не будучи уверенным , где объект, или только что был "удивлен" в каком - то четко определенном смысле. Кроме того , некоторые действия могут быть полностью умственному или вычислительная. Например, некоторые действия могут контролировать то , что агент выбирает думать о том , или там , где она фокусирует свое внимание. В целом, действия могут быть любые решения , которые мы хотим узнать , как сделать, и государства может быть все , что мы можем знать , что может быть полезным при их изготовлении.

В частности, граница между агентом и окружающей среды не часто такой же , как физический граница тела робота или животного. Как правило, граница проводится ближе к агенту , чем это. Например, двигатели и механические связи робота и его чувствительный аппаратных средств , как правило , следует рассматривать компоненты среды , а не частей агента. Аналогичным образом , если мы применим рамки для человека или животного, мышц, скелета и органов чувств следует рассматривать как часть окружающей среды. Награды, также, по- видимому, вычисляются внутри физических тел естественных и искусственных систем обучения, но считаются внешними по отношению к агенту.

Общее правило следовать, что все , что не может быть изменено произвольным образом агентом считается вне его и Таким образом , часть его окружения. Мы не предполагаем , что все в окружающей среде, неизвестно агенту. Например, агент часто знает совсем немного о том , как ее награды вычисляются в зависимости от его действий и состояний , в которых они приняты. Но мы всегда учитываем вычисление вознаграждения быть внешним по отношению к агенту , поскольку она определяет задачу , стоящую перед агентом и , таким образом , должен быть вне его способности изменять произвольно. На самом деле, в некоторых случаях агент может знать все о том , как его окружение работает и до сих пор сталкиваются с трудной задачей обучения с подкреплением, так же , как мы можем точно знать , как головоломка , как куб работ Рубика, но до сих пор не в состоянии решить. Граница агент-среда представляет собой предел абсолютного контроля агента, а не его знания.

Границу агент среда может располагаться в разных местах для разных целей. В сложном робота, множество различных агентов могут работать одновременно, каждый со своей собственной границей. Например, один агент может принимать решения на высоком уровне , которые составляют часть государств , с которыми сталкиваются агента низшего уровня , который реализует решения на высоком уровне. На практике граница агент-среда определяется как только один выбрал тех или иных государств, действия и награды, и , таким образом определил конкретное принятие решений задачи интересов.

Структура обучения подкрепление значительная абстракция проблемы целенаправленная обучения от взаимодействия. Она предполагает , что все детали сенсорной, памяти и устройства управления, и независимо от того объективный пытается достичь, любая проблема обучения целенаправленного поведения может быть сведено к трем сигналов , проходящих назад и вперед между агентом и его окружением: один сигнал , чтобы представить выбор , сделанный агентом (действия), один сигнал представлять основу , на которой делаются выборы (состояния), и один сигнал для определения цели агента (награды). Эта структура не может быть достаточным , чтобы представлять все проблемы принятия обучения с пользой, но она оказалась широко полезным и применимым.

Конечно, определенные состояния и действия значительно варьируются от приложения к приложению, и как они представлены может сильно повлиять на производительность , В обучении с подкреплением, как и в других видах обучения, такие репрезентативные варианты в настоящее время больше искусство , чем наука.

переводится, пожалуйста, подождите..

Результаты (русский) 3:[копия]

Скопировано!

на каждый шаг по времени, агент осуществляет карт от государства возможности выбора каждого возможных действий.в настоящем документе называется агент политики и обозначается, где вероятность того, что если.укрепление методов обучения определяет, как агент изменения своей политики, исходя из своего опыта.агент состоит, грубо говоря, состоит в том, чтобы максимально увеличить сумму вознаграждения он получает в долгосрочной перспективе.эта структура является абстрактной и гибкими и могут применяться различные проблемы, по - разному.например, когда необходимо ссылаться не на определенные промежутки времени в режиме реального времени; они могут сослаться на последующих этапах процесса принятия решений и произвольных действий.эти меры могут быть низкого уровня контроля, таких, как напряжения применяется для двигателей рука робота, или решений на высоком уровне, как, например, есть ли обед или идти в высшей школе.кроме того, государства могут принимать самые разнообразные формы.они могут быть полностью определяется уровень ощущения, таких, как прямые показания сенсоров, или они могут быть более высокого уровня и резюме, таких как символическое описания объектов в комнате.то, что составляет государство может основываться на память о прошлых ощущений или даже полностью психического или субъективно.например, агента может быть в "государство" не уверены, где объект, или он просто был удивлен "в некоторых четко определенных смысл.аналогичным образом, некоторые меры могут быть полностью психического или расчетной.например, некоторые действия могут контролировать то, что агент предпочитает думать, или где он сосредотачивает свое внимание.в целом меры могут быть любые решения, мы хотим узнать, как делать, и государства, может быть что - нибудь, что мы можем знать, что могут быть полезными в обеспечении их.в частности, границы между агентом и окружающей среды, не часто, так же как и физические границы робот или тело животного.как правило, границы обращается к агенту, чем это.например, двигателей и механических соединений робот и зондирования оборудование должно быть рассмотрела части по охране окружающей среды, а не в части агент.аналогичным образом, если мы будем применять рамки для человека или животного, мышцы, скелет, и сенсорные органы следует рассматривать как часть среды.награды, тоже, по - видимому, исчисляются в физических тел природных и искусственных систем обучения, но считаются внешними агенту.общее правило заключается в том, что мы за то, что не может быть изменен произвольно агент считается вне ее, и, таким образом, часть ее среды.мы не думаем, что все в среду неизвестный агент.например, агент часто знает немного о том, как его награды исчисляется в зависимости от его действий, и государства, в котором они были приняты.но мы всегда рассматривать награду вычисления для внешних агенту, потому что она определяет, задача агента и, следовательно, должны быть за ее способность менять произвольно.более того, в некоторых случаях агент может знать все о том, как ее окружающей среды работает и сталкиваются с трудной задачей укрепление знаний, как мы можем точно знать, как пазл, как кубик рубика, работает, но всё равно не смогут решить это.агент среды границы представляет предел агент абсолютный контроль, а не его знаний.агент среды границы могут быть расположены в разных местах для различных целей.в сложной робота, многие агенты могут действовать сразу, каждый из которых имеет свои собственные границы.например, один агент может выносить решения высокого уровня, которые являются частью государства, с которыми сталкиваются более низкого уровня, агент, который выполняет решения высокого уровня.на практике, агент среды границы определяется как - то выбрал конкретные действия государства, и награды, и, таким образом, определила конкретные решения задачи интерес.укрепление рамок обучения является большой забор проблемы goal-directed изучение взаимодействия.он предлагает, чтобы все детали сенсорные, память и контроль аппарат, и что цель один пытается достичь, какие - либо проблемы обучения goal-directed поведение может быть сокращен до трех сигналов мимо взад и вперед между агентом и окружающей его среды: один сигнал представлять выбор агента (действия), сигнал, представляют собой основу, на которой выбор уже сделан (государства), и один сигнал для определения агента цели (награды).эта система не может быть достаточно для того, чтобы представлять все решения проблем обучения полезно, но она оказалась полезным и широко применяется.конечно, особенно государства, и действия значительно отличаются от применения к применению, и как они представлены может сильно повлиять на показатели.в подкрепление обучения, как и в других видов обучения, такие представительские выбор в настоящее время больше искусство, чем наука.

переводится, пожалуйста, подождите..

Другие языки

Поддержка инструмент перевода: Клингонский (pIqaD), Определить язык, азербайджанский, албанский, амхарский, английский, арабский, армянский, африкаанс, баскский, белорусский, бенгальский, бирманский, болгарский, боснийский, валлийский, венгерский, вьетнамский, гавайский, галисийский, греческий, грузинский, гуджарати, датский, зулу, иврит, игбо, идиш, индонезийский, ирландский, исландский, испанский, итальянский, йоруба, казахский, каннада, каталанский, киргизский, китайский, китайский традиционный, корейский, корсиканский, креольский (Гаити), курманджи, кхмерский, кхоса, лаосский, латинский, латышский, литовский, люксембургский, македонский, малагасийский, малайский, малаялам, мальтийский, маори, маратхи, монгольский, немецкий, непальский, нидерландский, норвежский, ория, панджаби, персидский, польский, португальский, пушту, руанда, румынский, русский, самоанский, себуанский, сербский, сесото, сингальский, синдхи, словацкий, словенский, сомалийский, суахили, суданский, таджикский, тайский, тамильский, татарский, телугу, турецкий, туркменский, узбекский, уйгурский, украинский, урду, филиппинский, финский, французский, фризский, хауса, хинди, хмонг, хорватский, чева, чешский, шведский, шона, шотландский (гэльский), эсперанто, эстонский, яванский, японский, Язык перевода.