3.2 Goals and RewardsIn reinforcement learning, the purpose or goal of перевод - 3.2 Goals and RewardsIn reinforcement learning, the purpose or goal of русский как сказать

3.2 Goals and RewardsIn reinforceme

3.2 Goals and Rewards

In reinforcement learning, the purpose or goal of the agent is formalized in terms of a special reward signal passing from the environment to the agent. At each time step, the reward is a simple number, . Informally, the agent's goal is to maximize the total amount of reward it receives. This means maximizing not immediate reward, but cumulative reward in the long run.

The use of a reward signal to formalize the idea of a goal is one of the most distinctive features of reinforcement learning. Although this way of formulating goals might at first appear limiting, in practice it has proved to be flexible and widely applicable. The best way to see this is to consider examples of how it has been, or could be, used. For example, to make a robot learn to walk, researchers have provided reward on each time step proportional to the robot's forward motion. In making a robot learn how to escape from a maze, the reward is often zero until it escapes, when it becomes . Another common approach in maze learning is to give a reward of for every time step that passes prior to escape; this encourages the agent to escape as quickly as possible. To make a robot learn to find and collect empty soda cans for recycling, one might give it a reward of zero most of the time, and then a reward of for each can collected (and confirmed as empty). One might also want to give the robot negative rewards when it bumps into things or when somebody yells at it. For an agent to learn to play checkers or chess, the natural rewards are for winning, for losing, and 0 for drawing and for all nonterminal positions.

You can see what is happening in all of these examples. The agent always learns to maximize its reward. If we want it to do something for us, we must provide rewards to it in such a way that in maximizing them the agent will also achieve our goals. It is thus critical that the rewards we set up truly indicate what we want accomplished. In particular, the reward signal is not the place to impart to the agent prior knowledge about how to achieve what we want it to do.3.4For example, a chess-playing agent should be rewarded only for actually winning, not for achieving subgoals such taking its opponent's pieces or gaining control of the center of the board. If achieving these sorts of subgoals were rewarded, then the agent might find a way to achieve them without achieving the real goal. For example, it might find a way to take the opponent's pieces even at the cost of losing the game. The reward signal is your way of communicating to the robot what you want it to achieve, not how you want it achieved.

Newcomers to reinforcement learning are sometimes surprised that the rewards--which define of the goal of learning--are computed in the environment rather than in the agent. Certainly most ultimate goals for animals are recognized by computations occurring inside their bodies, for example, by sensors for recognizing food, hunger, pain, and pleasure. Nevertheless, as we discussed in the previous section, one can redraw the agent-environment interface in such a way that these parts of the body are considered to be outside of the agent (and thus part of the agent's environment). For example, if the goal concerns a robot's internal energy reservoirs, then these are considered to be part of the environment; if the goal concerns the positions of the robot's limbs, then these too are considered to be part of the environment--that is, the agent's boundary is drawn at the interface between the limbs and their control systems. These things are considered internal to the robot but external to the learning agent. For our purposes, it is convenient to place the boundary of the learning agent not at the limit of its physical body, but at the limit of its control.

The reason we do this is that the agent's ultimate goal should be something over which it has imperfect control: it should not be able, for example, to simply decree that the reward has been received in the same way that it might arbitrarily change its actions. Therefore, we place the reward source outside of the agent. This does not preclude the agent from defining for itself a kind of internal reward, or a sequence of internal rewards. Indeed, this is exactly what many reinforcement learning methods do.
0/5000
Источник: -
Цель: -
Результаты (русский) 1: [копия]
Скопировано!
3.2 цели и наградыВ подкрепление обучения цель или задача агента формализована с точки зрения Специального вознаграждения сигнала, переходя от окружающей среды к агенту. На каждом временном шаге награда — это простое число. Неофициально цель агента заключается в том, чтобы максимизировать сумму вознаграждения, которую он получает. Это означает, максимизация не мгновенного вознаграждения, но совокупное вознаграждение в долгосрочной перспективе.Использование награду сигнала формализовать идею цели является одной из наиболее отличительных особенностей обучения с подкреплением. Хотя такой способ формулирования целей на первый взгляд может показаться ограничение, на практике оказалось быть гибким и широко применяются. Лучший способ увидеть, что это рассматривать примеры того, как она была, или может быть использован. Например чтобы научиться ходить робота, исследователи предоставляют вознаграждение на каждый шаг времени пропорционально робота движение вперед. Сделать роботов узнать, как вырваться из лабиринта, награда часто является нулю до тех пор, пока он убегает, когда она становится. Другой распространенный подход в лабиринте обучения состоит в том, чтобы дать награду за каждый шаг времени, который проходит до побега; Это стимулирует агент бежать как можно быстрее. Чтобы сделать робот учиться, чтобы найти и собрать пустой сода банок для вторичной переработки, один может дать ему вознаграждение от нуля большую часть времени, а затем вознаграждение за каждый сбор может (и подтверждено как пустые). Одно может также хочу дать робот отрицательные награды, когда он натыкается на вещи, или когда кто-то кричит на него. Для агента, чтобы научиться играть в шахматы или шашки природные награды являются победу для потери и 0 для рисования и всех нетерминальных позиций.Вы можете увидеть, что происходит во всех этих примерах. Агент всегда учится максимизировать свою награду. Если мы хотим, чтобы что-то сделать для нас, мы должны предоставить вознаграждение в таким образом, что в максимизации их агент будет также достичь наших целей. Таким образом, очень важно, что награда, которую мы создали действительно показывают, что мы хотим сделать. В частности сигнал вознаграждение не является местом, чтобы придать агенту предварительного знания о том, как достичь, мы хотим его do.3.4For пример, играть в шахматы агент должны быть вознаграждены только за победу на самом деле, не для достижения подцелей, таких принимая частей своего противника или получить контроль центра Совета. Если достижение такого рода подцелей, были вознаграждены, агент может найти способ их достижения без достижения реальной цели. Например он может найти способ взять противника куски даже ценой потерять игру. Награда сигнал это ваш способ общения робота, что вы хотите достичь, не как вы хотите, что она достигнута.Новички обучения с подкреплением, иногда удивлен тем, что награды, которые определяют цели обучения, вычисляются в окружающей среде, а не в агенте. Конечно большинство конечных целей для животных признаются вычислениями, происходящие внутри их тела, например, датчики для признания продовольствия, голод, боль и удовольствие. Тем не менее, как мы говорили в предыдущем разделе, можно перерисовать интерфейс агента среды таким образом, чтобы эти части тела считаются чтобы быть вне агента (и, таким образом, часть среды агента). Например если цель касается робота внутренней энергии водохранилищ, то они считаются частью окружающей среды; Если цель озабоченности позиции робота конечностей, то они тоже считаются частью окружающей среды - то есть, агента граница рисуется на стыке между конечностей и их систем управления. Эти вещи считаются внутренними для робота, но внешние к агенту обучения. Для наших целей удобно поместить границу обучения агента не на пределе своего физического тела, но на пределе его управления.Мы делаем это причина что агента конечной целью должно быть что-то над которой она имеет несовершенный контроль: он должен не быть в состоянии, например, чтобы просто указ, что вознаграждение было получено в таким же образом, что он может произвольно изменить свои действия. Таким образом мы размещаем источник вознаграждение за пределами агента. Это не исключает агента от определения для себя, своего рода внутреннюю вознаграждение или последовательность внутренних наград. Действительно это именно то, что делают многие методы обучения с подкреплением.
переводится, пожалуйста, подождите..
Результаты (русский) 2:[копия]
Скопировано!
3.2 Цели и награды

В обучении с подкреплением, цель или цель агента формализуется в терминах специального вознаграждения сигнала , проходящего от среды к агенту. На каждом временном шаге, награда простое число,. Неформально, цель агента состоит в максимизации общей суммы вознаграждения , которую он получает. Это означает , что максимально не немедленного вознаграждения, но совокупное вознаграждение в долгосрочной перспективе.

Использование сигнала вознаграждения формализовать идея цели является одним из наиболее отличительных особенностей обучения с подкреплением. Хотя этот способ формулирования целей может показаться на первый взгляд ограничение, на практике она оказалась гибкой и широко применяется. Лучший способ , чтобы увидеть это , чтобы рассмотреть примеры того , как это было, или может быть, использован. Например, чтобы сделать робот научится ходить, исследователи предоставили вознаграждение на каждом временном шаге , пропорциональном поступательное движение робота. Делая робот научиться бежать из лабиринта, награда часто нуля , пока он не убегает, когда она становится. Другой распространенный подход в обучении лабиринтом , чтобы дать вознаграждение за каждый временной шаг , который проходит перед бежать; это побуждает агента , чтобы избежать как можно быстрее. Для того, чтобы робот научиться находить и собирать пустые канистры соды для вторичной переработки, можно было бы дать ему награду нулю большую часть времени, а затем вознаграждение за каждый может собрать (и подтверждено пустым). Можно было бы также хотят дать роботу негативные награды , когда он натыкается на вещи , или когда кто - то кричит на него. Для агента , чтобы научиться играть в шашки или шахматы, естественные награды за победу, за поражение, и 0 для рисования и для всех нетерминальных позиций.

Вы можете видеть , что происходит во всех этих примерах. Агент всегда учится , чтобы максимизировать свою награду. Если мы хотим, чтобы сделать что - то для нас, мы должны давать награды к нему таким образом , что в максимизации их агента будет также достичь поставленных целей. Таким образом , важно, чтобы выгоды , мы создали действительно указывают на то , что мы хотим , чтобы опытный. В частности, сигнал вознаграждение не является местом для придания агента предварительного знания о том , как добиться того, что мы хотим, чтобы do.3.4For примеру, шахматного агент должен быть вознаграждены только на самом деле победы, а не для достижения подцелей таких принимая куски своего противника или получить контроль над центром доски. Если достижение такого рода подзадач были вознаграждены, то агент может найти способ их достижения без достижения реальной цели. Например, он может найти способ , чтобы взять части противника даже ценой потери игры. Сигнал награда ваш способ общения с роботом , что вы хотите достичь, а не как вы хотите достичь.

Вновь прибывшие к подкреплением иногда удивляются , что награды - которые определяют о цели обучения - вычисляются в среда , а не в агенте. Конечно , большинство конечных целей для животных признаются вычисления происходят внутри их тел, например, с помощью датчиков для распознавания пищи, голод, боль и удовольствие. Тем не менее, как мы уже говорили в предыдущем разделе, можно перерисовать интерфейс агента среды таким образом , что эти части тела считаются вне агента (и , таким образом , часть среды агента). Например, если цель касается внутренних водоемов энергии роботе, тогда эти считаются частью окружающей среды; если цель касается позиции конечностей робота, то они тоже считаются частью окружающей среды - то есть, граница агента рисуется на границе раздела между конечностей и их систем управления. Эти вещи считаются внутренними роботу , но внешние по отношению к обучению агента. Для наших целей удобно разместить границу обучения агента не на пределе своего физического тела, но на пределе его контроля.

Причина , почему мы делаем это , что конечная цель агента должно быть что - то , над которым он имеет несовершенный контроль: он не должен быть в состоянии, например, просто указ о том , что вознаграждение было получено таким же образом , что он может произвольно изменять свои действия. Поэтому, мы помещаем источник награду за пределами агента. Это не исключает возможности агента от определения для себя своего рода внутреннего вознаграждения или последовательность внутренних наград. На самом деле, это именно то , что делают многие методы обучения с подкреплением.
переводится, пожалуйста, подождите..
 
Другие языки
Поддержка инструмент перевода: Клингонский (pIqaD), Определить язык, азербайджанский, албанский, амхарский, английский, арабский, армянский, африкаанс, баскский, белорусский, бенгальский, бирманский, болгарский, боснийский, валлийский, венгерский, вьетнамский, гавайский, галисийский, греческий, грузинский, гуджарати, датский, зулу, иврит, игбо, идиш, индонезийский, ирландский, исландский, испанский, итальянский, йоруба, казахский, каннада, каталанский, киргизский, китайский, китайский традиционный, корейский, корсиканский, креольский (Гаити), курманджи, кхмерский, кхоса, лаосский, латинский, латышский, литовский, люксембургский, македонский, малагасийский, малайский, малаялам, мальтийский, маори, маратхи, монгольский, немецкий, непальский, нидерландский, норвежский, ория, панджаби, персидский, польский, португальский, пушту, руанда, румынский, русский, самоанский, себуанский, сербский, сесото, сингальский, синдхи, словацкий, словенский, сомалийский, суахили, суданский, таджикский, тайский, тамильский, татарский, телугу, турецкий, туркменский, узбекский, уйгурский, украинский, урду, филиппинский, финский, французский, фризский, хауса, хинди, хмонг, хорватский, чева, чешский, шведский, шона, шотландский (гэльский), эсперанто, эстонский, яванский, японский, Язык перевода.

Copyright ©2025 I Love Translation. All reserved.

E-mail: