Результаты (
русский) 2:
[копия]Скопировано!
3.2 Цели и награды
В обучении с подкреплением, цель или цель агента формализуется в терминах специального вознаграждения сигнала , проходящего от среды к агенту. На каждом временном шаге, награда простое число,. Неформально, цель агента состоит в максимизации общей суммы вознаграждения , которую он получает. Это означает , что максимально не немедленного вознаграждения, но совокупное вознаграждение в долгосрочной перспективе.
Использование сигнала вознаграждения формализовать идея цели является одним из наиболее отличительных особенностей обучения с подкреплением. Хотя этот способ формулирования целей может показаться на первый взгляд ограничение, на практике она оказалась гибкой и широко применяется. Лучший способ , чтобы увидеть это , чтобы рассмотреть примеры того , как это было, или может быть, использован. Например, чтобы сделать робот научится ходить, исследователи предоставили вознаграждение на каждом временном шаге , пропорциональном поступательное движение робота. Делая робот научиться бежать из лабиринта, награда часто нуля , пока он не убегает, когда она становится. Другой распространенный подход в обучении лабиринтом , чтобы дать вознаграждение за каждый временной шаг , который проходит перед бежать; это побуждает агента , чтобы избежать как можно быстрее. Для того, чтобы робот научиться находить и собирать пустые канистры соды для вторичной переработки, можно было бы дать ему награду нулю большую часть времени, а затем вознаграждение за каждый может собрать (и подтверждено пустым). Можно было бы также хотят дать роботу негативные награды , когда он натыкается на вещи , или когда кто - то кричит на него. Для агента , чтобы научиться играть в шашки или шахматы, естественные награды за победу, за поражение, и 0 для рисования и для всех нетерминальных позиций.
Вы можете видеть , что происходит во всех этих примерах. Агент всегда учится , чтобы максимизировать свою награду. Если мы хотим, чтобы сделать что - то для нас, мы должны давать награды к нему таким образом , что в максимизации их агента будет также достичь поставленных целей. Таким образом , важно, чтобы выгоды , мы создали действительно указывают на то , что мы хотим , чтобы опытный. В частности, сигнал вознаграждение не является местом для придания агента предварительного знания о том , как добиться того, что мы хотим, чтобы do.3.4For примеру, шахматного агент должен быть вознаграждены только на самом деле победы, а не для достижения подцелей таких принимая куски своего противника или получить контроль над центром доски. Если достижение такого рода подзадач были вознаграждены, то агент может найти способ их достижения без достижения реальной цели. Например, он может найти способ , чтобы взять части противника даже ценой потери игры. Сигнал награда ваш способ общения с роботом , что вы хотите достичь, а не как вы хотите достичь.
Вновь прибывшие к подкреплением иногда удивляются , что награды - которые определяют о цели обучения - вычисляются в среда , а не в агенте. Конечно , большинство конечных целей для животных признаются вычисления происходят внутри их тел, например, с помощью датчиков для распознавания пищи, голод, боль и удовольствие. Тем не менее, как мы уже говорили в предыдущем разделе, можно перерисовать интерфейс агента среды таким образом , что эти части тела считаются вне агента (и , таким образом , часть среды агента). Например, если цель касается внутренних водоемов энергии роботе, тогда эти считаются частью окружающей среды; если цель касается позиции конечностей робота, то они тоже считаются частью окружающей среды - то есть, граница агента рисуется на границе раздела между конечностей и их систем управления. Эти вещи считаются внутренними роботу , но внешние по отношению к обучению агента. Для наших целей удобно разместить границу обучения агента не на пределе своего физического тела, но на пределе его контроля.
Причина , почему мы делаем это , что конечная цель агента должно быть что - то , над которым он имеет несовершенный контроль: он не должен быть в состоянии, например, просто указ о том , что вознаграждение было получено таким же образом , что он может произвольно изменять свои действия. Поэтому, мы помещаем источник награду за пределами агента. Это не исключает возможности агента от определения для себя своего рода внутреннего вознаграждения или последовательность внутренних наград. На самом деле, это именно то , что делают многие методы обучения с подкреплением.
переводится, пожалуйста, подождите..
