Результаты (
русский) 3:
[копия]Скопировано!
3.2 цели и награды.в обучение с подкреплением, цель или цели агент оформляется в виде специальной наградой сигнал переходит от окружающей среды, агент.на каждый шаг по времени, награда - это простой номер.неофициально, агент, состоит в том, чтобы увеличить сумму вознаграждения он получает.это означает максимальное не сразу награду, но совокупное вознаграждение в долгосрочной перспективе.использование награду сигнал оформить идею цель является одной из наиболее характерных особенностей обучение с подкреплением.хотя этот способ формулированию целей, может на первый взгляд ограничения, на практике она оказалась гибким и широко применяется.лучший способ увидеть это рассмотреть примеры того, как она была или могут быть использованы.например, сделать робота, научиться ходить, исследователи представили за каждый раз, когда шаг пропорционально робота вперед.в том, что робот узнать, как выйти из лабиринта, награда часто нуля до тех пор, пока она не сбежит, когда она становится.еще один общий подход в лабиринт образования состоит в том, чтобы дать вознаграждение за каждый раз, шаг, который проходит до побега; это рекомендует агент бежать как можно быстрее.сделать робота, учиться, чтобы найти и собрать под колы для рециркуляции, можно дать ему награду в ноль, большую часть времени, и тогда вознаграждение за каждый может собирать (и подтвердили, как пустые).можно было бы также дать робот негативных награды, когда он шишки на вещи или когда кто - то кричит на него.для агента, чтобы научиться играть в шашки и шахматы, природные награды за победу, за потерю, и 0 для привлечения и для всех nonterminal позиций.вы видите, что происходит во всех этих примеров.агент всегда научится максимальное вознаграждение.если мы хотим что - то сделать для нас, мы должны предоставить награды ее таким образом, чтобы в максимальной степени их агент будет также достижения наших целей.поэтому исключительно важно, чтобы награды мы создали действительно указывают на то, что мы хотим сделать.в частности, награда сигнал не место, с тем чтобы агент предварительных знаний о том, как достичь того, чего мы хотим, чтобы он do.3.4for, например, шахмат, агент должны быть вознаграждены только выиграла, а не для достижения таких с его оппонента подцелей кусочки или получения контроля над по центру.если достижение такого рода подцелей были вознаграждены, потом агент может найти способ их достижения, без достижения реальные цели.например, он может найти способ принять соперника куски, даже ценой потери игру.награда сигнал твоя способ общения с роботом, что ты хочешь достичь, а не как ты хочешь достичь.новичков на обучение с подкреплением, порой удивляет, что награды - определить цель обучения - исчисляются в среду, а не агент.конечно, большинство конечных целей для животных, признаются в расчетах, происходящие внутри тела, например, датчики для признания питание, голод, боль и радость.тем не менее, как мы обсуждали в предыдущем разделе можно перекроить агент среды интерфейс, таким образом, чтобы эти части тела, считаются за пределами агент (и, таким образом, часть агент по окружающей среде).например, если цель касается робота внутренней энергии накопителей, тогда они считаются частью окружающей среды; если цель касается позиции конечности робота, то они тоже считаются частью окружающей среды - это, агент границы обращается на стыке между ног и их систем контроля.эти вещи, которые рассматриваются в качестве внутренних - робот, но внешние для обучения агента.для наших целей это удобно разместить границы знаний, агент, не на пределе своих физическое тело, но на пределе своего контроля.причина этого заключается в том, что агент конечной целью должно быть что - то, в которых она обладает несовершенным контроля: он не сможет, например, просто указ о том, что награда получена в том же порядке, что она может произвольно менять свои действия.поэтому мы награду источник не агент.это не исключает агента определить для себя какой - то внутренний вознаграждения или последовательность внутреннего награды.по сути, это именно то, что многие укрепления методов обучения.
переводится, пожалуйста, подождите..
