Результаты (
русский) 2:
[копия]Скопировано!
На каждом шаге времени агент реализует отображение состояний для вероятностей выбора каждого возможного действия. Это отображение называется политикой агента и обозначается, где есть вероятность того, что , если. Методы обучения Армирование определяют , как агент изменяет свою политику в результате своего опыта. Цель агента, грубо говоря, состоит в максимизации общей суммы вознаграждения , которую он получает в течение длительного времени.
Эта структура является абстрактным и гибким и может быть применена ко многим различным проблемам по - разному. Например, временные шаги нужно не относятся к фиксированные интервалы реального времени; они могут ссылаться на произвольные последовательные этапы принятия решений и действий. Действия могут быть органы управления более низкого уровня, такие как напряжений , приложенных к двигателям руки робота, или решений высокого уровня, например, является ли или не иметь обед или пойти в аспирантуру. Аналогичным образом , государства могут принимать самые разнообразные формы. Они могут быть полностью определяется ощущениями низкого уровня, таких как прямые показания датчиков, или они могут быть более высокого уровня и абстрактного, такие как символические описания объектов в комнате. Некоторые из того, что составляет состояние может быть основано на памяти о прошлых ощущений или даже быть полностью психическое или субъективное. Например, агент может быть в "состояние" не будучи уверенным , где объект, или только что был "удивлен" в каком - то четко определенном смысле. Кроме того , некоторые действия могут быть полностью умственному или вычислительная. Например, некоторые действия могут контролировать то , что агент выбирает думать о том , или там , где она фокусирует свое внимание. В целом, действия могут быть любые решения , которые мы хотим узнать , как сделать, и государства может быть все , что мы можем знать , что может быть полезным при их изготовлении.
В частности, граница между агентом и окружающей среды не часто такой же , как физический граница тела робота или животного. Как правило, граница проводится ближе к агенту , чем это. Например, двигатели и механические связи робота и его чувствительный аппаратных средств , как правило , следует рассматривать компоненты среды , а не частей агента. Аналогичным образом , если мы применим рамки для человека или животного, мышц, скелета и органов чувств следует рассматривать как часть окружающей среды. Награды, также, по- видимому, вычисляются внутри физических тел естественных и искусственных систем обучения, но считаются внешними по отношению к агенту.
Общее правило следовать, что все , что не может быть изменено произвольным образом агентом считается вне его и Таким образом , часть его окружения. Мы не предполагаем , что все в окружающей среде, неизвестно агенту. Например, агент часто знает совсем немного о том , как ее награды вычисляются в зависимости от его действий и состояний , в которых они приняты. Но мы всегда учитываем вычисление вознаграждения быть внешним по отношению к агенту , поскольку она определяет задачу , стоящую перед агентом и , таким образом , должен быть вне его способности изменять произвольно. На самом деле, в некоторых случаях агент может знать все о том , как его окружение работает и до сих пор сталкиваются с трудной задачей обучения с подкреплением, так же , как мы можем точно знать , как головоломка , как куб работ Рубика, но до сих пор не в состоянии решить. Граница агент-среда представляет собой предел абсолютного контроля агента, а не его знания.
Границу агент среда может располагаться в разных местах для разных целей. В сложном робота, множество различных агентов могут работать одновременно, каждый со своей собственной границей. Например, один агент может принимать решения на высоком уровне , которые составляют часть государств , с которыми сталкиваются агента низшего уровня , который реализует решения на высоком уровне. На практике граница агент-среда определяется как только один выбрал тех или иных государств, действия и награды, и , таким образом определил конкретное принятие решений задачи интересов.
Структура обучения подкрепление значительная абстракция проблемы целенаправленная обучения от взаимодействия. Она предполагает , что все детали сенсорной, памяти и устройства управления, и независимо от того объективный пытается достичь, любая проблема обучения целенаправленного поведения может быть сведено к трем сигналов , проходящих назад и вперед между агентом и его окружением: один сигнал , чтобы представить выбор , сделанный агентом (действия), один сигнал представлять основу , на которой делаются выборы (состояния), и один сигнал для определения цели агента (награды). Эта структура не может быть достаточным , чтобы представлять все проблемы принятия обучения с пользой, но она оказалась широко полезным и применимым.
Конечно, определенные состояния и действия значительно варьируются от приложения к приложению, и как они представлены может сильно повлиять на производительность , В обучении с подкреплением, как и в других видах обучения, такие репрезентативные варианты в настоящее время больше искусство , чем наука.
переводится, пожалуйста, подождите..
