Результаты (
русский) 3:
[копия]Скопировано!
на каждый шаг по времени, агент осуществляет карт от государства возможности выбора каждого возможных действий.в настоящем документе называется агент политики и обозначается, где вероятность того, что если.укрепление методов обучения определяет, как агент изменения своей политики, исходя из своего опыта.агент состоит, грубо говоря, состоит в том, чтобы максимально увеличить сумму вознаграждения он получает в долгосрочной перспективе.эта структура является абстрактной и гибкими и могут применяться различные проблемы, по - разному.например, когда необходимо ссылаться не на определенные промежутки времени в режиме реального времени; они могут сослаться на последующих этапах процесса принятия решений и произвольных действий.эти меры могут быть низкого уровня контроля, таких, как напряжения применяется для двигателей рука робота, или решений на высоком уровне, как, например, есть ли обед или идти в высшей школе.кроме того, государства могут принимать самые разнообразные формы.они могут быть полностью определяется уровень ощущения, таких, как прямые показания сенсоров, или они могут быть более высокого уровня и резюме, таких как символическое описания объектов в комнате.то, что составляет государство может основываться на память о прошлых ощущений или даже полностью психического или субъективно.например, агента может быть в "государство" не уверены, где объект, или он просто был удивлен "в некоторых четко определенных смысл.аналогичным образом, некоторые меры могут быть полностью психического или расчетной.например, некоторые действия могут контролировать то, что агент предпочитает думать, или где он сосредотачивает свое внимание.в целом меры могут быть любые решения, мы хотим узнать, как делать, и государства, может быть что - нибудь, что мы можем знать, что могут быть полезными в обеспечении их.в частности, границы между агентом и окружающей среды, не часто, так же как и физические границы робот или тело животного.как правило, границы обращается к агенту, чем это.например, двигателей и механических соединений робот и зондирования оборудование должно быть рассмотрела части по охране окружающей среды, а не в части агент.аналогичным образом, если мы будем применять рамки для человека или животного, мышцы, скелет, и сенсорные органы следует рассматривать как часть среды.награды, тоже, по - видимому, исчисляются в физических тел природных и искусственных систем обучения, но считаются внешними агенту.общее правило заключается в том, что мы за то, что не может быть изменен произвольно агент считается вне ее, и, таким образом, часть ее среды.мы не думаем, что все в среду неизвестный агент.например, агент часто знает немного о том, как его награды исчисляется в зависимости от его действий, и государства, в котором они были приняты.но мы всегда рассматривать награду вычисления для внешних агенту, потому что она определяет, задача агента и, следовательно, должны быть за ее способность менять произвольно.более того, в некоторых случаях агент может знать все о том, как ее окружающей среды работает и сталкиваются с трудной задачей укрепление знаний, как мы можем точно знать, как пазл, как кубик рубика, работает, но всё равно не смогут решить это.агент среды границы представляет предел агент абсолютный контроль, а не его знаний.агент среды границы могут быть расположены в разных местах для различных целей.в сложной робота, многие агенты могут действовать сразу, каждый из которых имеет свои собственные границы.например, один агент может выносить решения высокого уровня, которые являются частью государства, с которыми сталкиваются более низкого уровня, агент, который выполняет решения высокого уровня.на практике, агент среды границы определяется как - то выбрал конкретные действия государства, и награды, и, таким образом, определила конкретные решения задачи интерес.укрепление рамок обучения является большой забор проблемы goal-directed изучение взаимодействия.он предлагает, чтобы все детали сенсорные, память и контроль аппарат, и что цель один пытается достичь, какие - либо проблемы обучения goal-directed поведение может быть сокращен до трех сигналов мимо взад и вперед между агентом и окружающей его среды: один сигнал представлять выбор агента (действия), сигнал, представляют собой основу, на которой выбор уже сделан (государства), и один сигнал для определения агента цели (награды).эта система не может быть достаточно для того, чтобы представлять все решения проблем обучения полезно, но она оказалась полезным и широко применяется.конечно, особенно государства, и действия значительно отличаются от применения к применению, и как они представлены может сильно повлиять на показатели.в подкрепление обучения, как и в других видов обучения, такие представительские выбор в настоящее время больше искусство, чем наука.
переводится, пожалуйста, подождите..