Трeтья мoдeль, крoмe тoгo, чтo oни знaют, кaк пeрвыe двe, испoльзуeт дaнныe o рeзультaтax oбoиx рeшeний, чтoбы пoлoжить пoлучeнный выигрыш в сooтвeтствующий кoнтeкст. Трeтий мoдуль (Contextual module) испoльзуeт инфoрмaцию o рeзультaтax oбoиx рeшeний, выбрaннoгo (c) и нe выбрaннoгo (u), чтoбы пoмeстить пoлучeнный выигрыш в сooтвeтствующий кoнтeкст, сooтнoся ee с тeм, чтo, в принципe, мoжнo былo пoлучить в этoй ситуaции s (V(s) — срeднee знaчeниe кoнтeкстa, либo усрeднeннoe знaчeниe рeшeний c и u). 3) В «систeмe вoзнaгрaждeния» нaйдeны нeйрoны, вoзбуждaющиeся oт xoрoшиx прeдчувствий, «Элeмeнты», 10.02.2012. С другoй стoрoны, рaбoтa с детьми и молодежью именно этого простого алгоритма, скорее всего, имеет важное адаптивное значение. Самый простой алгоритм обучения с подкреплением — так называемый Q-обучения (Q-learning) — оценивает результат принятых решений в единой шкале, в зависимости от успешности результата. Благодаря тому, что взрослые люди учатся на негативном опыте так же эффективно, как и позитивные. также:
1) Склонность к наркомании и азартным играм связана с неспособностью учиться на своих ошибках, «Элементы», 10.12.2007. Увеличение частоты «правильных» решений в процессе обучения. Слева подростки (Adolescents), справа — для взрослых (Adults). На горизонтальной оси — номер теста (от 1 до 20, так как каждая пара знаков имела место в 20 раз). e1004953. 2). 1 (зеленый: положительное подкрепление, неполная информация; коричневый: негативное подкрепление, неполная информация; сине-зеленый: положительное подкрепление, полная информация; фиолетовый: отрицательный блюда, полные данные). Этот алгоритм не требует понимания ситуации: для его использования не нужно создавать модель реальности и принимать во внимание контекст, в котором принимается решение. В каждой паре один символ, приносящий удачу с вероятностью 75%, а другой — с вероятностью 25%. Это позволяет, во-первых, использовать дополнительную информацию о стоимости выбранного решения, во-вторых, интерпретировать полученные выигрыши, соответственно, в контексте, оценивая его не «вообще», а в отношении того, что, в принципе, можно было получить в данной ситуации. См. Подростки не смогли использовать эту информацию: их эффективность науки, такой же в версиях полной и неполной информации (рис. Второй модуль (Counterfactual module) использует информацию о результатах альтернативного (выбранного) решения u , для определения значения Q(s, u). В первом главную роль играет «эмоциональная» подкорковые структуры (такие, как прилежащее ядро), а во-вторых, не обходится без участия части коры, связанных с сознательным контролем (дорзальные и дорзолатеральные области префронтальной коры, островок, ростральная часть поясной коры). С точки зрения алгоритмов, которые лежат в основе обучения, картина похожа: на положительном опыте учиться проще. Рис. Оказалось, что подростки не хуже взрослых учатся на положительном опыте, но сильно уступают им в способности к обучению на негативном. Символов было всего 8 пар, соответственно, 4. The Computational Development of Reinforcement Learning during Adolescence // PLoS Computational Biology. Три модели обучения, с которыми сравниваются полученные результаты. Разными цветами обозначены четыре «контекста»; цветовые обозначения такие же, как на рисунке. 12. Взрослые используют более сложный алгоритм обучения, который включает в себя дополнительные модули. С точки зрения нейробиологии, обучения на положительных и отрицательных опытах — процессы совершенно разные. Группа британских и итальянских психологов и нейроэкономистов опубликовала в журнале PLoS Computational Biology результаты остроумного эксперимента, проливающего свет на механизмы обучения у подростков и взрослых. Каждому участнику показали двух персонажей, из которых нужно было выбрать один. рис. Первая модель совместима с простой Q-обучения. Рисунок из обсуждаемой статьи в PLoS Computational Biology
Эти три модели прошли точно такой же сеанс «обучения», как и живые участники эксперимента. Схема опыта представлена на рисунке 1. 3. Гипотеза, которую авторы проверяли, заключалась в том, что склонность подростков к рискованному поведению это связано с последующим развитием тех отделов мозга, которые необходимы для сложных алгоритмов обучения, и поэтому подростки в основном используют более примитивный, но слишком рано, заключенном алгоритм, близкий к Q-обучения. Сплошные линии с темными областями — экспериментальные данные ± стандартная ошибка; линии с доверительными интервалами — результаты моделирования. Александр Марков Здесь уже желательно, чтобы понять контекст задачи и оценивать результат не «вообще», а в отношении того, что произошло в этой ситуации в случае принятия альтернативного решения. Из этих трех модулей были составлены три модели. Рисунок из обсуждаемой статьи в PLoS Computational Biology
Авторы пытались интерпретировать полученные результаты в рамках представлений об алгоритмах обучения. Известно, что молодые люди более склонны к принятию рискованных решений, чем взрослые. 3), для взрослых — более сложная модель 3. 2. P. В эксперименте приняли участие 18 подростков (какими были люди в возрасте 12-17 лет) и 20 взрослых (от 18 до 32 лет). Очень метко прокомментировала обсуждение статей на моем блоге одна молодая мама, видя, что если бы ее ребенок сразу перестал делать все, на что он сделал шишки, он бы даже не научился ходить. 2) Дофаминовые нейроны нужны мухи, чтобы учиться на ошибках, «Элементы», 10.09.2012. Из-за своей простоты этот алгоритм обеспечивает обучение на положительном опыте, более эффективно, чем на минус. V. В первом случае, когда выбор стал между 1 и 0, подростки узнали, как сделать правильный выбор не хуже взрослых, а во втором, когда нужно выбирать между и -1, эффективность образования молодежи оказалась значительно ниже. Это изменяет значение Q(s, c) — «значение» или «удачность» выбранного решения c в случае s — в зависимости от полученного результата, R(c). На вертикальной оси процент правильных решений. Для того, чтобы успешно учиться избегать неприятностей, необходимы более сложные методы расчета. Взрослые участники продемонстрировали такую же эффективность обучения на положительных и отрицательных опытах. Первый из них (Factual module) совместимо с простого алгоритма обучения с подкреплением — Q-обучения. Модели состоят из трех модулей. Рис. Результат оценивается по абсолютной шкале, в которой единица всегда лучше, чем ноль, а значит, решения, которые приносят точка, выучиваются безопаснее, чем решения, которые позволяют не потерять точку. Каждая пара символов соответствовала одному из четырех «контекстов», которые отличаются характером поддержки (награда или наказание) и наличием дополнительной информации о том, к какому результату приводит альтернативный выбор. Вторая в состоянии принять во внимание также дополнительные сведения о результатах альтернативного (выбранного) решения с целью выяснения представлений о «ценности» этого решения. Кроме того, взрослые использовали больше информации о результате альтернативного решения: в версиях с дополнительной информацией обучение проходило лучше. Если речь идет о взрослых, то их обучение лучше всего воспроизводится самой сложной моделью № 3. После тренировки, наверное, предпочли символ, который приносит одно очко, спаренному с ним знаком, приносит ноль очков, и так, вероятно, предпочитали символ, который приносит ноль очков, если в паре с ним находился символ, потребляет пункт. Первая модель включает в себя только модуль 1, вторая — модули 1 и 2, третья — все три модуля. Это объясняет, почему подростки хуже учатся на негативном помощь, чем положительным. Возможно, эти различия связаны с тем, что части мозга, которые отвечают за обучение на положительном опыте, созревают раньше, отделов, которые обеспечивают более сложные алгоритмы обучения. Эксперимент, проведенный британскими и итальянскими психологами и нейроэкономистами, подтвердил эту гипотезу. Оказалось, что ход и конечный результат обучения молодежи лучше всего описывается самый простой, первая модель (Q-learning). Результаты подтвердили ожидания исследователей. Для моделирования подготовки молодежи используется простейшая модель 1 (см. Кроме того, взрослые люди эффективно используют имеющиеся сведения о том, к какому результату привело бы альтернативное решение, а подростки принимают во внимание только результаты своих действий. Kilford, Giorgio Coricelli, Sarah-Jayne Blakemore. Для этого они сделали три компьютерные модели (рис. Эта процедура позволяет алгоритм «понять», что получить ноль очков в ситуации, когда грозит потеря очков, это так же хорошо, как получить 1 очко в ситуации, когда альтернативой было получить ноль очков. Упрощенный алгоритм обучения, характерный для молодежи, согласуется с данными о более позднем созревании отделов мозга, необходимых для реализации более сложных и эффективных алгоритмов. Он не может «понять», что в одной ситуации получить ноль очков — это так же хорошо, как и в другой ситуации получить одно очко (так будет, например, если в первом случае альтернатива-это потеря очков, а во втором — получить ноль очков). 3). Источник: Стефано Palminteri, Эмма Дж. 4) Мыши-мутанты не становятся наркоманами, «Элементы», 26.05.2008. Таким образом, полученные результаты согласуются с гипотезой о том, что подростки используют простой алгоритм обучения с подкреплением, близкий к Q-обучения. Эффективность обучения оценивалась по частоте, с которой опрошенные выбрали «правильные» знаки после учебной сессии. По одной из гипотез, это может быть связано с тем, что подростки используют другие (более простые) алгоритмы обработки информации о результатах своих действий. Использование третьего модуля приводит к замене абсолютной шкале оценки выигрыша на относительную. У подростков результаты обучения были различными в этих двух ситуациях.