АЛГОРИТМ ДАРВИНА

Расхожая истина: история учит. Впрочем, Фридрих Гегель отрицал, что история чему-либо учит народы и государства. Как бы то ни было, люди, организации и страны все же время от времени изменяют свое поведение вследствие накопления опыта, что, собственно, и демонстрировали немецкие и английские солдаты на полях Первой мировой войны, когда устраивали негласные перемирия. Точно так же может меняться и поведение некоторых «нарушителей закона», что, кстати, делает международные отношения еще более сложными и спорными. Например, многие политические обозреватели верили, что режим Саддама Хуссейна — «безусловного обманщика» — может быть преобразован в государство, с которым можно сотрудничать путем диалога, а не санкциями и бомбардировками.

Одним из интереснейших и важнейших вопросов в многократно упомянутой «Дилемме заключенного» остается проблема поведения в ситуациях, когда заключенные (или, если угодно, участники игры) сами как-то вовлечены в игру, т.е. могут изменять собственную стратегию. В реальной жизни каждый человек пользуется одновременно разными критериями — моральными, идеологическими, бытовыми и даже капризами при оценке собственного и чужого поведения. Но в духе теории игр нам следует задуматься о том, что движет сугубо прагматичными игроками, т.е. теми, кто старается всего лишь увеличить собственный выигрыш. Естественно предположить, что именно такие игроки и способны выработать наиболее оптимальную, т.е. наиболее успешную стратегию.

Это можно смоделировать в стиле турниров Аксельрода, включив в правила эволюционную составляющую. Например, после каждой игры мы могли бы позволять игрокам выбирать новую стратегию, причем вероятность выбора каждой стратегии должна быть пропорциональна полному числу очков, набранных соответствующими программами в ходе турнира При таком подходе успешные стратегии распространялись бы, а проигрышные — исчезали. Легко заметить, что это не что иное, как дарвиновский принцип «выживания самого приспособленного». Примерно таким образом происходит эволюция при генетических мутациях внутри популяции, в результате которых наиболее приспособленные дают большее потомство, закрепляя преимущество «адаптивной» мутации.

Такой эксперимент в рамках теории игр осуществили Мартин Новак (Оксфордский университет) и Карл Зигмунд (Венский университет) в 1992 году, получив очень интересные результаты. Они изучили поведение целой «популяции» стратегий поведения, каждая из которых делала выбор между сотрудничеством и обманом на основании поведения партнера в предыдущем раунде. Одни стратегии были ориентированы преимущественно на сотрудничество, другие — преимущественно на обман. Новак и Зигмунд заставили их сражаться друг с другом, изменяя их соотношение в зависимости от достигнутых результатов.

Можно было ожидать, что править балом будет стратегия TFT, наиболее успешно выступающая в смешанных группах стратегий. Однако в первых турах ситуация выглядела диаметрально противоположной, так как побеждали программы-обманщицы, а склонные к сотрудничеству стратегии почти вымирали. Средний выигрыш опускался до уровня, соответствующего взаимному обману. Но затем на каком-то этапе в общем поведении системы жалкие остатки приверженцев стратегии TFT вдруг начинали быстро нарастать, приобретая доминирующее положение (рис. 18.1). Сотрудничество становилось наиболее распространенной формой взаимодействия, а средний выигрыш резко увеличивался.

Превосходство

Число «поколений»

Рис. 18.1. Процесс «естественного отбора» в смешанной популяции стратегий игры в «Дилемму заключенного». Отбор осуществляется по результатам соревнования в каждом туре. В начале процесса явным преимуществом обладают программы, настроенные на обман, но затем происходит резкий поворот к сотрудничеству в духе стратегии TFT, которая быстро становится доминирующей. Этот процесс сопровождается повышением среднего выигрыша, поскольку стратегия TFT значительно повышает уровень сотрудничества между участниками соревнования.

Неожиданные и резкие изменения в поведении системы вновь заставляют вспомнить о фазовых переходах, хотя, конечно, не может быть и речи об эквивалентности описываемых процессов. Усиление роли стратегии TFT означает некий коллективный эффект, возникающий в результате множества взаимодействий между агентами, в качестве которых выступают отдельные программы. Игроки, настроенные на обман, действительно побеждают в начале соревнования, но затем их жесткое уклонение от сотрудничества перестает приносить пользу, так как они сталкиваются с очень похожими на самих себя соперниками. Сохранившиеся в системе даже немногочисленные остатки программ со стратегией TFT в таких условиях получают неожиданное преимущество и выигрывают. Они играют роль зародышей, позволяющих распространить элементы сотрудничества на всю популяцию[148].

Но Новак и Зигмунд обнаружили, что триумф стратегии TFT преходящ, поскольку затем начинает проявляться ее основной недостаток — неспособность прощать даже случайные ошибки. Равновесие системы нарушается при воздействии шума ошибок, после чего борьба стратегий разгорается вновь до тех пор, пока стратегия TFT не будет вытеснена ее более толерантной сестрой, «великодушной» TFT (GTFT), которой и достается окончательная победа.

На основе полученных результатов Новак и Зигмунд пришли к выводу, «что стратегия TFT является скорее исходной точкой, а не целью эволюции, направленной к сотрудничеству»2. По их мнению, TFT остается оптимальной лишь до момента достижения сотрудничества в разнородной исходной популяции, после чего в системе должны развиться и другие, более «мягкие» стратегии, так что, возможно, модель «великодушной» TFT позднее должна развиться в стратегию полного прощения или забвения ошибок партнеров.

Все это звучит весьма приятно и обнадеживающе, но не стоит забывать, что в сообществе самых принципиальных и последовательных кооператоров наиболее эффективная и разумная стратегия — безусловный обман и безжалостное уничтожение доверчивых.

По большому счету сотрудничество является более эффективной стратегией для популяции в целом, однако сообщества кооператоров оказываются почти беззащитными перед агрессивно настроенными обманщиками, небольшая группа которых может внести хаос в сложившуюся кооперативную культуру. Стратегия TFT может препятствовать этому, поскольку безжалостно карает обманщиков, одновременно поощряя кооператоров, выполняя функции своеобразной полиции, силой навязывающей сотрудничество всем участникам игры. В обществе победивших кооператоров такие функции становятся излишними и, как мы видели ранее, даже обременительными для общества. Но если допустить некоторый уровень шума, т. е. неистребимый уровень обмана, тогда обществу следует смириться с наличием нескольких «твердолобых» приверженцев стратегии TFT, поскольку именно они будут поддерживать общую культуру сотрудничества.

Само по себе сотрудничество вовсе не гарантирует того, что в человеческом обществе принято называть торжеством справедливости. Более того, как показали эксперименты Новака и Зигмунда, стратегии сотрудничества далеко не всегда побеждают. В самых первых вариантах эволюционных программ игроки выбирали ходы, исходя из поведения партнера в предыдущем раунде. Следующим этапом развития самообучающихся систем такого типа стала упоминавшаяся сугубо оппортунистическая программа «Павлов», которая способна развиваться, анализируя не только действия партнера, но и свое собственное поведение в предыдущих раундах. Когда исследователи выставили свои первые программы против «Павлова», то потерпели поражение. «Павлов» плохо справляется с обманщиками и не способен подобно программе TFT наказывать обманщиков и «внедрять» сотрудничество, но он процветает в системах с низким уровнем шума и высокой склонностью к сотрудничеству. Новак и Зигмунд обнаружили, что в этом случае «Павлов» способен обыграть даже наиболее успешную и продвинутую программу GTFT (интересно, что обе эти программы в отличие от основного варианта TFT способны прощать партнерам ошибки). Позднее у программы «Павлов» выявилось еще одно преимущество: при введении возможности случайных мутаций стратегия GTFT еще более смягчается и смещается в сторону безусловных кооператоров, тогда как «Павлов» сохраняет способность к агрессивным действиям, так что в тех случаях, когда обман сулит выигрыш, он не задумываясь идет на него. Эту программу можно назвать «волком в овечьей шкуре», так как она демонстрирует склонность к сотрудничеству при жестком «правлении» программы TFT, но как только власть переходит к добросердечным безусловным кооператорам, она начинает бессовестно их обманывать. Если представить себе фантастические социальные структуры, создаваемые такими программами, то лозунгом «общества TFT» было бы: «Относись к другим так, как они относятся к тебе!», а лозунгом «общества Павлова»: «Не оставляй простакам ни малейшего шанса на спасение!»

История компьютерного соревнования, в котором победил «Павлов», выглядит поучительно, так как участвовавшие в турнире программы принимали решения на основе анализа действий обоих партнеров в предыдущем раунде, т. е. все они были сложнее программ, принимавших участие в первых турнирах. Очень интересно, что выбор общего направления развития программ вовсе не выглядит однозначным или предопределенным с самого начала, так как при повторах часто возникают альтернативные варианты развития событий. Показанная на рис. 18.2 история начинается с довольно бурного этапа развития сотрудничества, который завершается длительным периодом полного господства обманщиков. Затем примерно через 92 ООО поколений в программах вновь начинает преобладать стремление к сотрудничеству, которое на короткое время становится основной линией поведения. Затем программы очень резко перестают сотрудничать.

Рис. 18.2. Изменение доли разных стратегий при компьютерном моделировании «Дилеммы заключенного» в течение многих поколений «генетически» изменяю- щихся программ поведения. Доля стратегий определяется по среднему выигрышу, так что повышение этого показателя соответствует росту относительного числа стратегий, нацеленных на сотрудничество. Эволюция программ осуществляется аналогично дарвиновскому естественному отбору с учетом действий обоих партнеров и результатов последнего раунда. Можно отметить периоды нарастания общего духа сотрудничества, заканчивающиеся (в двух первых случаях) полным крахом системы взаимодействий. После третьего подъема устанавливается стационарный режим сотрудничества.

Изучив позднее этот отрезок компьютерной эволюции, Новак и Зигмунд с удивлением обнаружили набор сложных и неоднозначных событий. Оказалось, что после победы сотрудничества в популяции программ произошел переход от стратегии TFT к упоминавшейся более развитой стратегии «великодушной» TFT (GTFT), еще более поощряющей сотрудничество. Такая мягкость и доброта отношений привели к развитию обширной популяции очень доверчивых программ, которые быстро стали жертвами немногих оставшихся в популяции хищных обманщиков. После этого главенствующее положение в популяции занимали не безусловные обманщики, а программа, получившая у исследователей прозвище «Мрачный триггер», которая соглашалась на сотрудничество, но только до первого обмана со стороны. Понятно, что при наличии хотя бы небольшого шума в системе такое было неизбежным. После этого программа переходила к безусловному обману. Это напоминает Машину Судного дня из фильма Доктор Стренджлав.

Примерно через 220 ООО поколений в популяции неожиданно вновь возникают программы, склонные к сотрудничеству, причем возрождение, как показано на рисунке, носит весьма длительный, возможно, постоянный характер. Это связано с победой возродившихся программ типа TFT (несколько модифицированных в сторону сближения с GTFT) над разновидностями программы «Павлов», причем интересно, что возникшая популяция сохраняет в себя некоторые мрачные особенности предыдущей, например, она склонна к оппортунизму и настроена жестко ко всем проявлениям обмана. В таком «обществе», образно говоря, уже можно жить, но его гражданам не следует забывать об опасности, исходящей от еще существующих, тщательно маскирующихся и кажущихся такими приятными «павловцев».

Возникающая ситуация в целом представляет собой интересное сочетание случайности и определенности. При достаточно долгом ожидании, по-видимому, можно всегда дождаться момента, когда в популяции программ доминирующее положение займут стратегии, направленные на развитие и поощрение сотрудничества. Очень часто победителями оказываются программы типа «Павлов» (примерно в четырех случаях из пяти), но это, в сущности, не представляет особого интереса. Наиболее важным и ярким результатом исследования выступает сам факт революционных преобразований системы, происходящих под воздействием внутренних факторов и генетических изменений программ. Возвращаясь к антропоморфным сравнениям, мы как бы наблюдаем возникновение и гибель структур, которые можно было бы сравнить с империями добра и зла в человеческом понимании их внутреннего устройства. Изучив более внимательно периоды относительной устойчивости таких образований (не важно, в каком состоянии) и их изменений, можно обнаружить, что каждая крайняя форма продолжает сохранять в себе некоторые особенности и характерные нормы другой.

Трудно не заметить во всем этом своеобразную аллегорию истории человечества. Маркс полагал, что социалистическая революция неизбежна, но моделирование даже столь простых социальных структур наглядно показывает, что в истории очень мало определенности, так как события развиваются по своим собственным законам. Даже если мы уверены, что эволюция имеет определенную цель, то как мы можем точно сказать, на каком этапе эволюционного процесса мы находимся. Обратимся к рис. 18.2. Появились ли в конце Первого царства обмана (20 000-90 000 поколений) мученики-философы, предсказывающие грядущее возвращение к постоянному сотрудничеству? Полагали ли мыслители Второго периода сотрудничества (после 92 000 поколений), что наконец-то наступила Эпоха постоянного сотрудничества? Имеют ли право социологи Третьего периода сотрудничества (после 220 000 поколений) утверждать, что переживаемое ими время является «концом истории»?[149]