ОШИБКИ СЛУЧАЮТСЯ

После второго компьютерного турнира Аксельрода позиции программы TFT — «зуб за зуб» — казались незыблемыми. Не тут-то было! В реальном мире все обстояло гораздо хуже: связи были несовершенными, стороны допускали ошибки, а их намерения оставались непонятыми. Вспомним, как в 1983 году советский истребитель по ошибке сбил южнокорейский гражданский авиалайнер, приняв его за самолет-разведчик. Все 269 пассажиров, среди которых было несколько американцев, погибли. Последовательное применение стратегии TFT требовало, чтобы эта ошибка была немедленно отомщена, и именно русской кровью. К счастью, это не было сделано, но инцидент значительно усилил международную напряженность. Похожая ситуация возникла в 1998 году, когда самолеты НАТО по ошибке сбросили бомбы на посольство Китая в Белграде (впрочем, споры о том, не была ли ошибка намеренной, продолжаются до настоящего времени).

В течение «холодной войны» политика возмездия сдерживалась потенциальной опасностью (сознаваемой обеими сторонами) нарастания конфликта. Огромные ядерные арсеналы США и Советского Союза заставляли военных и политиков проявлять необходимый уровень сдержанности и разумности. Удачной иллюстрацией обстановки этой эпохи может служить известный фильм Стэнли Кубрика Доктор Стренджлав. Напомню вкратце сюжет. Сумасшедший генерал США отдает приказ о превентивном ударе по СССР, который удается отменить только в самый последний момент. Но с одним из американских бомбардировщиков Б-52 не удается установить связь, и он наносит ядерный удар по СССР. Хотя советское командование понимает, что бомбы сброшены «по ошибке», оно ничего не может сделать, потому что нанесенный удар приводит в действие автоматическую Машину Судного дня, которая отвечает ядерным ударом без вмешательства человека. Принцип неизбежного возмездия в значительной степени способствует взаимодействию и сотрудничеству самых непримиримых противников, но эта система не прощает ошибок.

Проблема ошибок в стратегии TFT является совсем не простой, так как даже единичный, ошибочный обман вызывает аналогичный ответ. Простота стратегии TFT приводит к тому, что если подобная ошибка случится между двумя игроками, использующими эту стратегию, то оба попадают в замкнутый круг взаимных подозрений и взаимных обманов. Один из игроков обманул по ошибке, в следующем раунде он возвращается к сотрудничеству (делает то, что делал его партнер в предыдущем раунде) и — напарывается на обман (партнер воспроизводит его действия в предыдущем раунде), и так до бесконечности. (В сценарии Доктора Стренджлава бесконечности, очевидно, быть не может, при первой же ошибке «игра» заканчивается раз и навсегда.)

Такие механизмы поведения весьма характерны для множества культур. В качестве примера Аксельрод указывает на обычай кровной мести, распространенный, например, в Албании и на Ближнем Востоке, когда вражда кланов и убийства продолжаются во многих поколениях даже тогда, когда исходные причины конфликта давно забыты. Ужасные примеры затухающей и вновь вспыхивающей ненависти и вражды можно наблюдать сейчас в Северной Ирландии, где десятилетиями продолжается жестокий конфликт между католиками и протестантами, а также на Ближнем Востоке, где постоянно рушатся любые попытки установления мира между Израилем и Палестиной.

Из этого ясно, что стратегия TFT вовсе не гарантирует установления гармонии и мира.

Более того, предлагаемая стратегия вовсе не является наилучшей для поведения в окружающем нас мире, где ошибки и недоразумения возникают практически всегда. Это стало очевидным после следующего турнира, организованного Аксельродом, в котором допускалась возможность ошибки игроков. То есть иногда игроки выбирали свой ход случайным образом, не следуя правилам собственной стратегии. Когда доля таких ошибок (уровень «шума») достигала 10%, стратегия TFT не становилась более победительницей. Причем результаты ее игры против аналогичной программы оказывались даже хуже, чем при игре с программами, основанными на смешанной стратегии, поскольку случайные ошибки загоняли TFT-игроков в бесконечные циклы возмездия.

Безнадежность возникшей ситуации вынудила экспериментаторов искать модификации модели. Одной из таких модификаций стала стратегия «Великодушная» TFT (GTFT), в которой прощается определенная часть обманов (прощение в данном случае означает продолжение политики сотрудничества в следующем раунде). В другом варианте, «Кающейся» TFT (CTFT), прощается обман, следующий за србственным обманом, — демонстрация смирения перед заслуженным наказанием. Стратегия GTFT побеждала всех своих противников при уровне «шума» до 1%, стратегия CTFT занимала при этом шестое место. При более высоком уровне «шумов» CTFT превосходила GTFT.

В стратегии «зуб за два зуба» (TFTT) решение о возмездии принималось лишь после двух последовательных обманов противника, что служило подтверждением плохих намерений, а не случайной ошибки. Эта модель была предложена биологом-эволюционистом Джоном Мейнардом Смитом, во втором турнире Аксельрода она заняла лишь 24-е место. Мейнард Смит не участвовал в первом турнире, но там его программа наверняка стала бы победительницей, потому что некоторые участвовавшие в том турнире программы нейтрализовали программу TFT бесконечной цепью взаимных возмездий (напомним, что эта ловушка может возникать даже в отсутствие ошибок). Это лишнее подтверждение того, что в этой игре не существует наилучшей стратегии.

Еще одна хорошо работающая при случайных ошибках, но менее великодушная стратегия была предложена в 1988 году (но разработана раньше, как мы увидим далее) двумя исследователями из Северной Каролины, Дэвидом Крейнсом (университет Дьюка) и Вивиан Крейне (Мередит-кол- ледж). Авторы назвали свою модель «Павлов», а ее стратегия сводится к абсолютному оппортунизму, или: победил — так держать, проиграл — все менять. Подобно основному варианту TFT действия программы зависят от того, что случилось в предыдущем раунде. Если результат был хорошим, то делается тот же ход, в противном случае — противоположный. Определение хороший в данном случае означает как награду за сотрудничество, так и удачный обман. Короче говоря, в модели «Павлов» поведение сохраняется, если за свои действия программа получает какое-то вознаграждение, и изменяется, если программа как-то наказывается. Название выглядит весьма удачным, так как все условия соответствуют знаменитым экспериментам русского физиолога Ивана Петровича Павлова по выработке условных рефлексов у собак.

Программа «Павлов» прекрасно сотрудничает с последовательными партнерами типа обычный TFT, но ей трудно справляться с неисправимыми обманщиками, хотя она и пытается приспособиться к ним в каждом новом раунде. При этом «Павлов» безжалостно расправляется с преимущественными кооператорами, как только начинает угадывать присущие им слабости, в то время как TFT благородно сотрудничает с ними.

«Павлов» слабо выступил в первом турнире Аксельрода в 1965 году, а Анатоль Рапапорт даже презрительно обозвал его простаком. Не намного лучше были его результаты при введении шумов. Однако в целом «Павлов» продемонстрировал способность быстро исправлять отдельные ошибки и добиваться победы при благоприятных условиях, как будет показано далее.