МАСШТАБ НЕ ИМЕЕТ СМЫСЛА

Создание карты всемирной Паутины напоминает построение схемы лабиринта. Такую карту легко нарисовать, разглядывая строение лабиринта откуда-то сверху, например из гондолы воздушного шара, однако Паутина существует не в физическом, а в абстрактном киберпространстве, так что рассмотреть ее с высоты птичьего полета не удастся, мы должны войти в нее и ощупью продвигаться вперед, отмечая по дороге все тупики и разветвления.

Затея странная, но что нам остается еще делать? Мы создали Сеть, но не можем точно сказать, что же мы, собственно, создали. Самый простой метод изучения лабиринта состоит в его постепенном и методическом исследовании методом «ощупывания», и именно такую попытку в 1999 году предприняла группа ученых из университета Нотр-Дам штата Индиана (Река Альберт, Хавонг Джинг и Альберт-Ласло Барабаши). Для решения этой формально картографической задачи они просто запустили в лабиринт «робота», поручив ему составить схему всех замкнутых маршрутов по Паутине. Разумеется, робот тоже был виртуальным, т. е. представлял собой компьютерную программу, которая позволяла входить на все сайты и проверять все гиперссылки. На каждом сайте робот получал набор новых сайтов и продолжал свою работу, переходя все к большему числу сайтов. После каждого такого «налета» на сайт робот информировал своих создателей о числе обнаруженных гиперссылок по каждой из веб-страниц[137].

Понятно, что анализ фантастического количества документов в Паутине не под силу роботу с самой совершенной программой, поэтому исследователи поручили ему изучить только связи домена, относящегося непосредственно к университету Нотр-Дам (www.nd.edu). При этом было выявлено 325 729 документов HTML (HTML — стандартный гипертекстовый язык написания документов, придуманный Тимом Бернерсом-Ли), связанных посредством примерно 1,5 миллиона связей-ссылок. Разработчики программы попытались на основе этой довольно обширной и репрезентативной базы данных определить некоторые характеристики сети в целом.

Прежде всего Альберт и ее коллеги оценили распределение вероятностей входящих и исходящих ссылок и показали, что оно описывается степенным законом (рис. 16.2). Часть веб-страниц имеет огромное количество ссылок, многие — всего несколько, но общая тенденция остается неизменной, так что, например, при удвоении числа ссылок число соответствующих веб-стра- ниц уменьшается в постоянное число раз. Удивляет не уменьшение числа веб-страниц с большим числом ссылок (именно такого результата и следовало ожидать), а строгое совпадение со степенным законом распределения. Этот факт вовсе не выглядит очевидным, скорее естественным было бы гауссовское, колоколообразное распределение со средним значением около 3-4 ссылок. Степенной закон распределения, как уже отмечалось, является характерной особенностью безмасштабных систем.

Проблема заключается в том, что степенной закон распределения не предопределен условиями формирования системы. Каждый человек может свободно создать собственную веб-страницу в университете Нотр-Дам (как и в любом другом домене) и независимым образом решает, каким числом гиперссылок следует снабдить свою страницу. (Разумеется, никто не может заранее определить число возможных входящих ссылок для своей страницы.) Удивительным образом полученная на основе этой вольности принятия решений обширная статистика вдруг оказывается строго соответствующей степенному закону в широком интервале количества ссылок — от одной до тысячи и более. Напомним, что такое же распределение было описано для физических систем, соответствующих критическим состояниям осыпающихся песчаных куч с очень непростым механизмом самоорганизующейся критичности (см. гл. 12).

Распределение по степенному закону прежде всего свидетельствует о том, что Сеть нельзя рассматривать в качестве аналога сетей, предложенных Стивеном Строгацем и Дунканом Ваттсом для описания «малых миров» (гл. 12). В их математических расчетах переключения связей внутри графов приводили к некоторым предпочтениям в связности структур, вследствие чего функция распределения вероятностей числа связей на отдельную вершину возрастала до некоторого значения, а затем начинала уменьшаться. С другой стороны, Сеть в целом вовсе не похожа и на очень большой случайный граф, для которого характерно совершенно иное распределение вероятностей. В частности, при возрастании числа связей степенной закон (рис. 16.2) обеспечивает значительно большее число связей на вершину, чем в случайных графах или в промежуточных графах для малых миров, построенных Строгацем и Ваттсом, подобно тому как степенной закон распределения флуктуаций рыночных показателей увеличивает вероятность больших отклонений.

Означает ли сказанное, что Паутина не относится к малым мирам? Такое утверждение было бы слишком категоричным, мы лишь можем констатировать, что Паутина не принадлежит к тому классу малых миров, который придумали Строгац и Ватте. Альберт и ее коллеги пытались выявить в статистических данных одну из важных особенностей малых миров — сочетание сравнительно низкого значения среднего (характеристического) пути между вершинами с высоким коэффициентом кластеризации самих вершин. При этом они установили, что в Сети рост числа вершин сопровождается лишь очень незначительным увеличением характеристической длины (математически это сводится к тому, что характеристическая длина оказывается пропорциональной логарифму числа вершин). Исследователи показали, что граф, характеризующийся степенным законом распределения связей, действительно демонстрирует такое поведение.

Таким образом, сеть WWW все же может бьггь отнесена к малым мирам, но со специфической топологией, характеризующейся степенным законом распределения, из чего вытекает свойство безмаспггабной связности. Альберт и ее группа подсчитали, что если увеличить домен университета Нотр-Дам до размеров всей Сети, сохранив при этом его структуру, то любые две веб-страницы будут разделены в среднем 19 ссылками, при предполагаемом дальнейшем росте числа веб-страниц в 10 раз среднее число таких ссылок увеличится всего на две. То есть сама структура Сети гарантированно обеспечивает возможность достижения нужного сайта посредством всего нескольких соединений.

На первый взгляд представляется даже странным, почему эти простые закономерности не были обнаружены сразу? По мнению большинства пользователей и исследователей Сети, сложность анализа ее работы обусловлена чудовищным объемом циркулирующей в Сети бесполезной информации. Поисковые программы затрачивают массу времени, пробираясь через завалы «мусора», поскольку не существует возможности выделить только полезные ссылки. Возникает парадоксальная ситуация, при которой каждый важный документ можно действительно найти через 19 переключений, но при этом приходится просматривать массу ненужных документов, так что поразительная связность Сети автоматически снижает эффективность работы поисковых программ. Кроме того, огромные сложности для поиска информации создает непрерывное изменение размеров и параметров Сети, что заставляет любые поисковые программы тратить время на регистрацию и индексацию гигантского количества появляющихся новых страниц, а также их «привязки» к уже существующим документам. По оценкам специалистов, даже лучшие поисковые программы могут просматривать не более трети содержания Сети, а большинство программ оперируют примерно лишь с '/ш ее объема

Ладе Адамик, специалисту из исследовательского центра фирмы «Ксерокс» (Пало-Альто, Калифорния), удалось показать, что присущие Сети особенности малых миров могут быть использованы для создания более эффективных поисковых программ. Она предложила воспользоваться высокой степенью кластеризации веб-страниц, относящихся к связанным тематикам. Топология таких крупных кластеров отличается от топологии случайных графов. «Умная» поисковая машина могла бы воспользоваться этой кластеризацией для ограничения области запросов и тем самым повысить скорость и эффективность поиска. Такое осмысленное поведение представляет собой значительный шаг вперед по сравнению со случайным блужданием программ по лабиринту Сети.

Степенной закон распределения, по-видимому, является лейтмотивом Сети. Именно это распределение Адамик и ее коллега Бернардо Губерман обнаружили при анализе числа страниц на веб-сайтах. Более того, оказалось, что статистика пользователей Паутиной в 1998 году, которые прибегали при поиске информации к так называемому серфингу, тоже подчиняется показательному распределению. Серфингом называют стандартную процедуру поиска, следуя которой вы проверяете сайты по интересующей теме, а затем, пользуясь гиперссылками, двигаетесь дальше, пока не найдете нужной информации или не откажетесь от поиска.

Многие пользователи при серфинге переходят не от страницы к странице, а непосредственно от сайта к сайту. Однако группа Губермана и Адамик ограничилась анализом серфинга внутри отдельных сайтов. Их интересовала «глубина» поиска пользователей — среднее число «кликов», осуществляемых до момента выхода из сайта. Изучив весьма солидные массивы данных (поведение более 23 тысяч зарегистрированных пользователей провайдера AOL и всех посетителей веб-сайта фирмы «Ксерокс»), исследователи показали, что функция распределения вероятностей для числа «кликов» внутри сайта подчиняется степенному закону или по крайней мере очень близка к нему[138]. Такая информация, безусловно, должна быть полезна создателям сайтов, которые могут заранее оценивать число возможных посетителей каждой веб-страницы.

Рис. 16.3. Случайные графы (а) кажутся довольно однородными по сравнению с безмасштабными сетями (б), «присоединенными» к небольшому числу вершин с высокой связностью.

На что похожа описываемая безмасштабная сеть? Некоторое представление читатель, возможно, получит, сравнивая представленные на рис. 16.3 структуры. В случайных графах (а) большинство вершин имеет примерно одинаковое число ребер, в результате чего общая структура выглядит довольно однородной. В безмасштабной сети (б) большая часть вершин имеет лишь одну или две связи. В то же время небольшое число вершин в такой сети обладает очень большим числом соединений, что делает структуру чрезвычайно неоднородной, т. е. очень плотной в одних местах, но очень разреженной — в других. Эти высокоплотные узлы обеспечивают «короткие связи», которые делают сеть малым миром.

Интернет в целом (подобно Паутине) также обладает безмасштабной топологией, для которой распределение числа связей между узлами подчиняется степенному распределению (рис. 16.4), и именно в этом заключены его сила и фантастические возможности. Упомянутая группа Альберт, Джинга и Барабаши изучила устойчивость работы безмасштабных систем по отношению к повреждению отдельных узлов связи по сравнению с двумя другими типами сетей: случайными и сетями малых миров Строгаца и Ваттса специального типа (так называемых малых миров с доминирующей размерностью). Оба упомянутых типа сетей характеризуются тем, что вероятность образования высокосвязных узлов быстро (экспоненциально) уменьшается с ростом числа узлов и связей.

Рис. 16.4. Структура небольшого участка Интернета, построенная по кратчайшим маршрутам передачи сообщений от одного центрального компьютера к множеству других. Структуры такого типа широко представлены на сайте www.cybergeography.org/atlas/topology. Html.

Расчеты показали явное преимущество безмасштабных сетей, которые продолжают спокойно работать при потере 5% узлов, практически без изменений характеристической длины пути передачи сообщения. В противоположность этому в обоих типах описанных «экспоненциальных» сетей повреждение даже небольшого числа узлов приводило к заметному снижению коммуникационных характеристик системы. Кроме того, экспоненциальные сети при повреждениях проявляли тенденцию к распаду на изолированные кластеры в тех случаях, когда доля «мертвых» узлов доходила до 28%, т.е. теряли способность передавать информацию на значительные расстояния. В отличие от них безмасштабные сети даже при значительных повреждениях не распадались на части, а продолжали работать, лишь постепенно снижая эффективность связи. Такая надежность работы объясняется тем, что в безмасштабных сетях большая часть узлов имеет лишь одну или две связи, вследствие чего повреждение связи приводит лишь к частичной или временной изоляции конкретного узла (рис. 16.5).

Таким образом, топология Интернета действительно обеспечивает удивительную надежность его работы даже при отключении некоторой доли узлов. Отметим, кстати, что отключение узла не обязательно означает разрушение или повреждение, так как узел может временно перестать функционировать из-за перегрузки, т.е. из-за слишком большого объема передаваемой информации. В таких случаях безмасштабная структура быстро обеспечивает выработку нового кратчайшего маршрута передачи. Этому способствует и то, что в реальных условиях около 3% узлов на всех маршрутах Интернета остаются свободными.

Самое удивительное — то, что такая надежная и удобная сеть возникла без предварительного плана. Более того, если бы при создании Сети кто-то мог диктовать условия ее формирования и топологию, то любое выбранное решение с большой долей вероятности оказалось бы менее надежным (одна из таких топологий, предлагавшаяся Полом Бараном, приведена на рис. 16.1, в). Из этого следует вывод, что в некоторых случаях разумнее всего предоставить технологии развиваться и организовываться по собственным законам. Конечно, интересно понять также, почему Интернет образовал именно такую структуру? Я попробую ответить на этот вопрос в конце главы, а сейчас нам предстоит задуматься об очень сложной и неприятной проблеме защиты Интернета, надежность которого определяется не только структурой, но и уязвимостью к нападению извне.