15.2. Обработка данных. Big data
Особенность астрономии состоит в том, что всю информацию об изучаемых объектах (если исключить некоторые тела Солнечной системы, к которым можно послать космические аппараты для изучения на месте или для забора и возврата образцов на Землю) мы получаем с помощью излучения. Поэтому обработка данных наблюдений играет очень важную роль. Чтобы узнать что-то новое о физике небесных тел, приходится применять очень сложные методы анализа наблюдений. К счастью, последние десятилетия все данные сразу же регистрируются в цифровом виде, что облегчает работу и дает возможность использовать самые современные численные методы.
Многие красивые астрономические изображения, которые публикуются в популярной литературе, являются результатом сложного процесса работы с исходными данными. Но самое главное – изощренная обработка нужна для получения научных результатов, поскольку многие открытия совершаются буквально «на пределе возможного».
Астрономические данные подвергаются сложной обработке и анализу с использованием передовых численных методов.
Обработка данных на пути к окончательному научному результату может состоять из многих этапов. Сначала нужно по возможности отфильтровать различные шумы, связанные со свойствами как наблюдаемых объектов, так и детектора, т. е. выделить собственно сигнал, который мы хотим анализировать. Сигнал может быть не просто слабым, он может быть ниже уровня шумов, но тем не менее в ряде случаев работа с данными позволяет его идентифицировать и отделить от паразитного сигнала. Далее сам анализ может быть связан со сложной обработкой: поиском периодичности, или поиском сигнала определенной формы (если мы говорим о временных рядах), или идентификацией спектральных линий на фоне априори неизвестных влияний (эффект Доплера, гравитационное смещение, эффект Зеемана и многое другое). Наконец, когда получены научные данные, освобожденные от фоновых шумов, и получены параметры астрономических источников, сложный анализ может понадобиться для поиска корреляций между свойствами разных объектов, для сопоставления данных наблюдений с теоретическими предсказаниями и компьютерными моделями. В частности, отдельную проблему представляет автоматическая классификация объектов и событий при обработке обзоров неба. В настоящее время для этого все чаще используют нейронные сети – обучаемые компьютерные системы, пригодные для решения ряда задач (в частности, для распознавания образов).
Для автоматической классификации астрономических источников применяют нейронные сети.
Астрономия постепенно меняется. Все б?льшую роль играют крупные проекты, генерирующие огромное количество информации в ходе обзорных наблюдений. При этом астрономы зачастую не только не сидят у телескопов, но даже не занимаются первичной обработкой огромных потоков данных – это выполняется специальными программами (pipeline). Например, в проекте SDSS (Sloan Digital Sky Survey, Слоановский цифровой обзор неба) за одну ночь наблюдений генерируется около 200 гигабайт информации. Проекты следующего поколения будут давать уже много терабайт данных в день, так что астрофизика становится наукой, имеющей дело с «большими данными» (big data).
В проектах современных инструментов, таких как SKA, стоимость обеспечивающих работу (включая первичную обработку данных) суперкомпьютеров становится заметной частью полной сметы. У телескопов в удаленных местах, таких как Гавайские острова, возникают проблемы с передачей данных: между островами и материком нет широкополосных оптоволоконных каналов с большой пропускной способностью, а спутниковая передача не может обеспечить поток данных, соответствующий производительности будущих телескопов. При создании некоторых проектов на спутниках обсуждается установка фильтров, которые будут отсекать часть спектра (т. е. искусственно уменьшать до нуля чувствительность в некотором диапазоне длин волн), поскольку всю получаемую на детекторе информацию невозможно будет передать на Землю. Это ставит совершенно новые задачи перед астрономическим сообществом.
Многие открытия совершаются не благодаря новым наблюдениям, а благодаря более тщательному и изощренному анализу данных (data mining). А в новых наблюдательных проектах часть открытий совершается уже не людьми, а компьютерами (например, обнаружение астероидов в больших обзорах неба вроде Pan-STARRS). Это означает, что важными становятся не только технологии создания телескопов, но и технологии работы с данными (в том числе уже собранными). Появился даже новый термин – астроинформатика.
Без современной компьютерной обработки данных многие астрономические открытия никогда не были бы сделаны.
Современной тенденцией является открытый доступ к данным (постепенно это даже становится требованием). В некоторых случаях, например при обзорных наблюдениях на спутниках, данные могут сразу попадать в открытый доступ. Но обычно группам исследователей (скажем, авторам заявки на наблюдения конкретной области неба) предоставляется некоторый период времени, в течение которого данные находятся в эксклюзивном распоряжении. Однако по истечении некоторого срока (чаще всего это один год) данные попадут в открытый доступ вне зависимости от того, успели ли авторы заявки обработать и опубликовать данные, что подстегивает работу и позволяет полнее использовать полученную информацию. Все это приводит к тому, что с течением времени все астрономические данные становятся общедоступными. Например, проект SDSS является, по многим оценкам, самым продуктивным в истории астрономии именно благодаря открытому доступу к его данным. В астрономии данные часто делят на три основных уровня.
Первый – это «сырые данные» (raw data): то, что напрямую считывается с детекторов (в случае большого количества таких данных они чаще всего не хранятся). Такая информация содержит множество артефактов, связанных с деталями устройства инструмента (поврежденные пиксели на матрице, известные виды шума или паразитного сигнала, изменение чувствительности приборов со временем). Работать с такой информацией, как правило, могут только специалисты, посвятившие достаточное время обработке данных с конкретного инструмента и знающие его особенности.
Сложные методы анализа позволяют выделять слабые сигналы на фоне шумов.
Следующий уровень – это «полуфабрикаты» (data products): информация, которая уже прошла первичную обработку. Во многих современных (особенно крупных) проектах это делается автоматически. Такая информация доступна для использования уже более широкому кругу исследователей, потому что она переведена в какой-то достаточно распространенный и хорошо описанный формат (например, FITS – Flexible Image Transport System, Гибкая система передачи изображений). Эти данные имеет смысл хранить для дальнейшего использования (в том числе в отдаленном будущем).
Наконец, третий уровень – это научные данные: полученные (и обычно опубликованные) научные результаты. Однако информация может быть использована и дальше для различных целей. Как правило, здесь для работы с данными уже не требуются специфические навыки и программы.
Астрономические данные необходимо хранить как можно дольше.
Особенность астрономических данных состоит в том, что они имеют ценность в течение весьма продолжительного времени. Это разительно отличается от ситуации в других областях физики, где всегда возможно провести новые, более точные эксперименты (на более качественном оборудовании, по новым методикам и т. д.). Поэтому прямые данные физических экспериментов, проведенных десятки лет назад, имеют обычно лишь историческую ценность – самые важные результаты этих опытов так или иначе опубликованы в научных статьях. В астрономии это не так. Астрономические данные надо хранить как можно дольше, поскольку для нас могут быть интересны даже данные тысячелетней давности из каких-нибудь китайских хроник. Поэтому во многих обсерваториях десятилетиями собирались для дальнейшего использования «стеклянные библиотеки» – снимки на фотографических пластинках. Скажем, именно стеклянная библиотека ГАИШ (Государственного астрономического института им. П. К. Штернберга) МГУ позволила в середине 1960-х гг. сразу же выявить переменность первого идентифицированного квазара 3С273.
Полный объем имеющихся астрономических данных в настоящее время оценивается в петабайты, а в ближайшие годы (благодаря появлению новых больших наблюдательных проектов) он превысит несколько десятков (или даже сотен!) петабайт. Сейчас объем данных удваивается примерно за год-два, что во многом связано с совершенствованием матриц (теперь счет идет на гигапиксели).
Идеальным примером «больших данных» (big data) в науке является Большой адронный коллайдер в ЦЕРН, поток данных с которого составляет более 10 петабайт в год. В астрономии первым проектом, столкнувшимся с действительно очень большим потоком данных в рамках единой наблюдательной программы, стали гравитационно-волновые детекторы LIGO (см. раздел 13.9 «Детекторы гравитационных волн»): после модернизации за год наблюдений накапливается примерно петабайт данных. Ожидается, что этот поток данных будет превзойден проектами SKA (см. раздел 13.4 «Радиотелескопы») и LSST. Последний станет крупнейшим обзорным телескопом в истории астрономии – с зеркалом диаметром более 8 м и ультрасовременной камерой с 3,2-гигапиксельной матрицей (тоже самой большой в истории). Пиковый поток сырых данных с камеры этого инструмента будет в ходе наблюдений достигать примерно 3 гигабайт в секунду, в то время как на SKA будет достигать порядка десятка терабайт в секунду!
Поток новых астрономических данных в ближайшем будущем составит более нескольких десятков петабайт в год.
Данные могут храниться в виде файлов (например, снимок какой-то области неба) или в виде баз данных (простейший пример – каталог объектов). Эти подходы довольно сильно отличаются: в первом случае это аналогично хранению отсканированной страницы текста в виде растрового изображения, а во втором – хранению уже распознанного текста, по которому возможен поиск. Второй способ существенно удобнее для пользователей, поскольку позволяет проводить быстрый поиск нужной информации и сопоставлять ее с другими данными. Поэтому важной задачей является хранение максимально возможного количества информации именно в виде баз.
Компьютерное моделирование также является источником больших объемов информации.
Еще одним источником больших данных в астрономии является компьютерное моделирование, в первую очередь больших космологических процессов. В них расчеты начинаются на красном смещении около z = 30 (примерно 100 млн лет после начала расширения), а детализация доходит до расчетов параметров отдельных галактик в нашу эпоху. При этом получаемые в расчетах изображения вполне сравнимы с реально наблюдаемой картиной. Учитывая, что обсчитываются большие объемы пространства с большим количеством галактик, такие компьютерные модели порождают огромные объемы информации. Результаты подобных расчетов востребованы исследовательскими группами по всему миру, причем речь идет не о финальных интегральных данных, а о полном доступе: такие крупные проекты выступают в роли «искусственных вселенных», элементы которых ученые могут сравнивать с наблюдениями реальных объектов в поисках новых корреляций и закономерностей. В ходе некоторых компьютерных экспериментов специально воспроизводят «искусственные обзоры», аналогичные по своим свойствам реальным, рассчитывая наблюдаемые параметры модельных объектов.
При работе с большими данными в астрономии возникает также интересная проблема их визуализации. Это касается и данных наблюдений (например, огромные каталоги с сотнями миллионов астрономических источников), и данных компьютерного моделирования (например, визуализация эволюции крупного скопления галактик). С ростом объемов информации острота этой проблемы только возрастет. Поэтому в астрономии разрабатываются специальные пакеты программ, позволяющие эффективно работать с большими объемами данных в графическом режиме.
Более 800 000 книг и аудиокниг! 📚
Получи 2 месяца Литрес Подписки в подарок и наслаждайся неограниченным чтением
ПОЛУЧИТЬ ПОДАРОК