Современные GRID- технологии | ||
В.А. Абрамовский, доктор физико-математических наук, профессор кафедры теоретической и математической физики ИЭИС
| ||
В 1989 году сотрудник Европейского центра ядерных исследований (ЦЕРН, Женева) Тим Бернерс-Ли изобрел принципиально новый способ свободного доступа в Сеть - World Wide Web (WWW - Всемирная Паутина). Сегодня ЦЕРН вновь, фактически, становится инициатором дальнейшей эволюции интернета - создается система распределенных компьютерных вычислений GRID. | ||
Первая фаза вы числительного проект GRID для будущего ускорителя LHC (Большой адронный коллайдер - Large Hadron Collider) была одобрена на Совете ЦЕРН. Сегодня важно не только иметь доступ к информации, но и распределенным образом обрабатывать ее. Четыре гигантских детектора этого ускорителя будут накапливать больше чем 10 миллионов гигабайт данных в течение каждого года о событиях, происходящих при столкновении частиц. Это эквивалентно содержанию, примерно, 20 миллионов компьютерных компакт-дисков. Почти 10 тысяч ученых из сотен университетов мира группируются в виртуальные сообщества, чтобы анализировать данные с ускорителя LHC. За одну секунду на экспериментальных установках этого ускорителя будет происходить более одного миллиарда соударений. Концепция GRID
(название по аналогии с электрическими сетями - electric power grid) предполагает создание компьютерной инфраструктуры нового типа, обеспечивающей глобальную интеграцию информационных и вычислительных ресурсов на основе управляющего и оптимизирующего программного обеспечения (middleware) нового поколения. Для достижения этой цели создается набор стандартизированных служб для обеспечения надежного, совместимого, дешевого и всепроникающего доступа к географически распределенным высокотехнологичным информационным и вычислительным ресурсам - отдельным компьютерам, кластерам и суперкомпьютерным центрам, хранилищам информации, сетям, научному инструментарию и т.д. Важнейшим является междисциплинарный характер GRID. Имеется довольно много общего в вычислительных потребностях различных областей научных исследований - развиваемые технологии применяются в физике высоких энергий, космофизике, микробиологии, экологии, метеорологии, различных инженерных приложениях (например в самолетостроении). Схожие проблемы наблюдаются и в других областях. Например, NASA реализует для своих нужд сеть высокопроизводительных компьютеров, роботизированных устройств массовой памяти, высокоскоростных каналов связи, научных инструментов и продвинутых интерфейсов для пользователя под названием Information Power Grid (http://www.nas.nasa.gov/IPG). В настоящее время кроме LHC идет подготовка нескольких научных экспериментов нового поколения - эксперименты с использованием интерферометров для регистрации гравитационных волн бинарных пульсаров, новых сверхсвезд и иных экзотических объектов (эксперимент LIGO), а также автоматизированная цифровая космическая съемка с очень высоким разрешением, которая позволит значительно развить систематическое изучение звезд, галактик и крупномасштабных космических структур (эксперимент SDSS) для создания подробного каталога астрономических данных. Все эти эксперименты рассчитаны на длительный период и предполагают накопление и последующую обработку массивов данных. Существуют два основных направления развития GRID технологий - вычислительный (computational) GRID, и для интенсивных операций с базами данных, data intensive GRID (далее - DataGRID). В вычислительном GRID создаваемая инфраструктура нацелена на достижение максимальной скорости расчетов за счет глобализации распределения (распараллеливания) вычислений. Одним из таких проектов является европейский проект EuroGRID. Существует несколько сайтов, отражающих общую активность в данном направлении. Европейский форум Europien Grid Forum (www.egrid.org) представляет собой сайт, нацеленный на обсуждение, обмен опытом в использовании распределенных вычислительных систем, доступ к которым осуществляется на базе глобальных сетей. Примерно для тех же целей предназначен и американский Grid Forum (www.gridforum.org). Общие характеристики потребностей, которые делают оправданной организацию вычислительных архитектур типа Data intensive GRID: - большие объемы данных, распределенных по различным научным центрам, странам и континентам; - участие большого количества специалистов в обработке данных из разных институтов и университетов; - информация, которую следует проанализировать, имеет сложную структуру; - алгоритмы обработки информации имеют нетривиальный характер (объем программ составляет миллионы строк текста); - наконец, масштабируемость базового программного обеспечения (фактически, всего того, что лежит ниже прикладного уровня), которое должно устойчиво работать как на настольной машине, так и на суперкомпьютере. К проекту Grid подключились и ведущие компьютерные компании Microsoft, Sun Microsystems, Compaq Computer и Hewlett-Packard. IBM и идеологи Grid-систем из академической науки подготовили проект документа, в котором излагаются принципы объединения двух направлений разработок. "Те же методы, которые используются при коллективном решении сложных технических задач, могли бы применяться и в других целях, таких как поддержка электронного бизнеса и веб-сервисы. Однако пока технология веб-сервисов находится в зачаточном состоянии, и речь идет лишь о строительстве фундамента для этого здания". Microsoft хочет организовать реализацию бизнес-процессов на базе взаимодействующих друг с другом серверов, возможно, принадлежащих разным компаниям. Например, онлайновый заказ на авиабилет может обрабатываться с привлечением других веб-сервисов: для списания денег с кредитной карты, для оформления заявления на компенсацию расходов и для расширения географического охвата услуг мобильной связи, предоставляемых путешественнику. Эта компания интересуется защитой Grid-систем и работает над тем, чтобы внедрить в нее свою службу идентификации Passport. Grid также поддерживает компания Platform Computing and Entropia, программное обеспечение которой позволяет участвовать в распределенных вычислениях Grid-систем не только большим серверам, но и обычным ПК. Sun объявила о важном шаге по унификации своего проекта веб-сервисов, входящего в пакет Sun Planet, с программным обеспечением Grid-системы, что согласуется с проектом Sun N1, нацеленным на то, чтобы управлять центром обработки данных, нашпигованным серверами и системами хранения данных, как единым гигантским компьютером. Sun и IBM вместе с конкурентами HP и Compaq объявили о своей поддержке Grid-стандарта Secure Grid Naming Protocol, который регламентирует способы определения местонахождения файлов в море систем хранения данных в Grid-сети и гарантирует доступность этих файлов только для пользователей, наделенных соответствующими правами. Прогнозируется, что эволюционные изменения в полупроводниковых технологиях и архитектуре микропроцессоров приведут в ближайшие пять лет к десятикратному увеличению вычислительных мощностей. Уже сегодня возможности рядовых пользователей, подключенных к цифровым каналам связи с предоставлением комплексных услуг, сравнимы с теми возможностями, которыми обладали суперкомпьютерные центры 10-15 лет назад. Технологическое основание для создания Grid-инфраструктур дают уже существующие волоконно-оптические сети, высокопроизводительные процессоры, параллельные архитектуры, протоколы связи, математическое обеспечение распределенных структур, механизмы обеспечения безопасности. Безусловно, усилия по развертыванию Grid-инфраструктур имеют смысл только в том случае, если они будут востребованы большим числом пользователей. Выделяют несколько категорий потенциальных пользователей: специалисты по вычислительной технике, ученые-экспериментаторы, научные ассоциации и коммерческие фирмы. Grid-инфраструктуры найдут применение для глобального решения проблем охраны окружающей среды, для целей обучения и образования. Неизбежным видится быстрое проникновение Grid из исследовательской сферы в бытовую. Основные направления использования Computational GRID: - распределенные супервычисления, решение очень крупных задач, требующих огромных процессорных ресурсов, памяти и т.д.; - "высокопоточные" вычисления (High-Throughput Computing), позволяющие организовать эффективное использование ресурсов для небольших задач, утилизируя временно простаивающие компьютерные ресурсы; - вычисления "по требованию" (On-Demand Computing), крупные разовые расчеты; - вычисления с привлечением больших объемов распределенных данных (Data-Intensive Computing), например, в метеорологии, астрономии, физике высоких энергий; - коллективные вычисления (Colla-borative Computing). |