В чем основные сложности у современных дата-центров? Часть 3

19 Мая 2014
Если облака для вас
не просто теория
Широкий спектр услуг
по выделенным северам
и мультиклауд-решениям
Конфигурация VPS и бесплатный тест уже через 2 минуты
Организация вашей IT-инфраструктуры на основе мультиклауд-решения
Третья часть интервью с Дэвидом Горбетом, вице-президентом по инжинирингу компании MarkLogic, опубликованного на ODBMS.org 25 марта 2014 года.

Вопрос: Мощности дата-центров обычно относятся к трем разным типам: вычислительная мощность, хранение данных и сетевое соединение. Есть ли в этом какая-то проблема?

Дэвид Горбет: Это зависит от вашего выбора технологий. Некоторые методы работы с данными подразумевают, что вы используете систему хранения данных, напрямую подключаемую к серверу (DAS). Таким образом, Вы не можете управлять хранением данных отдельно с такой технологией. В других случаях вы можете использовать распределенное хранение, такое как SAN или NAS. С правильной технологией не обязательно управлять хранением данных отдельно от вычислительных мощностей.

Проблема здесь скорее в слове «тип мощностей»: Ответы на сегодняшние вызовы дата-центров лежат в более целостном подходе. Хранение данных, вычислительные мощности и сеть должны работать вместе.

Ваш вопрос может также рассматриваться с точки зрения архитектуры приложений. Традиционно, приложения строятся на 3-уровневой архитектуре: база данных, сервер приложений для бизнес-логики и фронт-енд для клиентов, где «живет» пользовательский интерфейс.

Существуют сильные причины, почему архитектура строится так, и я думаю, что это будет основная модель еще на многие годы. Но даже хотя бизнес-логике предполагается быть в сервере приложений, каждая система управления базами данных уровня корпораций поддерживает хранимые процедуры, и это очень часто используется, чтобы получить доступ к вычислительным мощностям «там, где данные», когда перенос данных на средний уровень будет медленным и неэффективным. Все чаще корпоративные системы управления базами данных обладают продвинутыми встроенными функциями (и во многих случаях, функциями, задаваемыми пользователями), которые облегчают работу с данными там, где данные находятся. Аналитические агрегированные вычисления – хороший пример этого. Вычислительная мощность не сосредотачивается целиком на среднем уровне - сервера приложений.

Здесь нет ничего нового, так зачем мы это обсуждаем? Затем, чтобы обратить внимание на то, что в то время как объемы данных растут, проблема переноса данных из базы данных для работы с ними становиться все больше.

Расскажу Вам о случае с Национальным институтом исследования рака. Их текущая модель работы подразумевает, что те научные учреждения, которые хотят провести исследования над данными о генах, скачивают наборы данных и анализируют их у себя. Но к концу 2014 года Атлас генома рака вырастет с 500 терабайт сейчас до 2,5 петабайт. Просто скачать 2,5 петабайта, даже на 10-гигабитном соединении займет почти месяц.

Решение? Перенести вычислительные мощности к данным. Сложности? Во-первых, методы сужения наборов данных, перед тем, как производить какие-то операции с ними, становятся критически важными. В частности поэтому, технологии поиска быстро становятся ключевыми функциями систем управления базами данных следующих поколений. Поиск – это язык запросов для неструктурированных данных, и если у вас сложный набор данных, структурированных и неструктурированных, вам нужно найти способ соединять механизмы поиска и традиционных запросов.

Во-вторых, технологии управления базами данных должны стать намного более мощными, чтобы исполнять сложные программы и вычисления там, где находятся данные, с использованием поиска в реальном времени, чтобы сузить входные данные. Это единственный способ обеспечить работоспособность в реальном времени на таких объемах. Иными словами, «управление», когда мы говорим про управление базами данных, должно вырасти в объеме. Уже недостаточно просто хранить данные и выдавать их по запросу. Современные технологии управления базами данных должны позволять осуществлять в том числе и сложные вычисления.

Вопрос: Как построить такой ориентированный на данные дата-центр?

Дэвид Горбет: Сначала нужно изменить свое мышление. Думайте о данных, как о центре всего. Думайте об управлении данными в одном месте, и о возможности перенести приложение к данным, предоставляя приложению доступ к сервисам управления данными. То, как вы создаете архитектуру своей системы, играет все большую роль. Думайте о сервис-ориентированных архитектурах и о модели постоянного наращивания.

Далее, вам нужен правильный набор технологий. Такой, который предоставит приложениям транзакционную функциональность, поиск, аналитику и пакетные вычисления, с единой моделью управления и наращивания. Вам нужна система хранения данных, которая обеспечивает отличные показатели (SLA) на больших объемах, и низкую стоимость владения на маловажных данных, исключающую необходимость делать ETL. Вам нужна возможность увеличивать и уменьшать вычислительную мощность, чтобы обслуживать потребности приложения без остановок в работе. А также – возможность делать это как на своих собственных площадях, так и в «облаке».

Вам нужна возможность управлять данными в течение их жизни, возможность вывести их в «оффлайн» с целью экономии на хранении, и в то же время сохранить возможность производить с ними различную аналитику, а также возможность вернуть их обратно в «онлайн», если такая необходимость возникнет.

Для приложений вам нужна возможность создавать мощные, производительные и безопасные сервисы данных, и обеспечить доступ к ним из места хранения данных, чтобы приложение могло запрашивать данные в необходимом формате «на лету».

Мы называем это «схемой считывания».

И конечно все это должно обладать высокой доступностью, способностью к восстановлению, безопасностью, и вписываться в ваш уменьшающийся IT-бюджет. Это звучит как нечто невозможное, но уже существуют технологии, которые позволяют это сделать.
Получить консультацию специалиста