В чем основные сложности у современных дата-центров? Часть 2

12 Мая 2014
Если облака для вас
не просто теория
Широкий спектр услуг
по выделенным северам
и мультиклауд-решениям
Конфигурация VPS и бесплатный тест уже через 2 минуты
Организация вашей IT-инфраструктуры на основе мультиклауд-решения
Вторая часть интервью с Дэвидом Горбетом, вице-президентом по инжинирингу компании MarkLogic, опубликованного на ODBMS.org 25 марта 2014 года (и в нашем блоге 5 мая 2014 г.).

Вопрос:  Вы говорили о «дата-центре, ориентированном на данные»? Что это такое, и в чем отличие от классической концепции «склада данных»?

Дэвид Горбет: Чтобы объяснить, что я имел в виду под «дата-центром, ориентированном на данные», давайте начнем с того, что такое обычный дата-центр, ориентированный на приложения.

Сейчас, если у Вас есть полезные данные, вы или создаете приложение, которое с ними работает, или кладете их в «склад данных», чтобы иметь возможность извлечь из них пользу. Это приложения для работы с базами данных, соответственно, Вам нужно строить свою базу данных для них. Этой базе данных нужна структура данных, которая оптимизируется для своего приложения. Чтобы создать структуру данных, вам нужно понять, какие данные вы будете использовать, и с какими запросами будет работать приложение.

То есть, Вам нужно знать заранее, что ваше приложение будет делать, до того, как вы начнете что-либо создавать. Более того, вам затем потребуется сделать ETL (выгрузить, передать, загрузить) эти данные оттуда, где они сейчас, в базу данных для этого конкретного приложения.

Затем, вам нужно еще одно приложение, и вы делаете все снова. Скоро у вас появляется сотня хранилищ данных, с данными, дуплицированными повсюду. Вообще-то, они даже не дуплицированы, а являются производными от тех данных, которые были в начале, поскольку в процессе ETL данные меняют свою форму, теряя часть контекста и, возможно, дополняясь другими кусочками данных из других источников. Это даже хуже, чем дуплицирование, поскольку в подобных случаях очень трудно установить истинное происхождение данных и проследить начальный источник. А теперь представьте, что вам нужно исправить что-то в данных.

Можете ли вы быть уверены, что изменение в данных корректно отразилось на всех наборах данных, которые расплодились таким образом? А что, если нужно стереть часть данных? Например, из-за проблем с приватностью, или изменить разрешения на доступ к данным? Даже с небольшими наборами данных это становится сложно, и гораздо сложнее и затратнее, когда в это вовлечены большие объемы данных.

Дата-центр, ориентированный на данные - это дата-центр, который ориентирован на использование данных и управление ими в течение их срока жизни. Он создан таким образом, чтобы обеспечить единую модель управления данными, и возможность доступа приложений к данным, а не копирование данных для доступа к ним через приложения. С правильными технологиями вы можете создать ориентированный на данные дата-центр, который минимизирует дуплицирование данных, обеспечивает постоянное управление данными и гибкость как в разработке приложений, так и в масштабировании мощностей для соответствия требованиям. Это позволит вам управлять данными безопасно и эффективно в плане затрат, на протяжении их срока жизни.