В чем основные сложности у современных дата-центров? Часть 5

2 Июня 2014
Если облака для вас
не просто теория
Широкий спектр услуг
по выделенным северам
и мультиклауд-решениям
Конфигурация VPS и бесплатный тест уже через 2 минуты
Организация вашей IT-инфраструктуры на основе мультиклауд-решения
Пятая часть интервью с Дэвидом Горбетом, вице-президентом по инжинирингу компании MarkLogic, опубликованного на ODBMS.org 25 марта 2014 года.

Вопрос: В чем основные сложности при разработке стратегии ETL (выгрузки, трансформации, загрузки данных)?

Дэвид Горбет: ETL трудно сделать правильно, но еще большая проблема – это поддерживать ETL. У каждого приложения рано или поздно появляется «версия 2», и обычно это означает, что новые запросы будут требовать новых данных и потребуется заново разработать схему данных и ETL. ETL также добавляет сложности в решение.

ETL добавляет задержку, поскольку многие ETL-задания разрабатываются так, чтобы исполняться пакетами.

Сложно уследить за источниками данных при ETL, и сложно применить правила безопасности данных и жизненного цикла данных при ETL. Это не проблема самого ETL или средств ETL, это просто следствие модели, которая фундаментально сложна.

Вопрос: При аналитике «больших данных» вы заранее не знаете, какие данные вам потребуются (или какие вам удастся получить) в будущем. Как быть с этой проблемой?

Дэвид Горбет: Это большая проблема с реляционными технологиями, где вам надо сначала создать схему данных, которая будет «заранее» соответствовать всем вашим данным.

Лучшим подходом здесь будет использовать технологию, которая не требует заранее заданной схемы, и которая позволяет вам хранить разные сущности с разными схемами (или без схемы) в одной базе и анализировать их вместе.

База данных, основанная на документах, которая является типом базы данных из разряда NoSQL, отлично подходит для этого, но вам нужно быть осторожным с тем, какую вы выберете. Дело в том, что некоторые из таких систем не позволяют работать в режиме транзакций, а у некоторых нет возможности индексирования, которая вам потребуется, чтобы искать и запрашивать данные эффективно.

Другой тренд – это использование технологии семантической паутины (Semantic Web). Здесь используется модель данных в виде триплетов в виде субъекта, предиката и объекта. Таким образом это образует высказывания вроде такого «этот производный (субъект) основан на (предикат) от этого лежащего в основе (объекта)».

Оказывается, что можно смоделировать практически любые данные таким образом и вы можете изобретать новые отношения (предикаты) в процессе работы, когда они вам понадобятся.

Схема данных не требуется. Также легко соотносить сущности данных, поскольку триплеты идеальны для моделирования отношений. Проблема в таком подходе заключается в том, что требуется тщательно обдумать, как наилучшим способом представить свои данные в виде триплетов. Чтобы реально это работало, вам надо определить правила, какие предикаты вы разрешите, и что они будут означать, чтобы сохранить постоянство в моделировании ваших данных.