В чем основные сложности у современных дата-центров? Часть 5
-
Главная
-
Блог
-
В чем основные сложности у современных дата-центров? Часть 5
Пятая часть интервью с Дэвидом Горбетом, вице-президентом по инжинирингу компании MarkLogic, опубликованного на ODBMS.org 25 марта 2014 года.
Вопрос: В чем основные сложности при разработке стратегии ETL (выгрузки, трансформации, загрузки данных)?
Дэвид Горбет: ETL трудно сделать правильно, но еще большая проблема – это поддерживать ETL. У каждого приложения рано или поздно появляется «версия 2», и обычно это означает, что новые запросы будут требовать новых данных и потребуется заново разработать схему данных и ETL. ETL также добавляет сложности в решение.
ETL добавляет задержку, поскольку многие ETL-задания разрабатываются так, чтобы исполняться пакетами.
Сложно уследить за источниками данных при ETL, и сложно применить правила безопасности данных и жизненного цикла данных при ETL. Это не проблема самого ETL или средств ETL, это просто следствие модели, которая фундаментально сложна.
Вопрос: При аналитике «больших данных» вы заранее не знаете, какие данные вам потребуются (или какие вам удастся получить) в будущем. Как быть с этой проблемой?
Дэвид Горбет: Это большая проблема с реляционными технологиями, где вам надо сначала создать схему данных, которая будет «заранее» соответствовать всем вашим данным.
Лучшим подходом здесь будет использовать технологию, которая не требует заранее заданной схемы, и которая позволяет вам хранить разные сущности с разными схемами (или без схемы) в одной базе и анализировать их вместе.
База данных, основанная на документах, которая является типом базы данных из разряда NoSQL, отлично подходит для этого, но вам нужно быть осторожным с тем, какую вы выберете. Дело в том, что некоторые из таких систем не позволяют работать в режиме транзакций, а у некоторых нет возможности индексирования, которая вам потребуется, чтобы искать и запрашивать данные эффективно.
Другой тренд – это использование технологии семантической паутины (Semantic Web). Здесь используется модель данных в виде триплетов в виде субъекта, предиката и объекта. Таким образом это образует высказывания вроде такого «этот производный (субъект) основан на (предикат) от этого лежащего в основе (объекта)».
Оказывается, что можно смоделировать практически любые данные таким образом и вы можете изобретать новые отношения (предикаты) в процессе работы, когда они вам понадобятся.
Схема данных не требуется. Также легко соотносить сущности данных, поскольку триплеты идеальны для моделирования отношений. Проблема в таком подходе заключается в том, что требуется тщательно обдумать, как наилучшим способом представить свои данные в виде триплетов. Чтобы реально это работало, вам надо определить правила, какие предикаты вы разрешите, и что они будут означать, чтобы сохранить постоянство в моделировании ваших данных.
Получить консультацию специалиста