В чем основные сложности у современных дата-центров? Часть 6

9 Июня 2014
Если облака для вас
не просто теория
Широкий спектр услуг
по выделенным северам
и мультиклауд-решениям
Конфигурация VPS и бесплатный тест уже через 2 минуты
Организация вашей IT-инфраструктуры на основе мультиклауд-решения
Шестая и заключительная часть интервью с Дэвидом Горбетом, вице-президентом по инжинирингу компании MarkLogic, опубликованного на ODBMS.org 25 марта 2014 года.

Вопрос: Какова стоимость анализа терабайта данных?

Дэвид Горбет: Это зависит от тех технологий, которые вы используете и от того SLA, который требуется выдержать с этими данными.

Если вы получаете новые данные в процессе анализа, и вам требуется выгружать результаты анализа обратно в реальном времени, например, если вы анализируете риск при торговле финансовыми инструментами, перед тем, как подтвердить проведение операций, и производите какие-то действия в результате анализа, то тогда вам потребуется быстрый диск, существенное количество вычислительной мощности, реплики ваших данных для кластера с высокой доступностью (HA failover) и дополнительные реплики для восстановления в аварийных ситуациях (DR). С учетом требуемых вычислительных мощностей это может стоить вам порядка 25 тысяч долларов за терабайт.

Если ваши данные поступают только в режиме чтения, и ваш анализ не требует высокого уровня доступности, например, какое-то приложение которое определяет соответствие нужным процедурам при упомянутых выше уже совершенных операциях с финансовыми инструментами – то вы возможно можете обойтись более дешевыми опциями хранения, и меньшей вычислительной мощностью, и это будет стоить что-то в районе 4 тысяч долларов за терабайт.

Если вы собираетесь использовать в основном пакетный анализ и можете использовать для этого систему на базе HDFS, вы возможно сможете снизить стоимость до 1,5 тысячи долларов за терабайт.

Эта огромная разница в ценах и объясняет, почему вам нужен стек технологий, который может обеспечить возможности работы с большими массивами данных в реальном времени для тех случаев, когда это требуется, и в тоже время - обеспечить отличные показатели полной стоимости владения для тех случаев, когда нет необходимости работать в реальном времени.

Существует множество технологий, которые работают на всем разнообразии этих уровней данных, и это и есть причина, по которой так много организаций выгружают данные из своих транзакционных систем в отдельную аналитическую или архивирующую систему, чтобы получить экономию. Наилучшим решением будет иметь такую технологию, которая позволит работать с этими разными уровнями данных и поддержит миграцию данных в течение срока жизни данных между этими уровнями. Еще раз подчеркну – это достижимо сегодня при правильном выборе технологий.