Сравнение data lake с хранилищем данных

14 Мая 2021

Объемы данных с каждым годом увеличиваются в ускоренными темпами. Значительно повысилось число потоковых данных, а неструктурированные все больше затмевают своих структурированных аналогов. В итоге бизнесу, работающему с масштабными базами, приходится обрабатывать информацию перед загрузкой, что требует много времени и усилий. Но все равно в итоге часть сведений теряется, но или могли бы оказаться полезными в будущем. И решить эту проблему призван инновационный продукт – data lake, то есть озеро данных. Что это такое? Насколько эффективно? В чем отличия от классических хранилищ данных?

Знакомимся с озером данных

datalake-1.jpgОзеро данных – это большое по объему хранилище, где все данные сохраняются в их оригинальном, необработанном и неупорядоченном виде. При необходимости пользователь «выудит» их и уже затем приступит к обработке. Чтобы получить доступ к ним, пользователю следует знать:

  • сколько данных надо «выловить» и когда;
  • применяемые методы аналитики;
  • определенные типы данных и те источники, которые им нужны.

Реализовать все это в классическом хранилище данных невозможно либо время выполнения этих работ будет очень длительным. А в современном бизнесе, с его чрезвычайно активным рынком и постоянно меняющимися условиями это недопустимо.

Более простым языком отвечая на вопрос, что это, data lake можно сказать, что это хранилище для видео, журналов, книг, PDF-файлов, вордовских документов, фотоальбомов, аудиозаписей и любых других данных, не имеющих структуры. И не важно, в какого они объема и формата. Не важно и то, с какого источника идут: CRM- или ERP-систем, софтов финучреждений, умных гаджетов, датчиков, каталогов товаров или других систем, которые использует компания.

Извлекать информацию можно в традиционную базу данных, используя специальный шаблон. Также пользователи могут анализировать и обрабатывать информацию непосредственно внутри data lake с применением программного обеспечения: составлять аналитику, структурировать, распределять и пр. Здесь допускается работа и с BI-системами. Они незаменимы в случае, когда требуется решить задачи глубокой аналитики, моделировать прогнозы и предоставлять полученные сведения в наглядной, легко доступной форме.

В случае грамотного применения, озеро данных предоставит возможность бизнес-аналитикам и техпользователям запрашивать небольшие, но гибкие наборы данных, необходимые в конкретный период времени. Это приведет к существенному снижению затрат времени на выполнения запросов. Это особенно актуально в условиях современного бизнеса, когда требуется постоянная интеграция малых данных с большими. Насколько бы надежным и мощным ни было приложение, оно одно не сможет обработать все. Здесь на выручку и приходит озеро данных.

Уникальные особенности data lake поспособствовали тому, что оно стало использоваться во многих направлениях бизнеса, начиная от обычного финансового менеджмента и вплоть до управления рисками.

Аренда выделенного
сервера
Разместим оборудование
в собственном дата-центре
уровня TIER III.
Конфигуратор сервера
Подбор оборудования для решения Ваших задач и экономии бюджета IT

Чем же отличается обычная база данных и озеро данных

Основное отличие data lake от традиционных баз данных – это ее структура. Если в первых сохраняется исключительно строго структурированная информация, то в озеро можно забрасывать все подряд, не тратя время даже на элементарное систематизирование, упорядочение.

В качестве примера. Есть такое описание потенциальных покупателей товаров или услуг: «Домохозяйки 30-50 лет с хорошим уровнем дохода, замужние, с детьми. Одинокие женщины 35+, имеющие определенный статус в обществе. Мужчины 35-60 лет без семьи, без детей, занимающие руководящие должности, со стабильными заработками». Подобное описание с неструктурированной информацией помещается в озере данных.

Но вот если бы его необходимо было загрузить в типичную базу, необходимо было бы составить портреты целевой аудитории, четко структурировав их по следующим критериям:

  • пол;
  • возраст;
  • семейное положение;
  • наличие детей;
  • положение в обществе;
  • уровень доходов.

То есть вся входящая информация должна пройти тщательный анализ, на основании чего будет составлена структура. И только после этого она будет записываться в строго отведенные для каждого запроса ячейки. Здесь можно будет создать алгоритм, работающий с каждой из ячеек, ведь достоверно известно, какая именно информация находится в каждой из них. Все эти работы требуют множество времени. Но при этом никто заранее не знает, будет ли эта информация нужной в будущем. Если она не потребуется, время и усилия на структуризацию будут потрачены зря.

В отличие от традиционной базы, в озеро данных можно забрасывать любую информацию, без малейшей доработки, систематизации. А вот если по ней будет запрос от клиента или она потребуется в работе, ее можно будет извлечь, сделать анализ и структурировать. Но «исходник» так и останется на хранении в базе без измерений. Такое решение очень удобно на практике. В будущем его снова можно будет извлечь и уже структурировать по другим критериям, тем, которые будут актуальны на тот момент времени.

Многие специалисты сравнивают data lake с жестким диском компьютера, в то время как обычная база – это экселевская таблица, где вся эта информация размещена в своей отдельной ячейке. Вот только объемы данных куда более внушительные.

Другие отличия традиционной базы и data lake

bezopasnost-tsod-1.jpgСреди прочих аспектов, отличающих традиционную базу и data lake стоит выделить:

  1. Повышенную гибкость. У классического варианта она минимальная. Еще на этапе структуризации необходимо установить ключевые факторы, учесть типы данных и предусмотреть подходящую структуру для них. И если появится дополнительная информация, ее нельзя будет просто добавить в таблицы. Необходимо будет заново выстраивать структуру. Гибкость озера данных максимальная, что положительно сказывается и на data quality (качестве управления хранилищем). Заранее ничего не нужно определять и продумывать. Если необходимо будет внести дополнения, их надо просто догрузить туда.
  2. Уровень полезности данных. Никто не будет тратить время и силы на то, чтобы загрузить в хранилище информацию, которая в данный момент времени кажется неважной. Ее просто удаляют, выбрасывая из рассмотрения. Все работы ведутся над данными, которые в определенный момент времени действительно важны для бизнеса. Но что будет, если ситуация изменится и информация, которая казалась важной больше будет не нужна, а вот второстепенная, наоборот, потребуется. А ее уже нет, удалили. В «озера» можно загружать любую информацию, даже на тот случай «а вдруг когда-то пригодится». Потребуется всего пара секунд времени.
  3. Типы хранимых данных. В традиционную базу загружают исключительно структурированную информацию. Это таблицы с текстом, цифрами, размещенные согласно спланированной заранее структуре. В data lake можно залить видео, фото, звуковые сообщения, текстовые, графические файлы и любой иной электронный материал.
  4. Доступность данных. Здесь пальма первенства у обычной базы данных. Сведения, которые в ней хранится, прочтет не только узкий специалист, но бизнес-аналитик или любой сотрудник компании. Информация, которая извлекается из озера, разрозненная и сориентироваться в ней невозможно. Она нуждается в структуризации, которую невозможно выполнить без помощи аналитических специалистов, в частности Data Scientist.
  5. Цена вопроса. Базы данных, предназначенные для хранения больших объемов информации, обойдутся дорого. Немалых денег стоит сложный анализ, структуризация, построение многоярусной архитектуры data system. Хранение сведений в озере данных обойдется в разы дешевле. Здесь плата взимается только за место, занимаемое вашей информацией.

Анализируя все это можно утверждать, что традиционная база данных хорошо подходит для сохранения важных сведений, которыми ваш бизнес будет пользоваться регулярно. Тех, что постоянно надо держать быть под рукой. Но вот если ваша цель сохранить данные, которые могут потребоваться в перспективе, если нет желания и времени возиться с их структуризацией, то их лучше «забросить» в data lake.

Озеро данных будет незаменимо в том случае, если необходимо выполнить гибкий анализ информации для разработки будущей стратегии. Благодаря им можно собрать огромное количество сведений. Далее останется только с использованием инструментов машинного обучения сопоставить отдельные данные, создать на их основании гипотезы, бизнес-прогнозы. Они позволяют выполнять объемные исследования, получая максимально точную, детализированную картину, которая пригодиться в работе бизнес-аналитиков и даст реальные результаты.

Преимущества и риски применения озера данных

iaas-1.jpgЕсли говорить о преимуществах, то у озера данных их достаточно много:

  • полностью справляется с передовой аналитикой и так называемой «ионизацией» продукта;
  • обеспечивает экономичное хранение данных;
  • при долгосрочном использовании стоимость существенно снижается;
  • оказывает мгновенную реакцию на изменения;
  • отличается высокой гибкостью в комплексе с экономичной масштабируемостью;
  • можно хранить контент из различных источников;
  • получить доступ к озеру могут пользователи с любого уголка планеты.

Но, несмотря на ряд весомых преимуществ, существуют и риски. В частности, нельзя быть уверенным в достоверности результатов анализа от сторонних аналитиков: нет данных о том, откуда были взяты исходные сведения. К недостаткам озера данных также можно отнести сомнительное информации сведений. Никто не ведет контроль при их заливке, что позволило удешевить их хранение. Ввиду этого существует риск превратить озеро Data Lake в «болото».

Минимизировать недостатки и обеспечить надежную сохранность данных позволит отладка процесса управления ими – data governance. Эта стратегия позволит устанавливать качество сведений еще до их заливки. Она будет отбрасывать исходники с заведомо ложными или недостоверными сведениями. Обеспечит расстановку прав доступа для указанных категорий сотрудников, сможет проверять конкретные параметры поступающей информации.

С целью повышения эффективности озера данных рекомендуется:

  • совместить его с иными компонентами инфраструктуры компании: базами данных, облачными сервисами, интернетом вещей и пр.;
  • не засорять data lake: в большей части случаев проще организовать несколько отдельных хранилищ под каждую категорию, чем забрасывать все в одну большую базу;
  • проверять качество метаданных и происхождение сведений, что позволит поддерживать достаточное доверие к ним;
  • создайте в своей компании команду из data инженеров, аналитиков и разработчиков, обеспечив им доступ к базе и инструментам: исключается работа с информацией некомпетентных сотрудников;
  • предотвратите утечки или потерю сведений путем правильной организации безопасности: грамотное управление контролем доступа, защищенный периметр, восстановление, резервное хранение и пр.

Все это обеспечит стабильность, надежность функционирования озера данных, простоту его использования и не позволит превратить его в болото.

Подводим итоги

Год назад, прогнозы по темпу роста рынка озер были на уровне 28,3%, но на сегодня этот показатель превысил 30%. И подобная тенденция не планирует идти на спад. За этот же период рост прибыли у компаний, применяющих его, повысился примерно на 10%. Data lake обеспечивает прием, хранение, качество, аудит, исследование и обнаружение данных. Именно эти компоненты стали основой его архитектуры. Наибольшая его эффективность отмечается при использовании масштабными ретейлерами, интернет-магазинами, телекомами, производственными корпорациями, банковскими структурами.

Но, несмотря на универсальность и высокую пользу для любого бизнеса, организация озера данных – сложный процесс, требующий компетентного подхода. Необходимо исходить из того, что доступно, а не того, что требуется. Изначально следует оценить перспективы, учесть затраты на реализацию. Это очень сложно сделать, не обладая достаточными знаниями и практическими навыками. Нужна помощь, обращайтесь в компанию «Xelent». Все вопросы об условиях сотрудничества и дополнительную информацию о data lake можно узнать у менеджеров компании, связавшись с ними по телефону или через форму обратной связи.

Популярные услуги
Получить консультацию специалиста
Персональный ассистент
Cloud.Xelent