Объемы данных с каждым годом увеличиваются в ускоренными темпами. Значительно повысилось число потоковых данных, а неструктурированные все больше затмевают своих структурированных аналогов. В итоге бизнесу, работающему с масштабными базами, приходится обрабатывать информацию перед загрузкой, что требует много времени и усилий. Но все равно в итоге часть сведений теряется, но или могли бы оказаться полезными в будущем. И решить эту проблему призван инновационный продукт – data lake, то есть озеро данных. Что это такое? Насколько эффективно? В чем отличия от классических хранилищ данных?
Озеро данных – это большое по объему хранилище, где все данные сохраняются в их оригинальном, необработанном и неупорядоченном виде. При необходимости пользователь «выудит» их и уже затем приступит к обработке. Чтобы получить доступ к ним, пользователю следует знать:
Реализовать все это в классическом хранилище данных невозможно либо время выполнения этих работ будет очень длительным. А в современном бизнесе, с его чрезвычайно активным рынком и постоянно меняющимися условиями это недопустимо.
Более простым языком отвечая на вопрос, что это, data lake можно сказать, что это хранилище для видео, журналов, книг, PDF-файлов, вордовских документов, фотоальбомов, аудиозаписей и любых других данных, не имеющих структуры. И не важно, в какого они объема и формата. Не важно и то, с какого источника идут: CRM- или ERP-систем, софтов финучреждений, умных гаджетов, датчиков, каталогов товаров или других систем, которые использует компания.
Извлекать информацию можно в традиционную базу данных, используя специальный шаблон. Также пользователи могут анализировать и обрабатывать информацию непосредственно внутри data lake с применением программного обеспечения: составлять аналитику, структурировать, распределять и пр. Здесь допускается работа и с BI-системами. Они незаменимы в случае, когда требуется решить задачи глубокой аналитики, моделировать прогнозы и предоставлять полученные сведения в наглядной, легко доступной форме.
В случае грамотного применения, озеро данных предоставит возможность бизнес-аналитикам и техпользователям запрашивать небольшие, но гибкие наборы данных, необходимые в конкретный период времени. Это приведет к существенному снижению затрат времени на выполнения запросов. Это особенно актуально в условиях современного бизнеса, когда требуется постоянная интеграция малых данных с большими. Насколько бы надежным и мощным ни было приложение, оно одно не сможет обработать все. Здесь на выручку и приходит озеро данных.
Уникальные особенности data lake поспособствовали тому, что оно стало использоваться во многих направлениях бизнеса, начиная от обычного финансового менеджмента и вплоть до управления рисками.
Основное отличие data lake от традиционных баз данных – это ее структура. Если в первых сохраняется исключительно строго структурированная информация, то в озеро можно забрасывать все подряд, не тратя время даже на элементарное систематизирование, упорядочение.
В качестве примера. Есть такое описание потенциальных покупателей товаров или услуг: «Домохозяйки 30-50 лет с хорошим уровнем дохода, замужние, с детьми. Одинокие женщины 35+, имеющие определенный статус в обществе. Мужчины 35-60 лет без семьи, без детей, занимающие руководящие должности, со стабильными заработками». Подобное описание с неструктурированной информацией помещается в озере данных.
Но вот если бы его необходимо было загрузить в типичную базу, необходимо было бы составить портреты целевой аудитории, четко структурировав их по следующим критериям:
То есть вся входящая информация должна пройти тщательный анализ, на основании чего будет составлена структура. И только после этого она будет записываться в строго отведенные для каждого запроса ячейки. Здесь можно будет создать алгоритм, работающий с каждой из ячеек, ведь достоверно известно, какая именно информация находится в каждой из них. Все эти работы требуют множество времени. Но при этом никто заранее не знает, будет ли эта информация нужной в будущем. Если она не потребуется, время и усилия на структуризацию будут потрачены зря.
В отличие от традиционной базы, в озеро данных можно забрасывать любую информацию, без малейшей доработки, систематизации. А вот если по ней будет запрос от клиента или она потребуется в работе, ее можно будет извлечь, сделать анализ и структурировать. Но «исходник» так и останется на хранении в базе без измерений. Такое решение очень удобно на практике. В будущем его снова можно будет извлечь и уже структурировать по другим критериям, тем, которые будут актуальны на тот момент времени.
Многие специалисты сравнивают data lake с жестким диском компьютера, в то время как обычная база – это экселевская таблица, где вся эта информация размещена в своей отдельной ячейке. Вот только объемы данных куда более внушительные.
Среди прочих аспектов, отличающих традиционную базу и data lake стоит выделить:
Анализируя все это можно утверждать, что традиционная база данных хорошо подходит для сохранения важных сведений, которыми ваш бизнес будет пользоваться регулярно. Тех, что постоянно надо держать быть под рукой. Но вот если ваша цель сохранить данные, которые могут потребоваться в перспективе, если нет желания и времени возиться с их структуризацией, то их лучше «забросить» в data lake.
Озеро данных будет незаменимо в том случае, если необходимо выполнить гибкий анализ информации для разработки будущей стратегии. Благодаря им можно собрать огромное количество сведений. Далее останется только с использованием инструментов машинного обучения сопоставить отдельные данные, создать на их основании гипотезы, бизнес-прогнозы. Они позволяют выполнять объемные исследования, получая максимально точную, детализированную картину, которая пригодиться в работе бизнес-аналитиков и даст реальные результаты.
Если говорить о преимуществах, то у озера данных их достаточно много:
Но, несмотря на ряд весомых преимуществ, существуют и риски. В частности, нельзя быть уверенным в достоверности результатов анализа от сторонних аналитиков: нет данных о том, откуда были взяты исходные сведения. К недостаткам озера данных также можно отнести сомнительное информации сведений. Никто не ведет контроль при их заливке, что позволило удешевить их хранение. Ввиду этого существует риск превратить озеро Data Lake в «болото».
Минимизировать недостатки и обеспечить надежную сохранность данных позволит отладка процесса управления ими – data governance. Эта стратегия позволит устанавливать качество сведений еще до их заливки. Она будет отбрасывать исходники с заведомо ложными или недостоверными сведениями. Обеспечит расстановку прав доступа для указанных категорий сотрудников, сможет проверять конкретные параметры поступающей информации.
С целью повышения эффективности озера данных рекомендуется:
Все это обеспечит стабильность, надежность функционирования озера данных, простоту его использования и не позволит превратить его в болото.
Год назад, прогнозы по темпу роста рынка озер были на уровне 28,3%, но на сегодня этот показатель превысил 30%. И подобная тенденция не планирует идти на спад. За этот же период рост прибыли у компаний, применяющих его, повысился примерно на 10%. Data lake обеспечивает прием, хранение, качество, аудит, исследование и обнаружение данных. Именно эти компоненты стали основой его архитектуры. Наибольшая его эффективность отмечается при использовании масштабными ретейлерами, интернет-магазинами, телекомами, производственными корпорациями, банковскими структурами.
Но, несмотря на универсальность и высокую пользу для любого бизнеса, организация озера данных – сложный процесс, требующий компетентного подхода. Необходимо исходить из того, что доступно, а не того, что требуется. Изначально следует оценить перспективы, учесть затраты на реализацию. Это очень сложно сделать, не обладая достаточными знаниями и практическими навыками. Нужна помощь, обращайтесь в компанию «Xelent». Все вопросы об условиях сотрудничества и дополнительную информацию о data lake можно узнать у менеджеров компании, связавшись с ними по телефону или через форму обратной связи.