Введение в Big Data

28 Июня 2021

Big Data или большие данные – это набор структурированной или неструктурированной информации огромных размеров. Он настолько большой, что ни одна классическая технология, решения из области бизнес-аналитики или систем управления базами данных не могут применяться к нему. Термин Big Data был введен в использование в 2008 году редактором журнала Nature Клиффордом Линчем. Он применил его в спецвыпуске, относящемся к резкому росту мировых объемов информации. Да, такие данные существовали и ранее, но именно с этого времени к ним стали применять термин Big Data. Так какую информацию стоит относить к этой категории, какие термины надо знать, чтобы начать работу с большими данными?

Какие данные можно относить к Big Data?

big-data-1.pngМного – это сколько? Вопрос неоднозначный и у каждого на это найдется ответ. Экселевская таблица на 500 тысяч строк – это много? Скорее всего, да. А если их количество увеличить до миллиарда? То уже 500 тысяч вроде, как и не сильно много. Видеофайл на 2 Мб – много ли? А каким будет ответ, если он будет занимать 10 Мб? И такие примеры можно приводить до бесконечности долго. Интуитивно понимаешь, что большие данные – это информация, занимающая много места, которую невозможно держать в голове. Специалисты же относят сюда потоки информации размером от 10 Гб за 1 день. Но и первое, и второе мнение не совсем корректное.

Чтобы понять, что это такое Big Data, следует четко ориентироваться в том, какие же файлы можно относить к данной категории. И здесь следует ориентироваться на три ключевых критерия:

  1. Большие данные – исключительно цифровые. Книги, хранящиеся в национальной библиотеке, несмотря на невероятно большой объем информации – это не Big Data. То же самое относится и к 10-летним бумажных архивам компании, вне зависимости от их количества. То есть большие данные – это все то, что представлено в цифровом виде и хранится на сервере.
  2. Big Data – сведения, которые поступают регулярно и быстро накапливаются. Если в базе данных вашей компании уже есть сотни тысяч обработанных заказов – это много. Но если в среднем в день их добавляется по паре десятков, то это уже не большие данные. То же самое и фильм в сверхвысоком качестве. Он может занимать 10-20 гигабайт, но он таким и останется, не будет увеличиваться в объеме. То есть это тоже не Big Data. А вот показатели, которые снимаются с сенсоров авиационных двигателей, которые во время полета передаются серверу производителя самолета в размерах по 3-8 Гб за час – это уже и есть большие данные.
  3. Разнородность и невысокая структурированность. Если в интернет-магазине все заказы строго упорядочены, их можно использовать для получения информации (количество лидов, перешедших в покупатели, средний чек покупки, количество заказов за неделю и пр.), то это уже не Big Data. А как быть с показаниями датчиков температуры с корпуса самолета за несколько месяцев? Сама эта информация мало кому будет интересна и полезна. Но вот есть на ее основании определить количество часов в воздухе, общую дальность перелетов, скорость набора высоты, то да, она уже будет полезной. Но при этом она еще и большая по объему, то есть это уже Big Data.

Некоторые специалисты к данной категории относят и структурированные, постоянно пополняющиеся данные. Особенно это относится к информации, которая применяется для определения неявных закономерностей или в машинном вычислении. То есть, если к структурированным сведениям можно применять методы анализа Big Data, то это уже большие объемы данных.

Однозначного ответа на вопрос о том, каким же должен быть размер Биг Даты не существует. Сюда относят всю цифровую информацию большого объема, интенсивно накапливающуюся со временем и поддающуюся сложному анализу. Но также важно понимать, что это еще не только объем, но и сам принцип работы. Даже маленькая клиентская база с однородной информацией также может быть большими данными.

В чем назначение big data?

big-data-2.pngРабота с данными в каждом IT-проекте начинается с анализа очевидных, понятных и значимых характеристики. Если в качестве примера рассмотреть работу интернет-магазина, то это средний чек покупки, объемы запаса товара на складе, топ продаж. Возвращаясь к теме самолетов, скажем, что здесь анализируют скорость перемещения, высоту и дальность полета, средний расход топлива.

Собирая и анализируя очевидные показатели, разработчик сможет вносить в сервис корректировки, которые практически сразу дадут достойный вариант. В IT-среде данные работы называют «сбор фруктов с нижних веток дерева». Как только система начинает расширяться, в ней становятся очевидными слабые звенья. Они обязательно прорабатываются и блокируются. Постепенно, перемещаясь с нижних веток дерева к верхушке, необходимо исследовать новые пути развития. На этом этапе предполагается сбор и анализ уже не прямых, а косвенных сведений, не имеющих прямой связи с основными характеристиками.

В интернет-магазине может выполняться анализ определенных слов клиентов в соцсетях, что позволит оценить их лояльность. Также можно оценить перемещение курсора (пальца) по экрану, что укажет на товары, которыми больше всего интересовались покупатели. По самолету можно получить данные о числе оборотов двигателя, температуре выхлопа и за бортом, составе топливной смеси и пр.

То есть технология Big Data преимущественно нужна в случае выполнения глубокого и разностороннего анализа. Получаемые метрики могут не иметь прямой связи с основными показателями, но будут подсказать множество способов оптимизации, дадут более полную и наглядную картину. Разработчики прорабатывают все возможные направления, используют разные стратегии, ищут и извлекают скрытые ресурсы. Большая часть полученных данных после обработки окажется ненужной и не будет использоваться, но вот некоторые «находки» окажутся весьма полезным инструментом.

Большие данные позволяют решить 4 важные задачи:

  1. Анализ текущего состояния дел и оптимизация рабочих процессов. Big Data позволяет определить группу товаров, наиболее интересных покупателям, установить, насколько правильно выстроен процесс продаж, как идут поставки. На основании полученной информации выполняется построение диаграмм, графиков, составление отчетов, что позволяет выявить определенные закономерности. Так, благодаря применению больших данных, Intel узнала, что львиная дома тестов, которая выполнялась в процессе производства процессоров была лишней. В результате компании удалось сэкономить более 30 млрд. долл.
  2. Прогнозирование. Обладая достаточным набором информации о прошедшей деятельности, можно будет предположить, каким будет состояние дел в будущем. Так можно спрогнозировать уровень продаж в будущем году, предположить поломку техники (если уже были преценденты), предприняв соответствующие меры для ее предотвращения. Чем большим объемом информации вы будете обладать, тем более точным окажется прогноз. Так, компания ПЭК внедрила Big Data в свой логистический центр и стала прогнозировать загрузку складов. Это позволило оптимизировать маршруты грузоперевозок, равномерно распределить пополнение складских помещений, исключить простои транспорта.
  3. Построение моделей. Еще до того, как запускать проект, можно создать его компьютерную модель. С ней можно будет выполнять разные эксперименты, позволяющие выстроить реально работающую бизнес-модель, которую можно будет применить на практике. Big Data позволит отслеживать всевозможные показатели, ускорять или наоборот, замедлять рабочие процессы с целью их комплексного анализа. На практике такую возможность больших данных применила компания «Газпром». Они построили компьютерную модель аварийного отключения подачи электроэнергии. Это позволило установить причину проблем при автоматическом перезапуске оборудования. Устранив ее на практике, специалисты предотвратили неоднократно повторяющийся сбой в работе.
  4. Автоматизация рутинных процессов. Большая часть рутинных задач, таких как общение в чатах, сортировка документов, подсчет числа заказов выполняется программами автоматически. Они могут использовать как примитивные алгоритмы, так и сложные программы, основанные на искусственном интеллекте, например нейросети, голосовые помощники. Такие возможности Big Data использовала в работе корпорация Stafory. При разработке робота-рекрутера автоматизировались такие опции, как сортировка резюме, распознавание голоса, проведение первичного собеседования (задает вопросы, принимает ответы). Благодаря этому большая часть претендентов на вакансию отсеивалась, а с оставшимися уже работали люди, проводя реальные собеседования, принимая окончательные решения по отбору кандидатов.

Такие возможности Big Data позволяют использовать технологию в различных областях. Так, компании, поставляющие медицинские услуги при помощи анализа больших данных могут следить и оптимизировать поток пациентов, систематизировать карточки, определять, насколько загруженным будет диагностическое оборудование, как расходуются лекарственные препараты и пр. В туристической отрасли работа с Big Data позволяет выполнять обработку покупок по разным каналам, определять потребительские предпочтения, пожелания, оптимизировать конверсии путем корреляции текущих продаж и просмотров. Благодаря большим данным игровая индустрия узнает о симпатиях и антипатиях целевой аудитории, определяя, какой продукт стоит развивать, а какой убрать из разработки вовсе.

Термины, которые стоит знать всем, кто планирует работу с Big Data

big-data-3.pngПервый этап обучения работе с большими данными – знакомство с терминами:

  • Облачные вычисления. Это модель вычислений из сети, обеспечивающая пользователю доступ к вычислительным ресурсам: прикладному обеспечению, серверам для хранения данных, центрам обработки данных и пр.
  • Аналитика прогноза. Основываясь на данных, полученных из проверенного источника, технология сможет спрогнозировать будущее поведение целевой аудитории. В качестве входных данных используются характеристики индивида. И чем большим будет объем имеющейся информации, тем более точным окажется прогноз.
  • Аналитика описаний. Делает обобщение всей информации, предоставляя общую картину без детализации.
  • База данных. Механизм хранения сведений, обеспечивающий их удобную обработку и последующее использование.
  • Хранилище данных. Это особая архитектура построения, позволяющая с удобством систематизировать, извлекать и использовать данные, которые помогут в принятии стратегических решений.
  • Бизнес-аналитика. Набор инструментов, концепций и технологий, направленных на обеспечение комплексной поддержки бизнеса. Предоставляет информацию и прошлых и текущих сделках, позволяет делать прогнозы. Может включать в себя такие инструменты, как бенчмаркинг, конкурентная разведка, отчетность и пр.
  • Интернет вещей. Постоянно растущий источник больших данных. Осуществляет интернет-связь между датчиками, контролерами и физическими объектами.
  • Машинное обучение. Применяется для прогностического анализа и распознавания образов в Big Data. Использует методики из сферы компьютерных наук, статистики, искусственного интеллекта.
  • Интеллектуальный анализ данных. Предполагает использование машинного обучения в качестве инструмента для интеллектуального извлечения потенциально важных сведений, содержащихся в наборах данных.
  • Apache Hadoop. Программный каркас с открытым кодом доступа, предназначенный для работ в кластерной среде (обрабатывает большие объемы данных). Основан на простой модели программирования, позволяет выполнять надежные, распределенные и масштабируемые вычисления.
  • Apache Spark. Один из самых мощных процессорных движков с открытым кодом. Способен быстро и легко выполнять сложную аналитику при работе с API-интерфейсами на Java, SQL, Python, Scala, R. Работает в интерактивном режиме, подходит для создания библиотек приложений.

Подводя итоги, стоит сказать, что применение Big Data в бизнесе упрощает планирование, ускоряет запуск новых проектов, позволяет оценивать степень удовлетворения потребителей, делать прогнозы, оптимизировать поставки. Все это положительным образом скажется на лояльности со стороны клиентов, улучшит качество сервиса, оперативность взаимодействия.

Получить более подробную консультацию о технологии Big Data, а также готовые, проверенные решения для определенного бизнеса можно в компании «Xelent». Связаться со специалистами можно через форму обратной связи или по телефону.

Популярные услуги
Получить консультацию специалиста
Персональный ассистент
Cloud.Xelent