Как управлять проектом категории “большие данные” – часть 3

30 Июня 2014
Если облака для вас
не просто теория
Широкий спектр услуг
по выделенным северам
и мультиклауд-решениям
Конфигурация VPS и бесплатный тест уже через 2 минуты
Организация вашей IT-инфраструктуры на основе мультиклауд-решения
bigdata3.jpgПеревод интервью с Джеймсом Кобилусом, Старшим директором программ в IBM, автор – Роберто Зикари.

Опубликовано на сайте ODBMS.ORG

Вопрос: Какого рода экспертиза нужна, чтобы успешно управлять проектом с «большими данными» на предприятии?

Джеймс Кобилус: Организации, чей бизнес движется за счет данных, добиваются успеха, когда весь их персонал, и технический, и управленческий, обладает общим пониманием ключевых навыков, средств и практик из категории «больших данных». Вам нужны все навыки управления данными, интеграции, моделирования, и т.д. которые нужны для управления хранилищами данных, OLAP-кубами, и тому подобным.

Не менее важно то, что вам нужна команда научных специалистов в области данных, которые могут разработать и настроить ядро интеллектуальной собственности проекта – статистически, предиктивные, и другие аналитические модели, который будут использоваться в ваших приложениях. Обычно вы не думаете о подобных специалистах как о «программистах», но они являются тем не менее, ключевыми разработчиками в век «больших данных».

Ключевое практическое различие между научными специалистами в области данных и программистами заключается в том, что первые определяют логику действий, основанную на не-детерминистических принципах, т.е. статистические модели, которые предсказывают будущее поведение по историческим данным, в то время, как последние задают логику, которая предопределена (операторами если/то/иначе, и другими подобными). Различие всегда было не очень четкое.

Специалисты в области данных отличаются от других типов программистов в том числе и следующим:

  • Специалисты по данным активно используют специфичные для своей области языки, такие как R, SAS, SPSS и Matlab;
  • Специалисты по данным специализируются на проблемах бизнеса, которые лучше всего решаются статистическим анализом; 
  • Специалисты по данным больше связаны с приложениями для бизнеса, таких как оптимизация маркетинговых кампаний или снижение финансового риска, чем обычные программисты

Вопрос: Как подобрать «правильное» программное обеспечение и оборудование для проекта с «большими данными»

Джеймс Кобилус: Лучше всего – выбрать правильное устройство – пре-оптимизированное и сконфигурированное программно-аппаратное устройство для конкретных задач и приложений в вашем проекте. В то же время, нужно убедиться, что все выбранные устройства смогут в итоге создать совместно облачную архитектуру, к которой скорее всего придет ваш проект с «большими данными».

Устройства, про которые я говорю, их еще называют интегрированными системами экспертного уровня, оптимизированы к определенной загрузке. Это программно-аппаратные узлы, которые являются «кирпичами» для каждого облака «больших данных».

В ближайшие 2-3 года интегрированные системы экспертного уровня станут доминировать в среде предприятий, которые собираются запустить Hadoop и другие развивающиеся технологии «больших данных». Уже сейчас такие устройства активно развиваются на ключевом рынке платформ «больших данных» - систем хранилищ данных уровня предприятия, которые применяют параллельную обработку.

Ключевые категории задач, которые должны поддержать устройства для «больших данных» в облачной среде, следующие:

  • Хранение «больших данных»: архивирование, управление, репликация, и так далее. Устройство должно обеспечить модульность, масштабирование, эффективность на высокотребовательных приложениях.
  • Обработка «больших данных»: устройство должно поддержать параллельное выполнение функций обработки данных, преобразования, анализа и доступа. А также – полный набор продвинутой аналитики, обычно ассоциирующийся с Business Intelligence и OLAP. Метадата, модели, и другие сервисы, необходимые для этого.
  • Разработка в среде «больших данных»: устройство должно поддержать моделирование, датамайнинг и анализ. Устройство должно обеспечить масштабируемую «песочницу» со средствами, которые позволяют интерактивно и совместно исследовать большие наборы данных.
  • Устройство для «больших данных» должно быть не отдельным сервером, а повторяемым модульным блоком, который, будучи запущенным в конфигурации облака, может быть быстро оптимизирован под новую нагрузку.

Возможно, вы не сможете предсказать с большой точностью, какой набор задач вы будете решать в течение следующих двух лет. Но инвестируя в правильное семейство устройств для «больших данных» даст вам уверенность, что когда придет тот самый день, у вас будет возможность быстро и эффективно поддержать новые задачи ресурсами.

Вопрос: Стал ли Hadoop заменой OLAP (online analytic processing) в том, что подготавливает данные в ответ на определенный вопрос со стороны бизнеса?

Джеймс Кобилус: Нет, Hadoop осуществляет неструктурированную выдачу, архивирование с возможностью запросов к данным, «песочницу» и применяется еще в нескольких случаях. OLAP в смысле традиционных «кубов» - остается ключевым средством ускорения запросов фронт-енда в приложениях поддержки решений и хранилищ данных. OLAP конкурирует с другими подходами – в частности с базами данных «в памяти» и столбцовыми базами данных.

Вопрос: можете показать какие-то примеры проектов с «большими данными»?

Ответ: Вот по этой ссылке – находятся примеры.

ПОНРАВИЛАСЬ СТАТЬЯ? ВОЗНИКЛИ ВОПРОСЫ?
ХОТИТЕ ПОНЯТЬ ЧЕМ МЫ МОЖЕМ БЫТЬ ВАМ ПОЛЕЗНЫ?