В начале 2015 года, когда Microsoft выпустил свое решение Azure Data Lake, стало ясно, что компания серьезно относится к большим данным. Сейчас Microsoft сделала очередной шаг в этом направлении, предложив новые средства, которые желают обработку и аналитику больших данных проще и доступнее.
Во-первых, то решение, которое изначально называлось Azure Lake Data, теперь переименовано в Azure Lake Data Store, чтобы подчеркнуть его направленность на хранение данных – в нем предлагается возможность хранения данных любого размера и типа, включая неструктурированные, без необходимости вносить изменения в использующие их приложения по мере того, как масштабы данных растут.
Данными из этого хранилища можно делиться, и предоставлять к ним доступ для обработки и аналитики. В том числе, доступ к данным может быть организован и от внешних сенсоров и устройств, работающих в «интернете вещей», в реальном времени. Все это – без каких-либо ограничений на лимит аккаунта или размер файла.
Данное решение будет доступно в тестовом режиме чуть позже в этом году. Оно будет совместимо с распределенной файловой системой Hadoop (HDFS), таким образом инсталляции Hadoop, такие как Hortonworks, MapR или Cloudera могут сразу предоставлять свои данные для обработки и аналитики, заявляют в Microsoft.
Во-вторых, Azure Data Lake Analytics предоставляет новые возможности в части хранения с помощью динамически масштабируемого сервиса, построенным на базе Apache YARN. Это решение также будет доступно в тестовом режиме ближе к концу года.
Новый сервис аналитики включает в себя язык запросов U-SQL, чьи возможности в части масштабируемых и распределенных запросов позволяют эффективно анализировать данных в Azure Data Lake Store, а также на SQL-серверах в Azure, Azure SQL Database и Azure SQL Data Warehouse.
И наконец, Azure HDInsight теперь включен в Azure Data Lake, предлагая полностью управляемый кластер Apache Hadoop с движками аналитики на открытом коде, включая Hive, Spark, HBase и Storm. Управляемые кластера на Linux становятся доступны клиентам уровнем достуности по SLA в 99.9%.
Также появились средства Azure Data Lake Tools for Visual Studio, которые обеспечивают интегрированную среду разработки, которая охватывает Azure Data Lake и ведущие приложения Hadoop от независимых вендоров ПО, обеспечивающие безопасность, управление, обработку и аналитику данных.
По материалам CIO.com