65.9K
CodeProject 正在变化。 阅读更多。
Home

阿里云MaxCompute vs. AWS Redshift vs. Azure SQL Data Warehouse

emptyStarIconemptyStarIconemptyStarIconemptyStarIconemptyStarIcon

0/5 (0投票)

2018 年 1 月 3 日

CPOL

5分钟阅读

viewsIcon

6210

本文解释了如何在云中使用数据仓库,并比较了各大公有云平台上流行的选项。

阿里云提供一整套全面的全球云计算服务,助力您的业务发展。 立即创建账户,即可获得300美元的新用户免费信用额度


数据是数字世界的货币。您的组织如何存储、组织、分析和使用其内部数据,将在很大程度上决定其成功程度。企业处理大量数据,通常达到 PB 级,并希望从中提取最大价值。

云计算在这方面改变了游戏规则。曾经成本高昂的传统服务器,现在通过云计算供应商提供的经济高效且强大的解决方案变得更加易于获得。

例如:完全托管在云中的数据仓库解决方案。得益于基于云的数据湖,几年前还不可能实现的事情,现在由于数据存储磁盘成本的下降和更强大的计算实例而成为可能。本文解释了如何在云中使用数据仓库,并比较了各大公有云平台上流行的选项。

数据仓库基础知识

数据仓库是您组织内多个应用程序使用的集中式数据存储。如果您需要分析少量数据(几 GB 大小),数据仓库对您来说过于复杂。只有当数据量扩展到数百 GB 时,数据仓库才有意义。届时,您将无法以过去的速度和敏捷性进行操作,这时您就需要数据仓库。

关于数据仓库需要知道的第一件事是,它的架构与小型数据库基础设施不同。数据仓库不是由受限于硬件服务器的数据库组成,而是由多个服务器协同工作作为一个整体。

阿里云MaxCompute

阿里云的MaxCompute是一个大型数据分析平台,专为运行大数据工作负载而设计。它源自阿里巴巴,是阿里巴巴在 Oracle 服务器无法再处理其不断增长的数据时,出于必要而构建的。它在阿里巴巴内部经过实战检验,曾运行过一个由 10,000 个服务器节点组成的集群。每天,阿里巴巴的 14,000 名开发人员在其上运行三百万个作业,并且它存储了阿里巴巴 99% 的数据。它是第一个扩展到 100 TB 数据并达到 7,000 BigBench 查询/分钟 (BBQpm) 的数据库服务。

MaxCompute 通过多种选项简化数据迁移。您可以使用阿里云自己的工具,如MaxCompute 客户端DataWorks,甚至像 Flume、Logstash 或 Fluentd 这样流行的外部工具。上传的数据存储在 SQL 数据库中,并且可以轻松扩展到 PB 级。

MaxCompute 的最新版本支持 SQL 2.0,并且有趣的是,它允许查询非结构化数据,如图像和视频内容。尽管数据量很大,并且其中一些是非结构化的,但 MaxCompute 特别适合实时分析。最棒的是,它非常易于使用和维护。MaxCompute 通过独特的聚类、索引和 JOIN 优化流程,解决了管理分布式数据存储的复杂性,这些都有助于大规模数据的存储和检索。

随着最近在美国推出,MaxCompute 已准备好改变全球大数据处理方式。凭借具有竞争力的价格,它已准备好应对来自另外两大云供应商——AWS 和 Azure 的类似服务。

AWS Redshift

AWS Redshift是 AWS 早期推出的服务之一。与 MaxCompute 类似,它以 PB 级规模存储和分析数据。您可以使用许多 AWS 服务将数据加载到 Redshift 中,例如 S3、DynamoDB 或 EC2 上的 SSH 启用主机。它利用 AWS IAM 进行安全和访问权限管理。此外,您可以使用 KMS 对数据进行加密,无论是服务器端还是在 AWS 云中。

该服务的一个独特功能是Redshift Spectrum,它允许您查询已存在于 AWS S3 中的数据。这意味着您无需将数据加载到 Redshift 或转换数据。相反,您可以直接开始查询数据。但是,如果您宁愿将数据保留在 Redshift 中并且数据量很大,那么AWS Glue是一个 ETL 服务,可以轻松加载数据。

AWS 最近宣布了新的 DC2 节点,它们以相同的成本取代了 DC1 节点。它们基于英特尔的 Broadwell 芯片,提供比前代 DC1 节点两倍的性能,存储利用率提高 30%。

AWS Redshift 提供了多种使用选项,是云数据仓库的吸引人选择。

Azure SQL Data Warehouse

Azure SQL 数据仓库是微软的大数据分析解决方案。鉴于微软在财富 500 强企业中的庞大客户群,许多客户会对此服务感兴趣。Azure 提供该服务的两种版本——一种针对弹性优化,另一种针对计算优化。您可以将工作负载分离到这两个层,这使其成为一个有趣的选择。您可以使用数据仓库单位 (DWU) 来分配或衡量使用量。有两种类型的 DWU——常规 DWU 和针对计算优化的 cDWU。Azure 为每个数据库提供一个服务级别,该级别以数据库事务单位 (DTU) 的形式进行衡量。

Azure 有一个名为PolyBase的工具,该工具用于查询外部数据,而无需用户了解 Hadoop。PolyBase 允许您将数据导入和导出到 Hadoop、Azure Blob Storage 或 Azure Data Lake Store,或者在不将数据移入和移出 SQL 数据仓库的情况下查询数据。SQL 数据仓库也很好地集成了 PowerShell,这允许您使用脚本来自动化常见任务。

结论

总而言之,此处提到的所有三个数据仓库服务都是强大的工具,它们采用不同的方法来解决同一个挑战——实时分析大数据。如果您有更广泛的需求,需要选择 Redshift 或 SQL Data Warehouse,那么您处于一个不错的境地。但是,如果您想尝试一个强大且经济高效的新选择,那么 MaxCompute 是最佳选择。阿里云为新用户提供300 美元的信用额度,让您在全面投入之前轻松了解该平台的产品。尝试 MaxCompute,开始实时释放所有数据的价值。

© . All rights reserved.