65.9K
CodeProject 正在变化。 阅读更多。
Home

使用 Azure Synapse Analytics 进行无缝流式分析(第 1 部分):概述

starIconstarIconstarIconstarIcon
emptyStarIcon
starIcon

4.67/5 (4投票s)

2021 年 6 月 24 日

CPOL

7分钟阅读

viewsIcon

4780

在本系列的第一篇文章中,我们将对 Azure Synapse Analytics 有一个基本的了解,并通过创建一个工作区来迈出使用该服务的第一步。

在当今的商业环境中,企业需要利用数据的力量进行分析和洞察。数据可以展示市场趋势和模式,有助于商业效率和创新进入一个新时代。精通数据的企业在市场竞争中获得竞争优势。

大数据及其挑战——例如数据量、多样性、速度和真实性——意味着不再可能在没有帮助的情况下处理这些数据。软件提供商提出了解决方案来摄取、准备、管理和分析这些海量数据。但是,这些独立设计的系统之间缺乏协调。

为了使这些系统有效,分析必须独立于规模和数据类型(非结构化、半结构化或结构化)而工作。数据管道必须将数据仓库技术与关系数据库和数据湖中的数据连接起来。

事后查询大规模数据也具有挑战性。当我们需要在收到新数据时立即更新分析数据时,情况会变得更加复杂。

流式传输分析有助于解决此挑战。微软推出了 Azure Synapse Analytics,以帮助组织充分利用其大数据。Azure Synapse Analytics 是一种集成的分析服务,它结合了数据湖、企业数据仓库和大数据分析的强大功能。它提供统一的体验来摄取、准备、管理和提供数据,以实现即时和增强的机器学习和商业智能功能。

本系列文章将讨论 Azure Synapse Analytics 并演示如何实现流式传输分析管道。我们将从一个全面而直接的介绍开始。然后,我们将逐步审查在 Azure Synapse Analytics 中借助 Spark 流式传输构建端到端流式传输分析解决方案的说明。为了演示 Azure Synapse Analytics 的功能,我们将分析纽约出租车数据,包括行程持续时间和成本。

首先,让我们探索 Azure Synapse Analytics 及其组件,并学习如何设置它。

什么是 Azure Synapse Analytics?

如前所述,Azure Synapse Analytics 是一种集成的分析服务,用于在一个地方处理、管理、监控、提供和保护数据。它使我们能够自由地按照自己的条件查询数据。它还支持企业范围的描述性、诊断性、预测性和规范性分析。

Azure Synapse Analytics 是重新品牌化的 Azure SQL 数据仓库 (SQL DW),具有改进的性能和功能。微软设计此分析服务是为了支持不断增长的 DevOps 生态系统。

为了更好地理解此服务,让我们简要讨论它的一些主要功能。

Azure Synapse Studio

Azure Synapse Studio 是一套基于 Web 的工具,使开发人员能够从一个中心处理 Azure Synapse Analytics 的所有方面。此软件即服务 (SaaS) 解决方案提供调试、优化以及持续集成和持续部署 (CI/CD) 集成等功能。它还有助于分析解决方案的生命周期管理、创建工作区、数据摄取、分析等。我们将在本系列的后续部分使用 Synapse Studio。

数据探索

Synapse Studio 使我们能够处理 Azure Synapse Analytics 的所有方面,包括数据探索。我们可以轻松浏览和探索 SQL 和 Spark 表以及数据湖中的数据,而无需了解底层架构。

数据集成

Azure Synapse Analytics 的数据集成服务附带一个集成的编排引擎,用于在您的 Azure Synapse 工作区中加载、转换和创建数据管道。我们可以使用 Synapse Studio 中的内置模板来集成来自各种来源的数据。例如,我们可以使用基于 Azure 或跨云、基于文件、开源、NoSQL 或几乎任何其他数据提供程序应用程序或服务。

Synapse SQL 池

Azure Synapse Analytics SQL 池(以前称为 SQL DW)提供预置和无服务器数据仓库功能。使用我们选择的服务(例如 Polybase、Data Factory 等)将数据导入 Azure Synapse Analytics。

Azure Synapse Analytics 将此数据以列式格式存储,并利用其分布式查询功能来实现快速查询和分析。此外,它还内置支持数据流、人工智能 (AI) 和机器学习 (ML)。

我们将在本系列文章的后面讨论如何设置和利用专用 SQL 池。

用于 Azure Synapse Analytics 的 Apache Spark

Azure Synapse Analytics 还提供 Spark 运行时,用于数据加载、处理以及提取、转换和加载 (ETL) 等数据仓库任务。我们无需预置任何额外的或独立的集群,因为它们是 Azure Synapse Analytics 环境的组成部分。

Azure Synapse Analytics 支持多种语言,包括 C#、Python、SQL 和 Scala。其基于 Spark 的处理支持 .NET for Apache Spark、Spark ML (MLlib) 和 Spark Streaming 等功能。

其他 Azure Synapse Analytics 功能

除了上述功能,Azure Synapse Analytics 还支持许多其他分析和安全功能。它涵盖了端到端分析解决方案生命周期中的整个服务、过程和任务范围。

下图总结了 Microsoft 在 Azure Synapse Analytics 保护伞下的各种工具和服务,以帮助我们了解其所有功能。

既然我们了解了 Azure Synapse Analytics 的一些组件和功能,那么让我们来设置该服务。

Azure Synapse Analytics 入门

要开始使用 Azure Synapse Analytics,我们首先创建一个 Azure Synapse 工作区。我们可以从 Azure 门户轻松完成此操作。

首先,您需要一个活动的 Azure 帐户。如果您没有,请立即注册一个 Azure 帐户,即可享受 12 个月的免费热门服务和 200 美元额度,以便在 30 天内充分探索 Azure。

创建 Synapse 工作区

在 Azure 门户中,我们点击创建资源并搜索“Azure Synapse Analytics”。

在 Azure Synapse Analytics 页面上,我们点击创建,然后开始输入我们的基本信息项目详细信息。我们选择要用于创建工作区的订阅。我们可以选择创建一个新的资源组(如上图所示)或管理以前创建的资源组。我们为工作区输入一个名称,从订阅中选择 Data Lake Gen2,选择或创建一个新的存储帐户和文件系统,然后点击下一步:安全

在下一页安全上,我们输入 SQL 管理员凭据。

接下来,我们审查我们的网络设置。

请务必选中允许来自所有 IP 地址的连接。此设置是连接 Azure Synapse Studio 或任何其他客户端工具到工作区终结点所必需的。一旦我们成功预置工作区,我们可以稍后限制并允许或禁止特定的 IP 地址。

接下来,我们可以选择创建标签。然后我们点击审查 + 创建来创建工作区。

工作区部署可能需要几分钟。我们可以在顶部的进度条中监控部署状态——或者给自己倒杯咖啡。

部署完成后,我们打开资源组并点击我们刚刚创建的工作区。在这里,我们可以看到工作区 Web URL、主 ADLS Gen2 存储帐户 URL 和文件系统、专用和无服务器 SQL 终结点以及开发终结点。

我们也可以从这里更改防火墙设置,并允许或禁止任何我们想要的特定 IP 地址。另外请注意,我们可以选择从这里创建专用 SQL 或 Apache Spark 池。

我们也可以从 Synapse Studio 创建池。无需因为 SQL 或 Spark 池是什么、我们为什么需要它们以及如何创建它们而不知所措。我们将在下一篇文章中详细介绍!

后续步骤

我们已经讨论了 Azure Synapse Analytics 服务及其功能。我们还创建了一个 Synapse 工作区,以帮助我们开始使用该服务。

我们尚未讨论 Azure Synapse Analytics 的任何用例。我们将在下一篇文章中讨论如何将 Azure Synapse Analytics 用于全面的流式传输分析解决方案。接下来,我们将探索如何创建专用 SQL 池,然后我们将创建数据流并探索一些纽约出租车数据。

继续阅读本系列的下一篇文章,或注册查看 Azure Synapse Analytics 的动手培训系列。

© . All rights reserved.