65.9K
CodeProject 正在变化。 阅读更多。
Home

Azure Synapse Analytics 简介(第三部分):数据科学与商业智能

2021 年 7 月 2 日

CPOL

8分钟阅读

viewsIcon

4357

在本文中,我们将探讨数据科学和商业智能团队如何利用 Azure Synapse Analytics 数据来深入了解业务流程。

正如我们在本系列第一篇文章中讨论的,Azure Synapse Analytics 使我们能够构建一个完整的数据分析解决方案,从原始数据到数据可视化,所有这些都在同一个工具中完成。这包括与数据仓库、大数据、Spark、数据移动编排、安全和监视相关的所有功能,全部集中在一个地方。它还可以高效地与 Power BI 协作,以可视化和分析数据。

在本系列第二篇文章中,我们探讨了 Azure Synapse Analytics 如何支持数据摄取和准备,通过避免自定义 ETL 代码来节省时间。

现在,在这一第三也是最后一篇文章中,我们将探讨 Azure Synapse Analytics 如何通过无缝的工具集成和引导式体验,帮助数据科学和商业智能 (BI) 专业人士获得新的见解。

Power BI 集成

Azure Synapse Analytics 的集成非常紧密,我们可以直接从 Synapse Studio 启动 Power BI。操作非常简单,只需单击“新建链接服务”,然后单击“连接到 Power BI”。接下来,我们连接到一个 Power BI 工作区。

我们通过传递身份验证 (PTA) 来实现所有这些,PTA 是一项 Azure AD Connect 功能,它使您能够访问不同的产品,而无需提示您登录并重新输入凭据。

通过选择 Power BI 工作区并单击“创建”,我们可以轻松地链接这两个工作区,而无需复制或移动数据。现在,当我们在“开发”选项卡中,会看到 Power BI 是列表中的一个工件。展开该条目,我们会看到 Power BI 工作区中存在的所有数据集,进一步展开它,我们会看到该工作区中的所有报表。

现在,假设我们要创建一个名为 NYC Yellow 的新虚拟数据库,并将其链接到 Power BI 数据集。首先,启动 Power BI Desktop,我们将看到该工作区中的所有数据库。然后,选择一个,单击“继续”打开该 Power BI 数据源文件,并连接到该数据集。

连接到 Azure Synapse Analytics 与连接到 SQL Server 类似,因此感觉就像另一个 SQL 连接。

对于 Power BI 用户和数据分析师,Azure Data Explorer 提供了查询数据湖的功能。客户可以查询 Azure Data Lake Storage (ADLS) Gen2 中的历史数据,并将其与 Azure Data Explorer 中缓存的近乎实时的数据连接起来,而无需将数据摄取到 Azure Data Explorer 中。

现在,我们可以使用 Power BI 的 Power Query 导航器,并决定是执行导入还是对数据执行直接查询。

我们可以使用 Power BI 创建数据集并将其发布到我们的 Azure Synapse 工作区。然后,我们可以在 Synapse Studio 中基于该数据集构建新报表。然后,当我们打开报表并在 Synapse Studio 中进行更改时,我们可以返回 Power BI 工作区并立即看到这些更改。

Azure Synapse Analytics 可以快速查询数十亿行数据。但是,我们不需要,也不应该一直处理详细数据。我们可以使用物化视图来优化查询并自动调整性能。随着详细数据的更新,物化视图会反映更改。

Azure ML 集成

Azure Synapse Analytics 为我们提供了处理、管理、准备和丰富数据以供分析所需的一切。它集成了许多不同的 Azure 服务,例如 Power BI 和 Azure Machine Learning (ML)。

Azure Data Lake Storage 与 Azure Synapse Analytics 原生集成,为您的数据提供数据湖存储。此外,Azure Synapse Analytics 可以在 SQL 池内的表中存储和管理数据。另一种选择是虚拟化数据,直接从源读取数据,使用 Azure Synapse Link。

有许多方法可以访问 Azure Synapse Analytics 中的数据。无论我们的数据在哪里,Azure Synapse Analytics 都会将它们全部整合到一个平台中,我们可以在其中一起分析它们。例如,我们可以使用 Spark 计算来处理存储在数据湖中的 Parquet 文件中的半结构化大数据。如果我们也在处理存储在 SQL 池(以前称为 SQL Data Warehouse)中的表中的关系数据,该怎么办?Azure Synapse Analytics 将这两种类型的数据整合在一起。我们可以通过统一的体验处理不同的数据源。

借助 Azure Synapse Studio,我们可以构建数据集成管道,管理数据,监视一切,并设置安全性。此外,我们可以使用 Azure Synapse Analytics 中的基于 SQL 的分析运行时来处理这些数据。

除了专用 SQL 池之外,Azure Synapse Analytics 还使我们能够使用无服务器按需 SQL 池和无服务器 Apache Spark 池来准备数据以进行分析。

聚合不同的数据源样式

Azure Synapse Analytics 使我们能够集成不同的服务来在 Azure 中创建我们的解决方案。访问数据变得更加简单,并且更快地从我们的信息中获取价值——以至于这些服务能够提供无缝的管道集成。

例如,我们的 Azure Data Factory 管道可以自动与 Spark 池或 Azure Data Lake Storage Gen2 进行通信。我们所要做的就是配置一个 Azure Synapse 工作区。

Azure Synapse Analytics 中的机器学习功能

当我们配置 Azure Synapse 工作区时,它已经内置了机器学习功能,因此我们无需将其链接到 Azure ML 或 Cognitive Services 等其他服务。在使用 Azure Synapse Analytics 中的无服务器 Apache Spark 池时,我们已经拥有内置的数据训练和评分功能。此外,我们还可以使用 predict 关键字函数在专用 SQL 池的 T-SQL 查询中运行预测。

Azure Synapse Analytics 为习惯于无代码体验的受众提供了选项。但是,我们也可以通过代码执行许多与机器学习相关的任务。例如,我们可以在 Synapse Notebooks 中使用 T-SQL、PySpark、Scala 或 C#。此外,Notebooks 在 Synapse Studio 中提供引导式用户界面 (UI) 体验,在需要时生成代码工件,从而加快用户获得洞察的速度。或者,我们也可以选择无代码体验。

让我们探索 Azure Synapse Analytics 中提供的一些机器学习体验。

AutoML 模型训练作为引导式 UI 体验提供。在 Synapse Studio 中,我们可以使用与 Azure ML 工作区中相同的 AutoML。不同之处在于,这次我们可以直接在 Azure Synapse Analytics 中的无服务器 Apache Spark 池上执行。

SQL 池中的模型评分是另一种引导式 UI 体验,因为我们可以将 Azure ML 中的模型部署到 Azure Synapse Analytics 中。例如,我们的数据科学团队可能已经训练了一些模型,并且我们使用 Azure 机器学习模型注册表来跟踪这些模型。现在,我们可以从 Azure ML 模型注册表中访问模型,并使用 T-SQL 在 SQL 池中对其进行评分。无需将数据移出、运行评分并将数据移回,我们就可以在数据所在的位置对模型进行评分。

然后是 Cognitive Services,这是一项引导式 UI 体验,用于通过 Anomaly Detector 和文本分析情感分析进行数据丰富。假设我们打开一个包含电子邮件的 Spark 表。其非结构化的文本数据不适用于 SQL 操作。但是,它支持一些有趣的数据分析。我们可以使用 Synapse Studio 应用机器学习并对这些电子邮件进行情感分析。

Azure Cognitive Services 附带一个预训练的情感分析模型。我们可以使用此模型来丰富我们的数据。在选择英语作为语言并选择包含我们电子邮件的 Spark 表的“评论”列后,Synapse Studio 会为我们生成代码。它会创建一个新的 Synapse Notebook,其中包含 PySpark (Python) 语言的代码片段。现在我们所要做的就是运行代码单元,Cognitive Services 将对我们的电子邮件进行情感分析,并在结果中创建一个新的情感列。我们现在拥有了丰富的数据。

结论

在 Azure Synapse Analytics 系列的最后一篇文章中,我们讨论了 Azure Synapse Analytics 如何使我们能够提供对业务流程的新见解,并以多种方式回答业务问题。

我们还发现 Azure Synapse Analytics 通过链接服务与 Power BI 紧密集成。这样,我们无需离开 Synapse Studio 即可使用 Power BI 进行数据分析,从而生成推动改进和增长的商业智能。

最后,我们通过引导式体验探索了 Azure Synapse Analytics 开箱即用的机器学习功能,包括模型训练、模型评分和 Cognitive Services。

在之前的文章中,我们探讨了 Azure Synapse Analytics 如何通过将数据集成、数据仓库和分析合并到一个服务中并与其他 Azure 工具进行大量集成,从而实现数据准备和管理以及其他活动。Azure Synapse Analytics节省了加载和准备数据的时间,以便快速了解驱动业务的分析,从而使您能够领先于竞争对手采取行动。

请查看 Microsoft 的Azure Synapse Analytics 实战培训系列,从 Azure Synapse 工程团队的成员那里了解更多关于使用这些集成数据工具来推动商业智能和机器学习的信息。

在对 Azure Synapse 进行深入研究时,您可以学习到:

  • 启动您的第一个 Synapse 工作区
  • 构建无代码 ETL 管道
  • 原生连接到 Power BI
  • 连接和处理流数据
  • 使用无服务器和专用查询选项
© . All rights reserved.