Azure Synapse Analytics 简介(第一部分):什么是 Azure Synapse Analytics?





5.00/5 (3投票s)
在本文中,我们将探讨 Azure Synapse Analytics 及其一些功能。
组织希望创造性地、智能地利用分析来满足其业务需求。Azure Synapse Analytics 将数据集成、企业数据仓库和大数据分析整合到一个统一的服务中。它使组织能够按照自己的方式查询数据。它使组织摆脱了复杂的数据加载和准备工作,同时提供了大数据分析工具和加速的洞察时间。
Azure Synapse Analytics 诞生于现代数据仓库的理念:它整合了异构数据源,并通过分析工具(包括报告、仪表板和可视化)提供业务见解。这些功能显著加快了组织的洞察时间,组织可以利用这些见解来改进其决策过程。
在本系列文章中,我们将探讨 Azure Synapse Analytics,这是一个无限制的分析服务,它将数据集成、数据仓库和大数据分析融合到基于 Azure 的统一环境中。Azure Synapse Analytics 可摄取、存储、分析、可视化并为商业智能 (BI) 和机器学习 (ML) 服务数据。
数据摄取
借助 Azure Synapse Analytics,我们可以处理存储在各种环境中的数据源,包括本地、Azure 或其他云。数据可能来自业务应用程序、客户关系管理 (CRM) 软件、银行数据库或社交媒体。定义数据源后,Azure Synapse Analytics 会将其引入摄取和准备阶段,在此阶段,Azure Data Factory 服务会加载和编排其数据。
请注意,此时数据仍然是原始数据,尚未准备好供用户使用。因此,我们可以将数据存储在 Azure Data Lake Storage Gen2 中。稍后,我们可以以数据科学家可以使用的格式来探索、准备、训练、建模,然后提供数据。
Azure Data Lake Storage Gen2
作为一个现代数据仓库,Azure Synapse Analytics 可以从数据湖摄取原始的、非结构化的数据。Azure Data Lake Storage Gen2 是一套专门用于大数据分析的功能。它使在 Azure Blob Storage 上构建企业数据湖成为可能。Data Lake Storage Gen2 提供文件系统语义、文件级安全性和规模。其低成本管理解决方案通过分层存储、高可用性和弹性处理海量非结构化数据。
一旦 Azure Data Factory 摄取了数据,它就可以将其存储并集中在 Azure Data Lake Storage Gen2 中。这个数据湖贯穿整个 Azure Synapse Analytics 体系结构,并且始终可供生态系统内的其他组件使用。
数据探索、训练和提供
一旦 Azure Data Factory 摄取了数据,Azure Data Lake Storage Gen2 就会以原始形式存储它。因此,Azure Synapse Analytics 必须先对其进行转换,然后才能将其提供给数据仓库最终用户。
Databricks 是一个领先的云解决方案,它弥合了数据湖和数据仓库之间的差距,这种组合被称为“Lakehouse”。Azure 有自己的实现,即 Azure Databricks。这是支持 Azure Synapse Analytics 探索、准备、训练和转换数据的底层云工具。Azure Databricks 为数据工程师和数据科学家提供了一个协作平台。它还允许 Azure Synapse Analytics 处理和转换海量数据,同时使用机器学习模型探索数据。
数据查询服务
Azure Synapse Analytics 支持三种类型的查询服务:专用 SQL 池、Azure Synapse Analytics 的按需 SQL 池和 Apache Spark 池。
专用 SQL 池是 SQL 数据仓库 (DW) 的重新命名,指的是 Azure Synapse Analytics 中的企业数据仓库功能。它代表了您首次开始使用 Azure Synapse SQL 时预配的分析资源集合。专用 SQL 池类似于传统 SQL 数据仓库,也是您大数据解决方案的常规目的地。专用 SQL 池使我们能够导入大数据以运行高性能分析。专用 SQL 池随后成为快速、可靠的业务见解的单一事实来源。
Azure Synapse Analytics 的按需 SQL 池是一项无服务器查询服务,使您能够对 Azure 存储中的 CSV、Parquet 和 JSON 文件运行 SQL 查询。借助按需 SQL 池,您可以使用熟悉的 T-SQL 语法访问数据。运行查询,获取最新结果,或将数据加载并复制到另一个存储中以供将来使用。您可以使用无服务器 SQL 池将数据加载到专用存储中,或使用 SQL 语法查询文件和其他非结构化格式。
Apache Spark 池提供分布式、内存中的计算,以加速大数据分析处理。Spark 作业通过将数据预加载到内存中来节省时间,而这些数据否则将需要重复加载,从而实现更快的应用程序。Azure Synapse Analytics 在云中包含了其自己的 Apache Spark 实现。我们可以使用它来处理我们的 Azure Storage 和 Azure Data Lake Gen2 数据。Azure Synapse Analytics 可以轻松地在 Azure 中创建和配置无服务器 Apache Spark 池。
Azure Synapse Analytics 结合 Apache Spark 运行时,提供了比标准 Spark 更快的处理速度,实现了查询和集群优化、自动缩放、智能缓存和索引等改进。
Azure Synapse Studio
Azure Synapse Studio 是控制 Azure SQL Analytics 众多功能的核心管理工具。它配备了 Microsoft 为数据工程师和数据科学家设计的时尚用户界面 (UI)。它不仅仅是一个新的 UI 工具,它通过一个中央 UI 来摄取、探索、分析和可视化数据,从而统一了其他现有 Azure 数据服务的端到端体验。例如,Azure Synapse Studio 使我们能够使用无服务器或专用 SQL 池查询数据。
该 知识中心 是 Synapse Studio 的一部分,其目标是轻松地指导初学者开发者。借助知识中心,我们只需单击几下即可获得实用的、沉浸式的学习材料。
当我们选择 **立即使用示例** 时,我们可以访问一组即用型示例,以快速学习概念并使用脚本、笔记本、池和数据进行分析练习。我们可以使用 Apache Spark 探索数据,使用 SQL 查询数据,并使用 SQL 创建外部表。另一个选项向我们展示了如何使用无服务器 SQL 池在 Parquet 文件数据上执行查询。
选择 **浏览库** 会带我们到一个包含示例代码、Azure 开放数据集和模板的完整列表。它包括用于自动化数据集成和转换的示例笔记本、SQL 脚本和管道模板。
我们还可以从知识中心游览 Synapse Studio。它在我们开始使用 Azure Synapse Analytics 功能时为我们提供指导。
在我们开始使用时,Synapse Studio 会提供有关填写 UI 字段的有用提示,并向我们发出任何错误的警报。这可以为我们节省后续的故障排除时间。
Azure Synapse Notebooks
数据工程师和数据科学家很可能熟悉 Jupyter Notebook 提供的广泛的交互式计算功能。Azure Synapse Studio 的 Notebook 功能为您的分析需求提供了统一的 Notebook 体验,使用与 Jupyter Notebook 相同的文件格式,因此您可以快速上手。
Synapse Studio Notebook 是一个 Web 界面,我们可以在其中尝试数据以演示、深入了解和验证我们的想法。Notebook 是一种可读的、对人类友好的文档,我们通过自由添加文本块和代码片段来创建它。我们可以使用格式化的文本块来编写丰富的叙述。
同时,它们之间的代码片段可以随时即时运行,以查询我们的数据源并渲染结果。Notebook 通过报告、图表和其他数据可视化,以及机器学习见解和大数据场景来阐释我们的文本。
Synapse Notebook 使我们能够添加代码,使用 Python、Scala、Spark SQL 和 C# 等语言查询、操作和分析来自我们的非结构化和结构化数据源的数据。
机器学习和商业智能
Azure Synapse Analytics 包含许多流行的库,适用于对机器学习感兴趣的用户,例如 Spark MLlib 和 Anaconda Python 分发平台中的库。
我们可以使用 Azure 机器学习管道来定位数据准备和数据训练阶段的 Apache Spark 池。Apache Spark 使 Azure Synapse Analytics 能够对大数据执行机器学习,并从海量的结构化和非结构化数据中提取有价值的见解。
在模型化和提供数据后,Azure Synapse Analytics 可以与 Power BI 结合,从大量结构化或非结构化数据中生成见解和操作。我们可以在不离开 Azure Analytics 的情况下创建和管理 Power BI 数据集和报告。这种与 Power BI 的深度集成使 Azure Synapse Analytics 能够根据使用模式创建高性能的大数据查询和智能物化视图。
结论
正如我们所见,Microsoft 发布了 Azure Synapse Analytics 作为 Azure SQL 数据仓库的下一代产品。它通过内置的数据摄取、数据准备、机器学习和可视化功能,提供了处理大量数据的性能。
在本系列文章的后续文章中,我们将探讨 Azure Synapse Analytics 如何帮助进行数据准备和管理,从而无需自定义提取、转换和加载 (ETL) 代码。然后,我们将演示 Azure Synapse Analytics 如何驱动数据科学和商业智能。
要了解更多信息,请继续阅读本系列的第二篇文章,该文章探讨了使用 Azure Synapse Analytics 进行数据准备和管理。
此外,还可以查看 Microsoft 的 Azure Synapse Analytics 实战培训系列。每个 60 分钟的网络研讨会都会深入探讨 Azure Synapse。您可以开始创建第一个 Synapse 工作区,构建无代码 ETL 管道,原生连接到 Power BI,连接和处理流数据,以及使用无服务器和专用查询选项。