AI 增强的数据科学:Azure Synapse Analytics(第一部分:概述)





5.00/5 (1投票)
在本文中,我们将了解 Azure Synapse Analytics 和 Azure Machine Learning 如何在没有大量编码和机器学习经验的情况下帮助分析数据。
如今,似乎每家公司都声称其产品由人工智能 (AI) 提供支持。不幸的是,尽管每个高管都在追逐这个热门词,但很少有人真正理解其中的挑战。
机器学习 (ML) 模型的好坏取决于它所摄入的数据。要开发一个能够带来期望业务成果的模型,我们需要使用适当的数据来喂养我们的模型。
有些人可能会争辩说,“机器学习”的含义是机器能够自主发现隐藏的模式并进行学习。这是真的,但它是如何实现的呢?有人将数据提供给机器,用于创建这些“智能”算法和模型。提取、分析和从数据中获取洞察的责任落在数据科学家身上。
传统上,将 AI 和 ML 整合到数据科学流程中一直是一个令人头疼的问题。数据科学和 ML 团队常常各自为政。共享模型和数据,尽管必要,但可能耗时且效率低下。
Azure Synapse Analytics 为希望通过 AI 和 ML 加速其数据科学工作流程的团队提供了一条更顺畅的道路。在本文中,我们将讨论 Azure Synapse Analytics 和 Azure Machine Learning。在接下来的系列文章中,我们将探讨如何设置工作区和 ML,以及如何训练和使用我们的 ML 模型来增强数据。
什么是 Azure Synapse Analytics?
Azure Synapse Analytics 是一项集成分析服务,可快速从数据湖和数据仓库中提取有意义的见解。它在一个地方处理、监控和保护数据,并使数据科学家能够按照自己的方式自由地查询数据。该服务还支持企业级的描述性、诊断性、预测性和规范性分析。
Azure Synapse Analytics 是 Azure SQL Data Warehouse (SQL DW) 的品牌重塑,具有改进的性能和功能。它支持用于提取、转换和加载 (ETL) 以及提取、加载和转换 (ELT) 操作的无限管道。它弥合了传统 SQL 数据仓库、非结构化数据存储和 Apache Spark 池之间的差距,同时完全支持不断发展的 DevOps 生态系统。
此外,Azure Synapse Studio 使我们能够通过单一界面监控、编码和保护数据及数据管道。它与 Azure Machine Learning (Azure ML) 和 Power BI 等其他 Azure 服务深度集成,使其成为任何企业用例的理想选择。
下图总结了 Azure Synapse Analytics 提供的工具和服务。
什么是 Azure Machine Learning?
在本系列文章中,我们将探讨 Azure Machine Learning 的集成。Azure Machine Learning 用于创建和管理 ML 解决方案。微软设计的这项云服务使数据科学家和工程师能够在不学习不同框架或工具的情况下,利用他们现有的数据处理能力和模型开发技能。
虽然 Azure Machine Learning 允许用户以传统方式自定义构建和部署 ML 模型,但这需要大量的领域知识和时间来生成和比较数十个模型。因此,为了帮助所有专业水平的用户,自动化机器学习 (AutoML) 有助于构建高度可扩展、高效且富有成效的 ML 模型。
Azure Synapse Analytics 与 AutoML 的集成使我们能够在不编写一行 ML 代码的情况下,丰富数据集并将数据转化为可操作的基线模型。
Azure Cognitive Services 套件提供了 ML 功能来解决一般性问题。这些服务包括通用 ML 解决方案中的数据、算法和预训练模型等组件。这些产品帮助用户从他们的数据中提取见解,而无需具备太多 ML 或数据科学的专业知识或经验。
我们的数据项目
在本系列文章中,我们将探索 Azure Synapse Analytics,并演示其端到端的 Azure Machine Learning 和 Cognitive Services 集成。我们将学习如何通过链接服务连接 Azure Synapse 工作区和 Azure Machine Learning 工作区。
我们还将了解如何通过 Azure Machine Learning 训练和评估模型来丰富我们的数据。除了预训练的 ML 模型,我们还将探索使用 Azure Cognitive Services 来丰富 SQL 池中的数据。
当我们的数据准备就绪后,我们将使用 Azure Machine Learning 训练一个用于预测分析的 ML 模型。在这种情况下,我们将分析美国华盛顿州 King County 的房屋销售数据,看看我们的模型能发现哪些见解。
该项目将遵循此结构
- 创建和配置 Azure Synapse Analytics 工作区
- 创建和配置 Azure Machine Learning 链接服务
- 导入数据
- 使用预训练的 Azure ML 模型丰富数据
- 使用 Azure Cognitive Services 丰富数据
- 使用 AutoML 训练预测模型
对于本教程,我们假设您已经具备一定的 SQL 知识,并且对 Azure Synapse Analytics 有一定的了解。因此,我们不会深入介绍各个功能的细节。但是,您可能希望先浏览一些其他文章,或注册以查看 Azure Synapse Analytics 实战培训系列。本次网络研讨会系列由微软工程团队成员主讲,深入探讨 Azure Synapse。
下一步是什么?
现在您对 Azure Synapse Analytics 和 Azure Machine Learning 有了更多的了解,以及它们如何帮助数据科学家和其他人最大限度地利用他们的数据,而无需进行编码和机器学习专业知识。我们还建立了一个路线图,说明如何着手使用机器学习来分析我们的数据,在本例中是房屋销售数据。
在本文系列的下一篇文章中,我们将直接开始设置 Azure Synapse 工作区和 Azure Synapse Studio,为我们在第三篇文章中的机器学习分析做准备。