65.9K
CodeProject 正在变化。 阅读更多。
Home

Azure 数据工厂基础知识

starIconstarIconstarIconstarIcon
emptyStarIcon
starIcon

4.20/5 (2投票s)

2018年10月20日

CPOL

6分钟阅读

viewsIcon

11983

如何将原始数据转化为可操作的业务洞察(使用 Azure Data Factory)

引言

原始数据本身缺乏上下文和意义,无论您收集和存储了多少 PB 的数据,它都不是可操作见解的来源。这种无组织的数据通常存储在各种存储系统中,包括关系型和非关系型数据库,但没有上下文,它对分析师或数据科学家来说毫无用处。

背景

为了使大数据有用,它需要能够协调和操作流程的服务,从而将无组织的数据转化为可操作的业务洞察。Azure Data Factory 的构建旨在使企业能够将原始数据转化为可操作的业务洞察。它通过执行复杂的混合提取-转换-加载 (ETL)、提取-加载-转换 (ELT) 和数据集成项目来实现这一点。

想象一家汽车租赁公司,它在其云数据存储中收集了 PB 级的汽车租赁日志。该公司希望利用这些数据来了解客户人口统计、偏好和使用行为。通过这些洞察,该公司可以更有效地向上销售和交叉销售给客户,同时改善客户体验并开发新功能,从而推动业务增长。

为了分析存储在云数据存储中的汽车租赁日志,该公司需要包含上下文数据,例如客户信息、车辆信息以及广告和营销信息。然而,这些上下文信息存储在本地数据库中。因此,为了利用汽车租赁日志,该公司将不得不使用本地数据库中的数据,并将其与存储在云数据存储中的日志数据结合起来。

为了从其数据中提取见解,该公司可能需要使用云中的 Spark 集群来处理连接的数据,然后将转换后的数据发布到云数据仓库,例如 Azure SQL Data Warehouse,以便可以轻松地在其之上构建报告。这个工作流可能需要自动化,并且需要每天进行监控和管理。在这个大数据时代,这对于一家公司来说并不是一个不寻常的数据场景。Azure Data Factory 就是为了解决此类数据场景而设计的。Azure Data Factory 是一项基于云的数据集成服务,可让您在云中创建数据驱动的工作流,以协调和自动化数据移动和数据转换。

这意味着您可以使用 Azure Data Factory 创建和调度管道(数据驱动的工作流),这些管道可以从不同的数据存储接收数据。Azure Data Factory 还可以使用 Azure HDInsight Hadoop、Spark、Azure Data Lake Analytics 和 Azure Machine Learning 等计算服务来处理和转换数据。此外,您可以将输出数据发布到 Azure SQL Data Warehouse 等数据存储,然后由商业智能 (BI) 应用程序进行消耗。总之,Azure Data Factory 使企业能够将原始数据组织成有意义的数据存储和数据湖,从而使企业能够做出更好的决策。

管道步骤

Azure Data Factory 的管道通常执行以下四个步骤

连接和收集

在构建信息生产系统时,第一步是连接到所有所需的数据源。这些数据可以是结构化的、非结构化的和半结构化的。它们可以位于本地或云端,并以不同的速度和时间间隔到达。您还需要连接到数据处理源,例如数据库、文件共享、软件即服务和 FTP Web 服务。一旦您连接到数据和处理的所有源,您就需要将数据移动到中央位置以便进行处理。公司完全有可能通过构建自定义数据移动组件或编写自定义服务来完成所有这些操作。然而,此类系统难以集成和维护,而且成本高昂。相比之下,一项完全托管的服务可以提供更高水平的监控、警报和控制。Azure Data Factory 可以让您通过使用其复制活动(如下所述),直接将本地数据存储和云数据存储中的数据移动到中央数据存储,而无需构建自定义数据移动组件。

复制活动执行以下步骤

  1. 它从源数据存储读取数据。
  2. 它执行序列化/反序列化、压缩/解压缩、列映射等操作。
  3. 它将数据写入目标数据存储。

转换和丰富

一旦数据进入中央数据存储,就可以使用 HDInsight Hadoop、Spark、Data Lake Analytics 和 Machine Learning 来处理或转换数据。转换后的数据可以按照可控且可维护的时间表生成。

Publish (发布)

一旦数据经过精炼,就可以将其加载到 Azure Data Warehouse、Azure SQL Database、Azure CosmosDB 等分析引擎中。然后,您可以使用您使用的任何商业智能工具来指向分析引擎。

显示器

一旦构建了数据管道并精炼了数据,就需要监控活动和管道的成功率和失败率。Azure Data Factory 通过 Azure Monitor、API、PowerShell 和 Log Analytics 内置了对管道监控的支持。

高层概念

Azure Data Factory 中有四个关键组件。这些组件共同提供了您可以构建数据驱动工作流的平台。一个 Azure 订阅可能包含一个或多个数据工厂。

管道

执行任务的一组活动的逻辑分组称为管道。一个数据工厂可以有一个或多个管道。例如,一个管道可以包含一组活动,这些活动从 Azure Blob 中获取数据,然后在 HDInsight 群集上运行 Hive 查询以分区数据。使用管道意味着您可以将活动作为一个整体进行管理,而不是单独管理。根据您的需要,活动可以按顺序运行,也可以独立并行运行。

Activity

活动是管道中的处理步骤。Azure Data Factory 支持三种类型的活动:数据移动活动、数据转换活动和控制活动。

数据集

数据集表示数据存储中的数据结构。它们指向您要在活动中用作输入或输出的数据。

链接服务

链接服务类似于连接字符串。它们定义了 Data Factory 需要连接到外部资源的信息。

链接服务有两个用途

它们用于表示数据存储,其中包括本地 SQL Server 数据库、Oracle 数据库、文件共享或 Azure Blob 存储帐户等。

链接服务还用于表示可以托管活动执行的计算资源。

触发器

触发器表示触发管道执行的单位。根据事件的类型,有几种不同类型的触发器。

管道运行

管道运行是管道执行的一个实例。管道包含参数,并通过将参数传递给这些参数来实例化管道运行。您可以在触发器定义中传递参数,也可以手动传递。

参数

参数在管道中定义,它们是只读执行的键值对。管道中的活动会消耗参数值。数据集和链接服务都属于参数类型。

控制流

控制流是如何组织管道活动的。这可以包括按顺序排列活动、分支以及在管道中定义参数并将参数传递给这些参数。

支持的区域

Azure Data Factory 目前在以下区域可用(截至 2018 年 10 月)

历史

  • 2018 年 10 月 20 日:版本 1
© . All rights reserved.