65.9K
CodeProject 正在变化。 阅读更多。
Home

pyDAAL 入门

starIconstarIconstarIconstarIconstarIcon

5.00/5 (1投票)

2017 年 6 月 1 日

CPOL

2分钟阅读

viewsIcon

5218

本文档展示了英特尔®数据分析加速库 (Intel® DAAL) 的 Python API 的工作原理。首先,我们解释如何使用 pyDAAL 编程接口操作数据,然后展示如何将其与 Python 数据操作/数学 API 集成。

最后,我们演示如何使用 pyDAAL 实现一个简单的线性回归解决方案来解决预测问题。

数据科学是一个新兴领域,它整合了来自其他领域的许多概念,例如:数据挖掘、数据分析、数据建模、数据预测、数据可视化等等。在当今的数据解决方案中,尽快执行这些任务的需求已成为主要问题。 考虑到这一点,英特尔 DAAL 是一个高度优化的库,其目标是为数据分析提供完整的解决方案,面向当今高度并行的系统,例如英特尔® 至强 Phi™ 处理器。

英特尔 DAAL 提供数据分析管道中许多步骤的解决方案,例如预处理、数据转换、降维、数据建模、预测以及用于读取和写入大多数常见数据格式的多个驱动程序。 图 1 显示了库内所有功能的摘要。

图 1. 英特尔®数据分析加速库提供的主要算法

如图 1 所示,所有 API 都与 C++、Java* 和 Python* 兼容(从 2017 beta 版本开始的最新补充)。 工具内部实现的许多算法可以在 3 种主要模式下执行

  • 批量 (Batch):在此模式下,处理以串行方式进行,例如,训练算法在单个节点上顺序执行;
  • 分布式 (Distributed):顾名思义,在此处理模式下,数据集必须拆分并在计算节点之间分配。 然后,算法计算部分解决方案,并在最后一步统一这些解决方案;以及
  • 在线 (Online):在此处理模式下,数据被视为连续流。 处理通过构建增量模型进行,最后,从部分模型构建完整模型。

有关处理模式的更多信息,以及有关数据管理和如何使用 pyDAAL 实现简单线性回归解决方案来解决预测问题的更多详细信息,请参阅此 白皮书

源代码可在 GitHub 上找到

© . All rights reserved.