实时数据科学和 BI:Azure Synapse Analytics(第一部分:概述)






4.40/5 (2投票s)
本文讨论了如何在不影响应用程序性能的情况下分析实时数据的方法。
现代应用程序架构通常使用热数据存储和冷数据存储。热数据存储为用户提供快速响应。冷数据存储提供如何改进业务流程或适应变化的市场的见解。这些对数据科学家、数据工程师、开发人员和业务分析师都很有用。
数据科学和商业智能 (BI) 通常基于非实时仓库数据进行工作,这些数据由提取、转换和加载 (ETL) 作业定期更新。虽然这很有用,但有时我们希望在基础数据发生变化时立即查询、理解和可视化业务数据。这样,我们可以更快地适应变化,并在竞争中获得优势。
这种数据分析方法是混合事务处理和分析处理 (HTAP)。HTAP 的常见障碍是我们不希望分析查询影响已部署应用程序中使用的交易数据库的性能。
Azure Synapse Link 使我们能够对实时数据执行数据科学和商业智能分析,而不会影响事务数据库的性能。具体来说,Azure Synapse Link for Azure Cosmos DB 提供了 HTAP 功能,可以基于存储在 Azure Cosmos DB 中的热数据运行近实时分析。
这要归功于Azure Cosmos DB 分析存储。其隔离的基于列的存储加速了分析速度。它使用来自基于行的交易存储的数据,并将其写入基于列的存储。
在创建报表或处理数据时,我们通常希望汇总来自单个字段或选定字段的数据。如果存储的数据按列顺序排列,我们可以将多个值序列化在一起,从而减少每秒所需的输入/输出操作 (IOPS)。这就是 Azure Cosmos DB 分析存储发挥作用的地方。它会自动将我们的操作数据同步到单独的基于列的存储中。
这种方法的典型用例包括供应链分析、预测、报表、实时个性化、异常检测和预测性维护。几乎所有这些架构都涉及其他组件,例如 Spark 和 Power BI。Spark 支持并行运行分析,而 Power BI 加速了 BI 仪表板的创建。
在本系列的实践文章中,我们将探讨如何将 Azure Synapse Link 用于存储在 Azure Cosmos DB 中的数据。我们将首先使用 Python 笔记本将示例零售销售数据导入 Azure Cosmos DB 容器。
然后,我们将学习如何从 Azure Synapse Studio 访问这些数据以执行分析并深入了解我们的零售销售情况。
在最后一步中,我们将创建 BI 仪表板,将其发布,并在 Azure Synapse Studio 中访问它。在这里,我们将更深入地了解我们的零售销售数据。
摘要
请继续阅读本系列的第二篇文章,开始设置您的环境。如上所示,我们将使用 Azure 门户、Azure Synapse Studio 和 Python。
要了解更多信息,请继续阅读本系列的第二篇文章,了解如何创建图表并深入了解业务数据。
有关使用 Azure Synapse 推动商业智能和机器学习的更多信息,请查看 Microsoft 的Azure Synapse Analytics 实践培训系列。