Windows 和 Linux 版 Microsoft Data Science Virtual Machine 现已推出
Microsoft 数据科学虚拟机可快速启动您的分析项目。它使您能够使用 R、Python、SQL 和 C# 等各种语言执行任务。
Microsoft 数据科学虚拟机是一个 Azure 虚拟机 (VM) 映像,预装并配置了多种常用工具,这些工具通常用于数据分析和机器学习。包含的工具是:
- Microsoft R Server 开发人员版
- Anaconda Python 发行版
- Jupyter Notebooks
- IDLE
- Azure 机器学习
- Cortana 示例库
- Microsoft Azure PowerShell
- Git Bash
- SQL Management
- Visual Studio Community Edition,
- Power BI Desktop
- SQL Server Express Edition
- Azure SDK
Microsoft 数据科学虚拟机可快速启动您的分析项目。它使您能够使用 R、Python、SQL 和 C# 等各种语言执行任务。Visual Studio 提供了一个易于使用的 IDE 来开发和测试您的代码。VM 中包含的 Azure SDK 允许您使用 Microsoft 云平台上的各种服务构建应用程序。
此数据科学 VM 映像不收取软件费用。您只需支付 Azure 使用费,这取决于您将使用此 VM 映像预配的虚拟机的大小。有关计算费用的更多详细信息,请参见此处。
什么是数据科学虚拟机?
它是托管在 Azure Marketplace 上的 Windows 或 Linux 自定义 VM 映像。
- 包含一套数据科学、Azure 工具/SDK
- 所有均预配置并可立即使用
- 仅支付云硬件使用费。无单独的软件费用!
- 指向图库、示例、文档的指针
- Windows 和 Linux 版本
- 快速启动和运行
使用场景
云中的本地分析桌面替代方案
- 团队间的统一设置,促进共享和协作
- Azure 规模和管理
- 近乎零设置
数据科学培训和教育
- 一致的设置,易于支持
- 按需、共享/专用基础设施
- 快速、低摩擦启动
用于大型工作负载的专用按需弹性容量
- 能够在桌面或共享环境中运行不可行的分析
- 按使用量付费
- 例如:黑客马拉松、竞赛
短期实验和评估
- 快速、低摩擦启动
- 将时间花在评估上,而不是设置上
- 先试用后购买
- 重现已发布的实验
先决条件
在创建 Microsoft 数据科学虚拟机之前,您必须具备以下条件:
- Azure 订阅:要获取订阅,请参阅获取 Azure 免费试用版。
- Azure 存储帐户:要创建一个存储帐户,请参阅创建 Azure 存储帐户。或者,如果您不想使用现有帐户,可以在创建 VM 的过程中创建存储帐户。
创建您的 Microsoft 数据科学虚拟机
以下是创建 Microsoft 数据科学虚拟机实例的步骤:
- 导航到 Azure 门户上的虚拟机列表。
- 单击底部的创建按钮以进入向导。
- 用于创建 Microsoft 数据科学虚拟机的向导需要图右侧列出的5 个步骤中的每个步骤的输入。以下是配置每个步骤所需的输入:
- 基础
- 名称:您正在创建的数据科学服务器的名称。
- 用户名:管理员帐户登录 ID
- 密码:管理员帐户密码
- 订阅:如果您有多个订阅,请选择将在其上创建和计费的订阅
- 资源组:您可以创建新组或使用现有组
- 位置:选择最合适的数据中心。通常,它是拥有大部分数据的数据中心,或者离您的物理位置最近的数据中心,以实现最快的网络访问
- 大小:选择符合您的功能要求和成本限制的服务器类型之一。您可以通过选择“查看所有”来获取更多 VM 大小选项
- 设置 – 磁盘类型:如果您喜欢固态硬盘 (SSD),请选择“高级”,否则选择“标准”。 – 存储帐户:您可以在订阅中创建新的 Azure 存储帐户,或者使用向导“基本信息”步骤中选择的相同位置中的现有存储帐户。 – 其他参数:在大多数情况下,您只需使用默认值。如果您想考虑使用非默认值,可以将鼠标悬停在信息链接上以获取特定字段的帮助。
- 摘要:验证您输入的所有信息是否正确。
- 购买:单击购买以开始预配。提供了指向交易条款的链接。除了您在大小步骤中选择的服务器大小的计算费用外,VM 没有其他费用。
- 基础
预配大约需要 10-20 分钟。预配状态显示在 Azure 门户上。
如何访问 Microsoft 数据科学虚拟机
VM 创建完成后,您可以使用在a. 基本信息部分创建的管理员帐户凭据通过远程桌面登录到它。
VM 创建并预配完成后,您就可以开始使用其中安装和配置的工具了。许多工具都有开始菜单磁贴和桌面图标。
如何在 Jupyter notebook 服务器上创建强密码
在数据科学虚拟机上的命令提示符下运行以下命令,为机器上安装的 Jupyter notebook 服务器创建您自己的强密码。
c:\anaconda\python.exe -c "import IPython;print IPython.lib.passwd()"
在出现提示时选择一个强密码。
您将在输出中看到“sha1:xxxxxx”格式的密码哈希。复制此密码哈希并将其替换位于以下位置的 notebook 配置文件中的现有哈希:C:\ProgramData\jupyter\jupyter_notebook_config.py,参数名为c.NotebookApp.password。
您应该只替换引号内的现有哈希值。参数值的引号和sha1: 前缀需要保留。
最后,您需要停止并重新启动作为名为“Start_IPython_Notebook”的 Windows 计划任务在 VM 上运行的 IPython 服务器。如果重新启动此任务后您的新密码未被接受,请尝试重新启动虚拟机。
Microsoft 数据科学虚拟机上安装的工具
Microsoft R Server 开发人员版
如果您希望使用 R 进行分析,VM 中已安装 Microsoft R Server 开发人员版。Microsoft R Server 是一个基于 R 的可广泛部署的企业级分析平台,它受支持、可扩展且安全。R Server 支持各种大数据统计、预测建模和机器学习功能,支持全方位的分析——探索、分析、可视化和建模。通过使用和扩展开源 R,Microsoft R Server 与 R 脚本、函数和 CRAN 包完全兼容,可以以企业规模分析数据。它还通过在 Microsoft R Server 中添加数据的并行和分块处理来解决开源 R 的内存限制,使用户能够对远大于主内存容量的数据运行分析。VM 中还包含一个 R 的 IDE,可以通过单击开始菜单或桌面上的“Revolution R Enterprise 8.0”图标来访问。您也可以自由下载和使用其他 IDE,例如RStudio。
Python
对于使用 Python 进行开发,已安装 Anaconda Python 2.7 和 3.5 发行版。此发行版包含基本 Python 以及大约 300 个最流行的数学、工程和数据分析包。您可以使用 Visual Studio 2015 Community Edition 中安装的 Python Tools for Visual Studio (PTVS) 或 Anaconda 捆绑的 IDE(如 IDLE 或 Spyder)之一。您可以通过在搜索栏 (Win + S 键) 上搜索来启动其中一个。注意:为了将 Python Tools for Visual Studio 指向 Anaconda Python 2.7 和 3.5,您需要通过导航到“工具”->“Python 工具”->“Python 环境”,然后单击 Visual Studio 2015 Community Edition 中的“+ 自定义”并设置环境路径来为每个版本创建自定义环境。Anaconda Python 2.7 安装在C:\Anaconda下,Anaconda Python 3.5 安装在c:\Anaconda\envs\py35下。有关详细步骤,请参见PTVS 文档。
Jupyter Notebook
Anaconda 发行版还附带 Jupyter Notebook,一个共享代码和分析的环境。Jupyter Notebook 服务器已预配置 Python 2、Python 3 和 R 内核。有一个名为“Jupyter Notebook”的桌面图标,可启动浏览器以访问 Notebook 服务器。如果您通过远程桌面连接到 VM,您还可以访问 https://:9999/ 来访问 Jupyter Notebook 服务器(注意:如果收到任何证书警告,请继续)。我们打包了示例 Notebook——一个用 Python 编写,一个用 R 编写。在您使用之前步骤中创建的密码验证 Jupyter Notebook 后,您可以在 Notebook 主页上看到示例链接。
Visual Studio 2015 Community edition
VM 上安装了 Visual Studio Community Edition。它是 Microsoft 流行 IDE 的免费版本,可用于评估目的和非常小的团队。您可以在此处查看许可条款。通过双击桌面图标或开始菜单打开 Visual Studio。您还可以使用Win + S搜索程序并输入“Visual Studio”。进入后,您可以用 C#、Python 等语言创建项目。您还会发现已安装的插件,这些插件方便与 Azure Data Catalog、Azure HDInsight (Hadoop, Spark) 和 Azure Data Lake 等 Azure 服务协同工作。
注意:您可能会收到一条消息,表明您的评估期已过期。您可以输入 Microsoft 帐户凭据或创建一个并输入它们以获得 Visual Studio Community Edition 的访问权限。
SQL Server Express
Visual Studio Community Edition 还附带了一个有限版本的 SQL Server。您可以通过启动SQL Server Management Studio访问 SQL Server。您的 VM 名称将作为服务器名称填充。以 Windows 管理员身份登录时使用 Windows 身份验证。进入 SQL Server Management Studio 后,您可以创建其他用户、创建数据库、导入数据和运行 SQL 查询。
Azure
VM 上安装了多个 Azure 工具: – 有一个桌面快捷方式可访问 Azure SDK 文档。 – AzCopy用于在 Microsoft Azure 存储帐户中传输数据。 – Azure 存储资源管理器用于浏览您存储在 Azure 存储帐户中的对象。 – Microsoft Azure PowerShell – 用于使用 PowerShell 脚本语言管理 Azure 资源的工具也安装在您的 VM 上。
Power BI
为了帮助您构建仪表板和出色的可视化效果,已安装Power BI Desktop。使用此工具从不同来源提取数据,编写仪表板和报告,并将其发布到云。有关信息,请参见Power BI网站。
注意:您需要 Office 365 帐户才能访问 Power BI。
其他 Microsoft 开发工具
Microsoft Web 平台安装程序可用于发现和下载其他 Microsoft 开发工具。Microsoft 数据科学虚拟机桌面上也提供了该工具的快捷方式。
后续步骤
以下是一些后续步骤,可继续您的学习和探索。
- 通过单击开始菜单并查看菜单上列出的工具来探索数据科学 VM 上的各种数据科学工具。
- 导航到C:\Program Files\Microsoft\MRO-for-RRE\8.0\R-3.2.2\library\RevoScaleR\demoScripts,获取使用支持企业规模数据分析的 R 中的 RevoScaleR 库的示例。
- 阅读文章:您可以在数据科学虚拟机上做的十件事
- 了解如何使用团队数据科学流程系统地构建端到端分析解决方案
- 访问Cortana 智能库,获取使用 Cortana 智能套件的机器学习和数据分析示例。我们还在虚拟机上的“开始”菜单和桌面上提供了图标,方便访问。