阿里云混合云 PostgreSQL 的大规模并行处理





0/5 (0投票)
本文将介绍如何免费开始使用阿里云HybridDB for PostgreSQL服务。
阿里云提供全面的全球云计算服务,帮助您赋能和发展业务。 立即创建账户,即可获得300美元的新用户免费额度。
当您拥有海量数据并需要进行数据分析,或有高可用性要求,或需要遵循安全和备份协议时,像阿里云HybridDB for PostgreSQL这样的服务就能派上用场。
该服务将强大的关系型数据库管理系统(RDBMS)提升到了一个全新的水平。本文将介绍如何免费开始使用阿里云HybridDB for PostgreSQL服务。
PostgreSQL
PostgreSQL(也称为Postgres)因多种原因被认为是最高级 的开源数据库。在旧的世界数据库——组织、描述、存储、结构化并允许用户查询数据的系统——中,有几个参与者需要昂贵的许可协议。但也有一些参与者在功能——以及现在,扩展性——之间取得了有趣的平衡。Postgres,在阿里云HybridDB的帮助下,就是其中之一。
Postgres正式是一种RDBMS,这意味着它解决了基于Edgar Codd于1970年发明的关系模型来组织数据的问题。自2005年推出8.0版本以来,它已经发展到涵盖了新的领域——包括一些非结构化数据——现在,在今年推出的10版本中,Postgres提供了
- XML数据类型,允许您将XML文档存储为表的列,查询标签和属性,转换XML格式,以及更多
- JSON数据类型,允许将JSON文档存储为表的列,查询文档,转换JSON格式,添加索引以提高性能,以及更多
- HStore数据类型,意味着您可以在表中定义键值对列
- GIS扩展,为地理空间用例提供专门的数据类型、索引和一堆实用程序
- 基本的全文搜索功能
- 查询并行化
最后一个特别之处在于,它使得本地开发人员(通常是开发环境)能够启动复杂查询,这些查询将被优化为并行运行,充分利用多核处理器的全部功能。但是,当数据量达到TB甚至PB级别时,如何实现同样的事情呢?这就是所谓的Massive Parallel Processing——一种解决方案是使用一个数据库集群,它可以分担负载并提供一个看起来像单个数据库实例的统一接口。
从数据库世界到云
运行数据库集群是一项复杂的任务,通常公司里会有一个特定的角色(更准确地说,一个特定的团队)负责处理这项工作。要提供一个可靠、可扩展且速度极快的服务,您需要处理无数重要的细节和海量子任务。幸运的是,阿里云等公司提供此类服务,您无需成为专家,就可以从零开始配置一个不错的集群。
该 Greenplum开源项目是一个基于PostgreSQL 8.2的大规模并行处理数据库。阿里云HybridDB是提供运行Greenplum并管理安全和备份等任务的云服务提供商之一。有什么优势?
以下是一些优点:
- 自动伸缩
- 简化管理
- 通过虚拟私有云实现环境隔离
- Greenplum基础实现独有的扩展,如JSON和HyperLogLog
- 支持对象存储服务(OSS)
- 支持迁移工具,如pgsql2pgsql(PostgreSQL到PostgreSQL)或mysql2pgsql(MySQL到PostgreSQL)
- 支持SQL-99、SQL-03、SQL-08标准
- 支持 Apache MADlib项目
最后一个特别有趣,因为它通过“针对结构化和非结构化数据的数学、统计和机器学习方法的并行数据实现”扩展了HybridDB for PostgreSQL,这意味着您将能够在本地、数据库内部对数据进行高级分析。
实操
让我们通过在阿里云创建一个账户,并利用他们为新用户提供的300美元(USD)额度来了解这个解决方案。(注册过程很简单,此处不详细介绍。)目的是创建一个实例,该实例是由一组数据库(至少2个)组成的复合体,它们将共享相同的CPU、IO、内存和磁盘资源。(请记住,一个组内的资源分配给同一台物理主机。)转到控制台,然后点击“HybridDB for PostgreSQL”
点击右上角标记为“创建实例”的按钮
选择区域、可用区和实例规格
确认您的订单
几秒钟后,您的实例将被创建。然后,点击行末尾的“管理”链接
我们将通过Internet配置实例访问,因为这只是一个示例。(此设置风险极高,您应避免在您的项目设置中使用。请阅读安全指南,并在配置实例之前与您的IT安全团队合作。)
接下来,点击左侧面板中的“安全控制”链接,然后点击右侧的“添加白名单组”按钮创建一个新的白名单组。将其命名为“internet”,并将白名单设置为“%”(表示任何IP地址)
安全(不当)配置完成后,我们将创建一个新的数据库用户账户。点击左侧面板中的“账户管理”链接,然后点击“创建账户”按钮
填写详细信息。您的密码必须包含大写和小写字母、符号和数字。(如果您忘记密码,可以从控制台重置。)点击“确定”按钮。为了获得实例的Internet地址,点击左侧面板中的“数据库连接”链接,然后点击“申请公网地址”按钮。(再次强调,这不是推荐的做法,因为风险很高。)
现在,我们将使用PgAdmin III作为客户端来测试设置。(您可以使用JDBC、ODBC、PSQL、Python、libpq等。)注册一个新服务器并填写详细信息。特别注意“主机”— yourgpdbaddress.gpdb.rds.aliyuncs.com;“端口”— 在实例详细信息控制台中显示;以及您已配置的“用户名”和“密码”,然后点击“确定”按钮
设置完成后,您可以使用OSS、mysql2pgsql、pgsql2pgsql或其他工具导入数据,然后开始使用。别忘了查看关于Greenplum项目的功能以及阿里云HybridDB for PostgreSQL支持的扩展的文档。
替代方案
有多种方法可以实现大规模并行处理。HybridDB是其中一种,但市场上还提供其他替代方案,如CitusData、Snowflake Cloud Data Warehouse和Amazon Redshift等。如果您有可以从MPP解决方案中受益的用例,请明智地选择您的提供商。
最后的寄语
稍加努力,并阅读一些文档后,使用阿里云HybridDB for PostgreSQL设置一个基本的数据库集群非常简单。控制台和管理服务简单直观。能够通过几次点击设置大规模并行处理解决方案的环境,同时保持与最先进的数据库引擎之一和有用的扩展的兼容性,这确实看起来很有前景,但有些方面还有改进的空间,比如管理工具的本地化和书面文档。拥有更多应对大数据新挑战的替代方案总是好的。
要免费试用阿里云,您可以利用他们当前的300美元免费额度优惠。