亚马逊克服数据引力,拥抱云原生数据库是最佳答案
亚马逊克服数据引力,拥抱云原生数据库是最佳答案
作者:admin
来源:转载 亚马逊云科技
《Worldwide IDC Global DataSphere Forecast, 2022–2026》是 IDC 发布的一份报告,报告中提供了对全球数据领域的发展趋势和未来预测,报告中指出无论是总量和速度,全球的“数据增长”都在以爆炸速度发展。 这也是“打造数据驱动型企业”、“挖掘数据价值”等话题备受关注的原因。 然而,真正做到的公司,寥寥无几。我们尝试从“数据基础设施”层面,给出一些观点与思考。 亚马逊云科技在 re:Invent 2022 上提出了“数据引力”,这是一个我们在数据基础设施层面中的观察,是一个基于时间线和符合 IT 系统历史发展的规律总结。 数据引力是指数据的质量和数量会随着时间的推移而增加,从而吸引更多的应用程序和服务连接到这些数据上。 随着数据的增长,它的影响力也随之增加,因为数据越多越有价值,越有价值就越有可能吸引更多的应用程序和服务连接到它上面。这种现象类似于物理上的引力,因为数据会吸引周围的应用程序和服务,让它们围绕数据集中,形成一种数据引力的效应。 我们基于一个“核心系统”构建“核心数据库”,比如银行业的存款系统。它往往支撑着最核心的业务,也就是存款记录与取款记录,一般核心数据库采用的是当年主流且稳定的商业数据库 Oracle、SQL Server 等等。 而企业的 IT 信息化系统发展是一个自我持续循环的过程,随着使用现有数据层的应用程序的逐渐开发,数据层也会随之扩展以适应新应用程序。随着数据层的增长,它会越来越吸引更多应用程序连接到单个共享的数据层。数据引力将应用和服务吸引到数据,而不是将数据推送给应用程序和服务。 还是以刚才的银行业为例,基于存款系统,发展出了贷款系统、对公业务(比如:代发工资),这些系统自然而然需要与存款系统中的数据进行交互。贷款审核,需要调取存款记录;代发工资,需要查询并调用存款系统公司账号资金表,并写入个人账号资金表。在这个阶段,当初的商业数据库们,表现的是偶有压力,比如每月发薪日、每年的活期结息日等等。经过专业团队的深度优化,仍旧不会有什么问题。 数据的增长量是指数级的,基于数据的应用也随着各类敏捷开发模式、敏捷运维模式的发展而快速增加。而每一个应用还是会收到“数据引力”的吸引,围绕着数据进行部署。 还是以银行业为例,这时就发展到了智能应用井喷的阶段,智能客服、虚拟机器人、个人信用分评估(大数据系统)、移动支付系统、精准营销系统等等接入了。这些系统的数据计算、并发量、查询处理模式都有不同的需求,到了这个阶段,已经不是任何一个单一的产品与技术可以解决的了。 亚马逊自己就切身体会到了这一点。亚马逊电商曾经部署了7500个 Oracle 数据库,高达 75PB 数据量。但是在应对极端情况 Amazon Prime Day (年度促销活动) 时,作为跨越400多个配送中心的全球性活动,无论是执行产品查找、推荐还是完成具有参照完整性和 ACID 交易保证的金融交易,在它们达到需求高峰时,都需要保持一致的高性能且每个任务部分都需要不同的功能。显然,Oracle 已经不适合这样的场景,亚马逊基于使用场景进行了拆分,将7500个 Oracle 数据库拆分并迁移到了 Amazon Aurora、Amazon DynamoDB、Amazon RDS、Amazon Redshift。 管理好“数据引力”对企业的数据管理和决策具有重要影响。如果企业能够合理利用数据引力,将各种数据置于专门构建的云原生数据服务之中,各种应用程序和服务能够基于最合理、最经济、最高效的方式使用数据。这样,企业就更容易实现数据驱动决策和业务流程优化,成为真正的“数据驱动型企业”。 亚马逊云科技建议企业构建属于自己的“云原生数据战略”,而第一步,也是最重要的前提是“通过业界领先的、安全的、高性价比的云原生数据服务构建数据基础设施,夯实数据基础”。 Amazon Aurora 是云原生数据库产品的代表,它们能够帮助企业构建高性能、安全、可弹性伸缩的数据架构,以应对跨区域部署和运维挑战,避免传统架构在业务增长时的中断问题,实现应用与业务的自动扩展和低运维。 Babelfish 是Amazon Aurora 兼容 SQL Server 语言的一个 feature,使用 Babelfish,可以帮助企业摆脱商业数据库昂贵的授权费用,还可以几乎免去商业数据库向云原生数据库转换所需的代码修改工作量,实现更快速、风险更低、成本更低的商业数据库迁移。 Amazon DMS 已经助力80万个数据库轻松、合规地将数据库迁移到云端。在迁移过程中,源数据库可以继续正常运行,最大程度地减少停机时间。 |