应“云”而生,亚马逊“智能湖仓”如何成为构建数据能力的最优解
应“云”而生,亚马逊“智能湖仓”如何成为构建数据能力的最优解
作者:admin
来源:转载 亚马逊云科技
随着新一轮科技革命和产业革命深入交织,数字经济正在成为重组全球要素资源、重塑全球经济结构、改变全球竞争格局的关键力量。 在这一过程中,作为数字化底座的云,已经不仅仅局限于基础设施角色,更是企业持续创新和精益运营的关键支撑。能否从云上获取更多价值,将成为企业能否在数字时代拥有一席之地、持续领先领跑的关键。而云原生对基础设施的革新,带来了一系列“蝴蝶效应”。 随着云原生技术已在互联网、金融等行业“落地开花”,云原生基础设施不仅可以丰富数字化应用场景的多元化实践,也将为企业发展提供可持续的内生动力,“智能湖仓”便是其中最为重要的技术架构之一。 作为“智能湖仓”架构的提出者,亚马逊云科技在云原生数据基础设施方面持续迭代创新, Amazon S3 就是其中之一。 近日,Amazon S3 迎来17周岁,我们举办了 Pi Day 2023的庆祝活动,对 Amazon S3 发展历程进行全面回顾,希望能够不断激发数据的更大价值。 从“数据仓库”到“数据湖” IDC 统计显示,预计到2025年,全球数据量将比2016年的 16.1ZB 增加十倍,达到 163ZB。 数据的海量与多元化决定了从数据中获取有用的价值变得越来越困难,如果无法从数据中获得益处,那么数据价值就无从谈起。 目前,数据的价值呈现两极化特征,一是及时发现,实时分析快速促进业务发展;二是长期存放,数据累积起来,探索数据后隐藏的规律,统一分析其价值,为业务发展提供参考。 新的数据价值将给企业带来更多智能创新应用,比如增长黑客、推荐系统、用户行为分析、AIoT 带来的更多模型,这也意味着 IT 基础设施的变革。 传统数据处理方式,就像“涓涓细流”,里面有 ERP、CRM 等各种业务系统,用户可以设计“一个河道”,数据库在最底层。 数据经过整理后形成中间层的数据仓库,然后通过商务智能工具(BI)来及进行展示。 但在数字化时代,各种各样的视频、移动终端信息如“滔滔江水”,形成大规模的海量数据,用户来不及整理和使用。 这时,一个新的设想打开了人们的视野,假设有那么一片洼地,把所有数据先蓄积到里面,然后通过有效的工具进行查询和处理,这便是数据湖。 国际研究机构 Marketsand Markets 最新研究报告显示,到2024年,全球数据湖市场将突破200亿美元,增至201亿美元,复合年增长率将高达20.6%。 可以说,随着数据治理与应用需求激增,数据湖成为数据管理的重要方式已成为不争的事实。 数据湖的出现,很好的解决了数据仓库建设存在的一系列问题,将数据管理的流程简化为2个阶段,数据入湖和数据分析。 数据湖一般以免运维、高可靠的对象存储为底座,支持各种数据类型的存储。 对于用户来说,借助最新的数据湖解决方案,不仅能解决过去的数据孤岛问题,同时还能兼容传统的数据仓库和数据分析方法。 最重要的是,更适合现代应用部署,比如和机器学习结合,进行预测性的分析。 “智能湖仓”成技术新趋势 随着数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断。 有人说数据湖是下一代大数据平台,各大云厂商也纷纷提出自己的数据湖解决方案,一些云数仓产品也增加了和数据湖联动的特性。 不过在我们看来,数据湖与数据仓库并不是替代关系,而是互为补充、相辅相成,在此基础上的“智能湖仓”将能充分实现两者间的良性互动,成为未来重要的数据技术趋势之一。 “智能湖仓”通过数据仓库治理能力的引入,既可以很好的解决上面提到的数据湖建设的问题,也为更好的挖掘湖中数据价值提供了基础,将高效建仓、灵活建湖的两大优势融合在了一起。 不同于传统数据仓库的管理方式,“智能湖仓”极大地提高了数据开发的效率,同时降低了数据管理的难度。过去处理数据,需要资深的数据架构师定义数仓的规划,从数仓的分层、指标的定义到数据集市模型设计,然后交给专业的数据工程师进行业务开发,再由业务人员进行验证,有一套规范但却复杂的过程。而“智能湖仓”的出现,让企业能够快速的基于业务进行开发,又能够灵活的调整和规划自己的数据管理方式。另外,“智能湖仓”也让大数据行业内各个角色之间的交互变得更加自如。基于“智能湖仓”的数据管理理念,各类数据应用角色能够更好的相互协作,共同开发。 如数据科学家可以方便的集成自己的数据并以纳入标准数仓流程进行管理、业务分析师也能够自己开发数据需求等。 “智能湖仓”打破孤岛勾勒数据价值未来 谈到“智能湖仓”,不得不提到其最为重要的支撑——Amazon S3 ( Simple Storage Service )。 17年前,亚马逊云科技推出了 Amazon S3 服务,首次定义了对象存储,S3 由此成为对象存储事实上的标准,具有划时代意义。2015年,Amazon S3 支持数万亿对象存储,平均在线峰值每秒可处理150万请求,设计为99.999999999%(“11个9”)的持久性。 2022年,亚马逊云科技迎来又一座里程碑。Amazon S3 存储的对象数量已经超过200万亿,每秒可处理数千万个请求。 亚马逊云科技发布 Amazon Redshift 支持 auto-copy from Amazon S3,从物理存储层面打通了数据湖与数据仓库。 目前,全球数万用户都在使用 Amazon Redshift 分析数据库进行数据分析,这些用户来自游戏、金融、医疗、消费、互联网等。 在十多年发展历程中,Redshift 一直在持续迭代,很多功能和特性都源于企业的真实业务需求。 具体而言,客户数仓场景主要包括四大块: 第一,常规业务运营与 BI 分析; 第二,实时数仓分析; 第三,查询、报表与数据分析; 第四,机器学习与分析预测。 可以说,企业要想快速构建数据流水线,Amazon Redshift 是底层基础设置的重要支撑。而凭借 Amazon Redshift 与其他数据分析应用的无缝集成,用户可以获得更完美的数据分析体验。 比如:可以实现高性能格式存储数据,以更经济有效的方式将存储扩展到千兆字节,可实现存储和计算的分离,并且可以实现分析和机器学习引擎的选择等等。 早在2017年,Redshift 就已经实现湖和仓的融合,Redshift Spectrum 可以直接查询在 S3 上开放格式的数据,当然也可以将数据写入到湖中,实现了数据仓库和数据湖的数据无缝流转。 2022年,是 Redshift 推出正式满10周年。在这特别的一年,亚马逊云科技在年度大会上却一反常态,没有发布重大升级更新。 取而代之的是,在会中推出许多新功能,都是和 Redshift相关,从更紧密资料集成、流媒体资料分析到强化安全访问,力求要把 Redshift 打造成企业资料集散地,来符合各种现代化应用的使用,以及能汇集整理各种类型资料,提供 AI 分析和后续应用,更要让这个能够通吃各种资料类型的新一代数据仓库架构,成为加速企业资料现代化的关键产品。 总体而言,作为亚马逊云科技的基石技术,Amazon S3 不断为其技术创新提供源源不断的养分。而“智能湖仓”以 Amazon S3 为基础构建数据湖,作为中央存储库,围绕数据湖集成专门的“数据服务环”,包括数据仓库、机器学习、大数据处理、日志分析等数据服务,然后再利用 Amazon Lake Formation、Amazon Glue、Amazon Athena、Spectrum 等工具,实现数据湖的构建、数据的移动和管理等。 “智能湖仓”架构可以被视为一个“枢纽”,将亚马逊云科技的数据服务无缝集成,打通数据湖和数据仓库之间数据移动和访问,并且进一步实现数据在数据湖、数据仓库,以及在数据查询、数据分析、机器学习等各类专门构建的服务之间按需移动,从而形成统一且连续的整体,满足客户各种实际业务场景下的不同需求。任何阶段的企业都可以从这种敏捷的架构中快速获益,轻松打破数据及技能孤岛,并以迭代及增量的方式获得数据分析的敏捷性,缩短企业提取数据价值的创新周期。 这一架构充分利用了云服务带来的安全可靠、极致性能、无限扩展等优势,能够帮助企业消除数据孤岛,打造统一的数据基础底座,打通从数据获取到数据应用的完整流程,并让企业在云中实现数据与智能的深度融合,从而充分发挥数据价值。 |