网站首页 > 云计算 > 云计算技术 AWS张侠深度解析“数据湖”的数据洞察能力 正文

AWS张侠深度解析“数据湖”的数据洞察能力

admin 2020/09/07 云计算技术 118℃

云计算

3[db:标签]30[db:标签],在数字时代,企业海量数据的隐藏价值受到了前所未有的重视,企业的信息和数据流被视为“企业的血液”。同时,“充分利用企业的数据资产”和“如何从大量数据中获取信息,洞察未来”已经成为企业和行业专家不断追求的能力。

近日,AWS首席云计算企业战略顾问张夏向媒体介绍了“AWS数据湖”在实现“企业数据洞察”方面的最新技术成果和应用表现。

张夏说,数据本身的价值在于从中提取真正有用的“信息”,将信息分类为“知识”,然后用知识来指导企业的“行动”,帮助企业经营业务,帮助客户实现业务需求,提高客户满意度等。最终为企业创造更多价值。

“数据湖”老概念焕发新活力

那么,数据湖究竟是什么?

AWS数据湖三大元素

根据张夏的说,数据湖是一个中央数据存储容器,可以存储各种格式化和未格式化的数据。这些数据很容易快速缩放,并且有各种方法和工具来查询这些数据和进行各种分析

一般来说,很多原始数据都是结构化数据和交易数据,比如什么、多少、多少和年龄。这些都放在一个数据库和数据仓库的小网格中,但是现在有了一套方法。这套方法集成了任何类型的数据库,结构化的、非结构化的和非结构化的,包括电子邮件、视频、音频、图形、一些文章、一些照片等。可以直接保存它,我们利用计算时代的海量存储容量和各种新的查询能力,以及各种数据分析和处理能力,直接对原始数据做查询,这就是数据湖的时代。

AWS数据湖的应用

010-59000

AWS推出了一系列关键服务来帮助企业构建数据湖。张夏介绍说,数据湖的操作步骤通常包括:建立和存储数据;然后根据需要将数据移动并加载到不同的位置。然后清理数据并建立一个数据目录。这些数据应该以安全和合规的方式存储和管理,必要时应该使用工具取出这些数据进行各种分析。

基于此,AWS数据湖目前主要包含三个要素:第一,亚马逊S3/冰川;第二个是awglue第三个是AWS湖组。

AWS Glue是一个完全托管的数据提取、转换和加载(ETL)服务和元数据目录。它使客户更容易准备数据并将数据加载到数据库、数据仓库和数据湖中进行数据分析。使用AWSGlue,可以在几分钟内为分析准备好数据。AWSGlue消除了ETL操作基础架构中的所有重复劳动,因此可以找到亚马逊3数据湖中的数据集并将其用于查询和分析,大大缩短了ETL和分析项目中数据编目的时间,并使ETL变得更加容易。

AWS湖格式可以自动化构建数据湖的过程,并帮助企业客户进行操作。它可以使许多企业在几天内完成数据湖的建设。

awslake格式尚未在中国正式推出。

010-59000

据张夏称,自动气象站数据湖已在世界范围内广泛使用。

以亚马逊本身为例。亚马逊曾经是甲骨文全球数据库的最大用户。它使用了75PB的数据库,并使用了7500多个数据库示例。在整个亚马逊,超过1,000个不同的团队最初是基于甲骨文的数据库,涉及运营、电子商务、营销和库存的许多方面。在过去的一年半到两年里,亚马逊做了一件事,那就是全方位地退出甲骨文的数据库。去年11月,亚马逊将甲骨文的所有数据库迁移到了自己的相应产品上。

"这次迁移解决了一系列问题,如扩展困难、成本高,数据库成本降低了60%,管理成本降低了70%,性能提高了40%。"张夏说。

此外,在金融领域,纳斯达克交易所也使用AWS数据湖产品。通过使用数据湖每天处理500亿笔付款,数据湖的使用将上市时间缩短了1/3,并具有良好的服务能力。

张夏说:“AWS数据湖的一大优势是将所有这些服务集成在一起,使用统一的接口和标准,包括无服务器计算。使用自动对焦胶水后,自动对焦λ和自动对焦步进功能在此连接。亚马逊的其他服务已经完成了这个无服务器界面,所以所有的服务都被同时打开了。这是数据湖得到广泛有效应用的原因之一。”

张夏强调道:“所以我个人认为数据湖已经到了真正需要研究和使用的阶段。数据湖在中国处于相对早期的发展阶段。这个时机非常重要。在经济数字化转型的时代,数据湖的应用和功能越来越强大。在下一代互联网、电子商务、5G边缘计算等发展之后,我们应该走数据湖中的数据存储和分析之路。因此,我们认为,如果我们利用这一时机向我们的公众和业界相关人员提供这些知识,就可以更好地利用中国,甚至这些相关服务,这是我们非常欢迎的。”

网站地图