联系我们

苏州奥尔马电子科技有限公司

江苏省苏州市高新区金猫路9号B幢

丁经理

13584892482

13584892482

135848924828

【阿里云】云原生企业级数据湖解决方案

发布者:极豹云发布时间:2022-05-19访问量:299

数据湖是统一存储池,可对接多种数据输入方式,您可以存储任意规模的结构化、半结构化、非结构化数据。数据湖可无缝对接多种计算分析平台,直接进行数据处理与分析,打破孤岛,洞察业务价值。同时,数据湖提供冷热分层转换能力,覆盖数据全生命周期。


方案架构
数据湖存储
对象存储OSS基于12个9的可靠性设计,可存储任意规模的数据,支持冷热分层,可对接业务应用、各类计算分析平台,非常适合企业基于OSS构建数据湖。
为什么基于OSS构建数据湖
海量弹性: 计算存储分离,存储规模弹性扩容
生态开放:对Hadoop生态友好,且无缝对接阿里云各计算平台
高性价比:统一存储池,避免重复拷贝,多种类型冷热分层
更易管理:加密、授权、生命周期、跨区复制等统一管理

解决的挑战
缺弹性:自建HDFS资源浪费,计算存储耦合扩容难
成本高:自建HDFS成本高,且缺乏数据冷热分层方案
缺服务:相比阿里云EMR等,自建大数据集群,缺乏专家支持
难管理:数据分散在多个集群,缺乏数据的统一管理



应用场景


开源生态构建数据湖


应用场景
• 客户基于Hadoop生态构建数据处理与分析
• 广泛使用在互联网、金融、制造业、交通等各领域

用户痛点
• 数据规模增长快,存储资源与计算资源扩容速度不匹配,客户有成本优化需求
• 数据来源广,存储系统需要对接不同的数据源,包括应用数据

WHY 阿里云
• OSS能支撑 EB 规模的数据湖,支持多种数据通道,全面覆盖日志、消息、数据库、HDFS 各种数据源
•  OSS 无缝对接EMR Hive、Spark、Presto、Impala 等大数据处理引擎,消除数据孤岛
• 阿里云 EMR 大数据专家级服务支持
• 阿里云 Data Lake Formation 提供数据湖元数据管理、数据湖加速等服务;EMR大数据专家级服务支持



构建全托管式海量数仓


应用场景
使用全托管云服务构建大数据系统,客户的精力集中在业务,更关注上层的数据可视化、BI、大屏。

用户痛点
• 客户需要将更多技术资源投入到业务层,而不是在资源运维和管理
• 资源弹性,数据存取、分析需要大吞吐能力支撑

WHY阿里云
• 通过阿里云MaxCompute 、OSS、OTS等全托管服务,让客户的研发资源更多集中在业务数据开发
• MaxCompute 内置SQL、MR、Graph等多种数据计算模型, 对接丰富的可视化服务



大数据冷热分层存储


应用场景
客户大数据场景中有大量累积,数据随着时间推移,访问热度会大幅降低,将不同访问热度的数据存储在不同类型,优化长期存储成本。

用户痛点
• 积累的大数据中的冷数据需要优化长期存储成本
• 计算和存储增速的不匹配,扩容存储资源可能会产生空闲的计算资源

WHY阿里云
• 通过分层存储模式,可以显著优化成本,因存储扩容产生的计算资源闲置不再发生
• 通过将温/冷数据定期存储到OSS,通过OSS弹性扩展和冷热分层能力,极大降低客户资源规划难度



海量数据的交互式查询


应用场景
• 客户在阿里云OSS中存储了各种类型数据,对其中的数据能够做OLAP的分析
• 能够对接流式计算产生的数据
• 分析后的结果需要在对应的数据应用中展示

用户痛点
• 数据查询能够直接进行,不需要提取全部数据到查询系统
• 数据源可能来自多个渠道,包括来自于实时产生的数据
• 对于分析后的结果需要能够可视化

WHY阿里云
• OSS支持多种渠道数据流入,统一存储,且可被多种计算平台直接查询分析
• 支持通过 Data Lake Formation 进行数据湖加速,提升2-10倍的查询性能




数据湖构建机器学习能力


应用场景
训练场景:1)经典机器学习场景;2)深度学习训练场景
推理场景:1)基于CPU在线预测;2)基于GPU在线推理

痛点与问题
训练场景:1)数据量大,模型训练跑不动,时间长;2)没有好的算法解决方案,训练出的模型效果不好
推理场景:1)在线预测资源的弹性扩缩容;2)基于GPU资源的推理服务,成本高

价值与优势
• OSS存储海量非结构化和半结构化数据,表格存储OTS服务化的分布式NoSQL服务存储海量结构化数据
• PAI DLC分布式训练加速,提升训练速度,缩短训练时长;在推理场景中,借助PAI Blade和EAS组合,大幅提升资源利用率



应用实践


在线教育数据湖实践
用户数过亿的某在线教育平台

客户需求
课件素材、应用日志、学习采样等数据能够集中存储
能够对不同类型数据提供课件播放、离线分析、机器学习,实现在线教育不同场景的需求

客户价值
OSS支持音视频、图片、日志等各种类型数据集中存储,无缝对接大数据处理、教学课件点播分发



在线游戏数据湖实践

亚洲领先的某互动娱乐公司

户需求

需要通过数据分析,及时调整游戏关卡难度,掉宝率,资源产出率
需要有资源的扩展和升级能力,传统的大数据集群计算和存储资源紧绑定

客户价值
计算与存储弹性扩展能力降低管理运维难度,存储与计算的解耦合,让升级更具灵活性



互娱新媒体数据湖实践

月活用户数破亿的某互联网新媒体平台

客户需求
优化冷数据的长期存储成本,避免存储成本线性增长
计算资源和存储资源增速不同,资源扩容难以同时保证计算和存储资源的高利用率

客户价值
通过分层存储,引入多存储类型解决客户温/冷数据长期存储成本优化,让用户资源扩容更加灵活


互联网广告数据湖实践

加和科技

客户需求
资源扩容具备弹性,资源使用量按照业务量变化动态增减,控制常驻的计算集群规模,降低TCO

客户价值
通过阿里云的弹性伸缩能力,能够根据业务压力动态增减资源,采用计算与存储分离架构,让广告业务系统构建与升级更具灵活性



行业场景最佳实践


数据湖解决方案—游戏行业最佳实践
通过数据上云精细化运营,挖掘数据价值,提升游戏体验


客户案例


流利说数据湖实践
客户视频-流利说
通过阿里云为流利说量身打造的数据湖解决方案,解决了流利说多种应用的各类数据的统一存储,帮助流利说构建数据规模高达上千亿的“中国人英语语音数据库”。使用阿里云构建的数据湖,可以充分发挥计算与解耦合架构的优点,结合阿里云 ECS 弹性实例和 K8S,根据实际业务需求,动态扩展、缩减对应计算资源,无须按照业务峰值常驻计算资源,帮助流利说最大程度地优化成本。


易点天下数据湖实践

客户视频-易点天下
阿里云数据湖存储与计算解耦合的架构特点为Yeahmobi提供了丰富灵活且高性价比的灵活处理模式,OSS可支持丰富的计算引擎,通过结合使用EMR和DLA等,轻松支持Yeahmobi每天20TB新增日志量、每天超100亿次的请求以及每小时3000万数据的清洗。


加和科技数据湖实践

客户视频-加和科技
通过阿里云数据湖解决方案支撑了加和ReachMax流量业务,日均150亿条、近200列的数据分析和大量的临时数据统计与分析需求。海量的流量决策和分析服务,通过阿里云数据湖基座OSS在数据可靠性、多存储类型、弹性扩展等多方面能力,大幅度简化了加和在数据存储和应用的设计复杂度,相比加和原先使用的自建方案,平均成本下降了30%。