联系我们

苏州奥尔马电子科技有限公司

江苏省苏州市高新区金猫路9号B幢

丁经理

13584892482

13584892482

135848924828

【阿里云】云原生可观测运维解决方案

发布者:极豹云发布时间:2022-05-19访问量:287

该方案基于 SLS 云原生可观测平台实现,以大数据源为支撑,兼容开源标准,可实现多场景适配 AI 算法,进行大规模数据处理分析。是阿里云针对企业级大数据运维场景推出的解决方案,帮助企业在日常运维工作中轻松实现异常检测、根因分析、秒级响应以及实时预测。


方案架构


云原生可观测运维解决方案
本方案以阿里云日志服务 SLS 为核心,基于日志服务 SLS 一站式的数据采集加工查询分析可视化告警能力,并结合大数据与机器学习,为用户实现对业务系统的智能可观测。


可以解决的问题

数据关联难:运维系统多,形成数据孤岛,无法关联分析
异常发现晚:系统发生异常后才去排查修复,充当救火队员
故障恢复慢:故障定位和排查没有头绪,排查问题耗时长
维护成本高:运维系统自身稳定性差,维护成本高


方案优势

数据集中采集存储:将日志、指标、调用链数据统一采集、存储、分析,提供完整可观测数据采集存储能力
智能告警中枢:全面监控,智能降噪,灵活多维通知能力
监控巡检智能化:提供异常检测功能,结合智能告警与反馈机制让监控更准确更及时

运维服务化:完全免运维,更专注于维护业务系统稳定




方案优势
日志、指标、调用链三大可观测性数据集中管理
通过sdk、日志采集探针(logtail)、调用链探针(支持 OpenTelemetry 框架)多种方式,将服务器、页面、移动端、网络上产生的数据集中采集到日志服务平台中,统一加工、存储、分析,实现完整的业务系统可观测性。

全面灵活智能的告警神经中枢
SLS 提供支持多源多账号多条件统一的监控平台,结合多维智能降噪、告警事务管理、灵活通知分派能力,使得告警系统能够真正触达业务系统的每一个神经,真正成为感知系统变化的神经中枢。

支持自动识别数据特征实时建模的异常检测能力
SLS 智能巡检功能采用无监督学习算法,能够自动识别实体的数据特征,根据数据特征选择不同的算法组合,针对数据流实时建模,完成异常检测任务。并根据用户的打标信息,训练监督模型,实现算法的不断优化,提高准确率。

应用场景


云原生全方位日志实时监控
场景痛点
容器稍纵即逝,业务日志随容器消失而丢失,故障无法排查
日志量大,传统日志分析方案遇到性能瓶颈,运维压力大
静态阈值监控方式,告警准确率低,无法及时发现问题
业务调用链过长,故障发生后,问题定位时效低

解决方案
Cidercar/Daemon-set 方式动态采集容器内业务日志
数据写入弹性扩展,支持 PB/天 数据吞吐量,十亿级查询秒级返回
智能巡检动态阈值,结合告警中枢智能降噪,有效收敛告警数量,提高告警准确率
Trace 数据快速接入,自动展示完整调用链路,定位到代码级问题

方案价值
全托管免运维,让客户安心使用云原生环境敏捷开发,更专注业务
自动化异常发现与检测,帮助客户及时有效发现问题
代码级问题定位,减少开发排查故障时间,大大提高开发效率



混合云及多云应用系统集中运维监控

场景痛点
云上云下及多云环境 IT 系统无法统一监控,出现故障要分别排查,效率低
IDC 内的服务器、网络设备、存储等出现故障无法关联到应用层
不同服务设备阈值不同,监控规则多且复杂,管理成本大

解决方案
IDC 及多云环境的服务器通过 logtail 将主机指标和应用日志上报到云端进行监控
使用 Logtail/Trace 将应用系统基础层、应用层自动关联,应用出现故障可以下钻定位到基础层
通过智能巡检动态监测设备异常,简化监控规则配置及管理

方案价值
统一管理所有 IT 资源,提高运维效率
根据 IT 资源忙闲情况灵活调整资源用量




跨服务统一告警中枢

场景痛点
现有告警服务不具备智能降噪功能,导致告警风暴
现有告警服务不具备告警事件管理功能,告警无法有效闭环
现有日志分析平台迁移需要周期,但告警问题希望快速得到收敛解决

解决方案
日志服务支持通过 Webhook 方式接收外部监控系统中的告警消息(如 Grafana、Prometheus),无须迁移数据即可接入智能告警
通过开放告警接入数据后,即可使用日志服务智能告警功能中的智能降噪及告警事件管理功能

方案价值
无须迁移数据即可快速解决告警风暴问题
多个服务统一告警中枢更易于告警事件管理



客户案例


畅捷通
畅捷通运维开发团队借助日志服务,打造了一套智能可观测性平台,实时监测业务系统的用户体验与系统状况,通过预测业务异常点,提前规避问题。并且通过钉钉告警实现 ChatOps 自动化运维。提高了运维效率,降低运维成本与沟通成本。这套智能可观测性平台支撑了畅捷通所有云产品的健康稳定运行,在 IT 运维开发领域树立了一个标杆。


沙盒网络
阿里云日志服务帮助沙盒网络团队解决了多云部署全球化业务场景下数据集中采集统一管理问题,整体异常问题排查时间缩短30%左右,有效助力业务高速成长。

米连科技
伊对的业务量在短时间大规模增长,直播间稳定性和用户体验面临巨大挑战,自建 ELK 平台的稳定性已经无法支撑业务的增长。通过云原生可观测运维解决方案,将移动客户端到服务端的各种数据都汇集到一起,构建一个统一运维监控平台,可以快速发现用户体验出现的异常并及时修复。让运维人员和开发人员都能在同一个平台中排查问题,提高沟通和运维效率,缩短故障恢复时间。