联系我们

苏州奥尔马电子科技有限公司

江苏省苏州市高新区金猫路9号B幢

丁经理

13584892482

13584892482

135848924828

【阿里云】AIOps智能监控解决方案

发布者:极豹云发布时间:2022-05-19访问量:290
以阿里云 Sunfire 全景智能监控产品为中心,涵盖业务智能监测、应用智能监测、Prometheus 监控三大特色能力,实现以安全生产为目标的端到端一体化监控解决方案,致力于帮助运维人员发现业务&应用的风险和故障,借助智能化能力快速进行问题定界,助力客户高效处理报警,帮助用户提升业务&应用的稳定性。


方案优势


全景化
业务场景化、应用拓扑可视化
自上而下、自下而上监控多层级关联

智能化
业务、应用智能监测
告警智能收敛、故障智能定界

一体化
统一 CMDB、开发&运维一体化
故障自愈 、应用弹性扩/缩容


方案架构


功能架构
一站式入口,提供业务/应用/云资源的全景化监控能力,联动阿里巴巴公有云、专有云多云混合的跨云监控模式,串联业务/应用/云资源三层的全链路监控,建立三层结构的业务画像,快速的进行问题定位,通过事件中心完成问题跟踪处置。

能够提供
业务监控
秒级业务指标采集监控;黄金指标异常检测;支持 SQL、ELK 等异构数据源;全景监控大盘

应用监控
单应用、全应用的调用拓扑图、应用内调用的黄金指标智能分析和健康画像、分布式调用链路查询、慢服务/SQL 分析、几十种依赖的数据库、中间件、大数据组件的开箱即用监控

云资源监控
计算类、存储类、网络类的云资源无缝衔接接入即监控,自动识别云资源和应用依赖关系,云资源的健康画像

事件中心
开源系统的报警一键接入、提供多种协议的标准接入,高效、智能化地收敛和分类报警事件,统一纳管和多渠道媒介的通知处置能力



技术架构
分布式、高可用;机器学习、算法模型,低资源消耗,高准确率产出;支持 trace、log、metric 的三维一体可观测的监控数据源;秒级监控计算反馈;完善的自监控、自运维体系;支持 Prometheus 监控生态。

架构优势
架构简单、运行稳定、无外部依赖
支持混合运算
支持异构混合云部署的应用和业务监控
trace、log、metric 三维一体可观测
机器学习、统计分析等算法加持
多种场景化算法开箱即用
支持百万级容器量、秒级监控反馈
支持 Prometheus 监控生态



部署架构
自研的实时采集、计算框架、具有更好的扩展性和响应速度。

架构优势
支持多地跨网络监控
支持混合部署
完善的自监控、自运维体系
分布式、高可用、可水平扩容
具备百万节点的监控能力



核心功能
智能异常检测
通过时间序列分析、黄金指标检测、机器学习算法模型,不断提升算法的告警准确率。
以对每天业务峰点的监控为例,传统的静态阈值或同环比策略,在业务的趋势起伏的周期性变化下会产生多次误报。而AIOps 智能监控解决方案以智能基线为基准,黄金指标多维综合分析,能够准确预测并拟合业务趋势,基于机器学习策略进行一场检测,能够有效避免这类误报,同时精确发现业务异常,提升告警准确率。

业务应用接入后
1、自动收集监控数据;标准化的监控组件,无需人工配置;
2、报警模板功能,帮助管理大量报警规则;
3、对接用户 CMDB,应用上线即监控;Prometheus 无缝对接全托管,无需安装,一键开启;
4、自由统计配置业务场景、业务全链路、业务指标;
5、搭建个性化展示仪表盘,打造从业务到应用的全景化监控。

实时了解业务运行状态
1、丰富的可视化图形组件,炫酷的业务全景大屏,所见即所得,低成本配置方式;
2、支持多种图形组件搭配,自由切换;可定制的大型活动保障大屏(基于阿里巴巴双11全景指挥大屏技术构建)轻松应对复杂场景;
3、支持秒级、分钟级数据同屏展示;支持长时间范围的数据回溯和多时段对比。

基于业务场景的全链路监控
1、从业务场景入口出发,监控整个业务场景的调用链的健康状态,业务场景内所有应用件调用的关系网,包含调用量、RT、成功率;
2、每个应用提供单独的应用总览以及应用的健康画像,可单独查看问题应用的入、出流量,业务影响范围、应用的调用链分析;
3、快速发现、定界异常。

智能报警规则、智能事件收敛
1、支持阈值、环比、日周同/环比等十几种规则;
2、支持对数据的黑白名单过滤和报警时间范围设置;
3、支持对多个判断条件联合检测;
4、报警延迟小于30秒,高效、智能化地收敛和分类报警时间,降低报警处理成本,提升业务连续性。


使用流程


提交合作咨询
点击联系顾问,申请测试。

安装部署
根据需求准备环境,安装部署。

数据采集
可通过安装探针采集系统/应用/业务数据和业务日志,也可以对接 SLS 服务。

报警接收信息
配置报警接收渠道。