首页 > 焦点要闻 > 思享家丨实现 AIOps,你首先需要一双 FSO(全栈可观察力)慧眼

思享家丨实现 AIOps,你首先需要一双 FSO(全栈可观察力)慧眼

2021-12-23 14:31  

基本信息

面向行业
应用领域

 

 

 

 

 

思享家

是一个介绍如何利用思科先进技术解决客户难题的栏目。每期聚焦一个技术热点或应用场景,邀请资深思科技术专家深入浅出地介绍,为读者提供实用性强的建议。


会议室里人头攒动,今年是企业 “ 柔性制造 ” 创新年,双十一超额完成十大产品线销售,一年一度的大型技术复盘会上,部门总监们一边讨论着热门技术话题,一边猜测着今天的重头戏—— “ 点名 ” 环节(技术反思)。被点名并非 “ 坏 ” 事,被点名后,有可能项目叫停,但也有可能项目提速甚至增加投资。大家开始把目光聚焦在 “ 个选交易 ” 上,个选交易允许购买者个性化定制标准件产品,这是实现柔性制造的关键一环,会深刻改变贯穿下单、生产和物流交付环节的整个 OTD 流程(Order to Delivery),尤其是打通 SAP 和非 SAP 应用互访的运维难度非常大。

 

CIO 老周果然点了 “ 个选交易 ” 的名,而且重点就是当天的个选报障——不同城市均有客户投诉:个性化商品颜色、个性化签名图片、个性化徽章图片,均出现提交失败。逻辑上涉及传统应用系统、SAP 系统、图片和数据库系统全链路事务处理(BT - Business Transaction),受影响用户数估计在三位数,交易受损预计至少百万级。老周请各部门就自己本领域的监控说说当天的感受。

 

前端网站团队首先发言:“登录网站的用户数曲线,相对平滑;阈值告警、CDN 和本地服务器,也无异常。”


SAP BASIS 团队认为从基础架构性能、应用模块响应监控看,订单创建、订单队列管理、物料系统和客户化定制均没有报警。


图片和数据库团队也表达了同样的看法,设定的性能阈值也都一直有效。


 

O11Y 部门(Observability)经理小沈正要发言,被老周一个眼神制止了。大家一时都沉默了,你看看我,我看看你,谁也不知道问题出在哪里。

 

 

老周轻轻敲了敲手中的茶杯,打破了令人尴尬的寂静,“其实,我们采购的各类运维平台、工具,不是太少,而是太多,这大家有目共睹。每个部门都在申请看起来不错的工具,但是大家同样也 ‘ Get ’ 到今天的情况了,我们依然无法做到全栈和端到端,看到的运维数据无法回答业务问题。

 


我这里总结几个共性问题:

 

  1. 各自运维各自的系统,从整体角度看是一个一个系统孤岛

     

  2. 因为是孤岛,谈不上端到端性能可观察,好像应用系统里到处存在隔离墙(Observability Wall)

     

  3. 针对应用性能,各部门设置的静态阈值过多,而不是动态性能基线

     

  4. 没有全链路跟踪(Tracing),尤其 SAP 和非 SAP 模块互访环境代码级排错

     

  5. 缺乏全视角企业拓扑(Enterprise Topology),无全栈思维,性能指标需跨技术栈智能关联

     

  6. 运维可视化数据,无法反映业务 KPI,更不要说高保真反映业务指标

     

  7. 运维和排障,花费各团队大量时间,估计至少 35% 以上;

 

我们的应用被频繁的 Lift and Shift(笔者注: 应用和代码的跨平台 “ 直接迁移 ” ),双十一之前尤其明显。业务和应用系统的运维也像是戴着滤镜在做,网络延迟反映不了影响的是具体哪一个事务处理(business transaction),容器故障反映不了具体哪个产品下单受阻……

 

▲ 基于单一技术的监控系统就像戴着滤镜看图片

 

现代化的复杂多云应用,需要全栈可观察,否则谈不上有业务价值的可视化、更谈不上代码级的全栈深度运维和未来的 AIOps。这就是为什么在上一年我们成立了 O11Y 部门,努力推进全栈可观察力(FSO)建设的原因。小沈,你来说说领导组建这个新团队的体会吧。”

 

小沈起身说:“大家知道基于标准开发语言框架下的那些应用性能监控,已经很难了,跟 SAP 应用尤其各类 SAP 业务场景结合的整体运维,SAP ABAP 代码级分析就更难了。更别说业界正在向 SAP S/4HANA 迁移,那将是难上加难。如果仅仅依赖传统的 Metric、Event、Log,我肯定没法完成任务。所以接到任务后,我们先调研了市场上的各种工具,发现 AppDynamics 刚好能提供我们需要的功能。”小沈指了指大屏幕继续说:“就利用 AppDynamics 搭建了打通 SAP 和非 SAP 环境的不同应用模块的运维平台。”


▲ 思科 FSO 让柔性制造端到端(SAP/非 SAP)业务运维不再有孤岛

 

 全栈代码级运维: 用户事务(transaction)和 SAP 调用全透视

 

小沈继续补充道:“获取到全栈可观察力后,整个企业应用业务的每一个事务处理(business transaction),就清晰可见可管了,也可以打破 Observability Wall。像当天出现的故障,我们首先注意到整体转化率下降,同时个选交易这一 BT 黄色(慢速告警),随后的客户报障也验证了这一点。从代码级可视化分析我们得知外部模块调取 SAP 模块慢速、图片入库出现失败现象。应用部门得到我们的通知后,启动了应急预案,故障得以解决,整个过程 15 分钟左右。”

 

 思科 FSO 提供全链路事务处理可观察力

 

老周看了看他的团队接着讲:“如果我们能站在企业的高度全视角地看企业业务整体,就会发现 FSO 是一项 CIO 工程。仅考虑单一技术栈(Stack)显然早就过时,必须全栈。每一技术栈必须具备高度可观察能力,站在我们的客户角度看他们的数字化体验。这是打基础,只有我们把不同技术域都做好,让技术有能力高保真反映业务 KPI,实现 FSO,我们将来才可以进一步企业级全域打通,跟流程集成,比如关键过程审批、故障申报,实现更进一步的 AI 和自动化,帮助我们实现 AIOps 愿景。

 

 应用程序性能,高保真反映 SAP 企业场景、业务成果

 

今天我们的应用分布在物理服务器、虚拟机服务器、容器,我们也正在尝试 serverless,公有云私有云并举,业务越来越复杂,性能和安全需要双保险!应用软件全生命周期供应链保护,你们也可以着手探索。期待团队协作共同努力提升业务条线的综合性能,提升业务条线和应用系统全栈可观察力,打破数字化转型过程中的全栈可观察阻力墙。”

 

老周越说越兴奋,站起身指着大屏幕说:“O11Y 部门的 FSO 项目的后续投资,已经得到 CEO 和 CFO 的一致通过。希望大家在前期成功试运行的基础上,推广到更多业务条线,尤其 SAP 业务和非 SAP 业务被打通后的全链条运维,为集团的 ‘ 柔性制造 ’ 打造坚强可控的 IT 平台。”

 

 

 

 

 

 

赞 0个人觉得赞
logo

北京东方金信科技有限公司

规模:200-500人

网站: http://www.seaboxdata.com/

北京东方金信科技有限公司(后简称东方金信)成立于2013年2月,是一家专注于大数据平台和大数据解决方案的国内领先企业,拥有ISO9001和CMMI3认证,是首批...

粉丝0

关联信息

关于我们 | 全生命周期管理 | 服务的客户 | 版权说明 | 联系我们

公司名称:北京金誉在线伙伴文化传播有限公司    备案号:京ICP备 15026202号-1

意见
反馈
返回
顶部