来源:2023鑫智奖第四届中小金融机构数智化转型优秀案例评选
获奖单位:晋商银行
荣获奖项:运维管理创新优秀案例奖
一、项目背景及目标
随着银行业信息科技的高速发展,晋商银行数据中心网络上承载了越来越多的核心业务系统,因此对网络运行的稳定性要求也越来越高。但信息系统间日益复杂的网络访问关系,网络上传输的日益增多的数据类型,都对网络运维管理工作带来了严峻的考验。如何对重要业务系统数据流量进行端到端的可视化监控,如何对网络丢包、传输时延、服务器响应时延、会话异常中断等关键网络指标进行精细化监控,实现对网络的主动高效运维,成为网络运维人员亟待解决的问题。以此为背景,晋商银行建设了一套能够实现网络数据流传输质量可视化监控的网络流量分析系统。最终实现的目标如下:
1.透视网络全流量成分:多维度可视化精准到秒级的任意时间段内的网络流量成分。在网络流量成分出现异常突发时,网络运维人员可以快速定位到网络中的违规流量。
2.网络传输性能可视化监控:图形化监控网络边界线路传输质量、内网高层网络设备数据传输质量,对网络设备存在的性能瓶颈或者隐患进行及时发现,缩小由于设备或线路问题导致的负面影响。
3.网络视角主动分析业务性能:从网络角度,通过网络时延、网络丢包、连接成功率等量化指标来衡量用户的业务体验和网络质量,能通过主动分析发现重要业务系统中存在的性能瓶颈。
4.故障快速定位:对于业务访问失败、访问慢等各种故障现象,通过网络/应用性能指标的主动预警和专家模块诊断,帮助管理员快速确定故障位置,定位问题原因,极大降低排查故障时间,提升工作效率。
5.数据可溯源:长期保存业务系统通讯数据,对于突发性故障可以提供历史数据回溯,重现网络故障现象,定位原因,避免故障再次发生,排除隐患。
二、创新点
晋商银行网络流量分析系统项目建设之前便预见全路径监控的必要性,镜像流量的广大需求性,因此行方建设了第三张网–镜像流量管理网,实现了镜像流量的统一化管理。
晋商银行在实现通用的监控场景后,在后期优化阶段,将其从一个被动运维的“工具”转变成一套主动运维的“解决方案”。转变过程实现了基于故障现场建立警报模型、对接短信平台实现及时感知网络故障和对接CMDB配置库实现资产自动化同步。
三、项目技术方案
1.系统描述
晋商银行网络流量分析系统是通过旁路抓包的形式,经过数据包的解码和分析,通过可视化界面,集中对我们各个业务系统的主机、应用系统、网络设备之间的网络运行情况以及业务访问情况进行实时监控、回溯分析以及快速故障定位。同时根据定义的告警规则进行实时告警,主动发现业务系统中的一些问题。提高工作效率,提升运管水平。同时也为业务运维管理人员、业务人员的决策分析提供主要依据。
2.系统总体架构
网络流量分析系统由科来业务性能管理子系统和回溯子系统组成。
图2-1系统总体架构图
3.系统逻辑架构
晋商银行网络流量分析系统按照数据处理流程共分为分为四个层面,包括流量处理层、数据存储层、综合分析层和可视化展示层,系统架构如下图。监控系统由网络回溯分析系统及业务性能管理系统组成,通过旁路镜像的方式进行数据采集、分析和存储,完成四个层面的完整功能。相关层面的具体实现如下:
1)流量处理层:网络回溯分析系统从镜像流量管理网中获取网络流量,对流量分析计算出评估性能的指标并网络检测。指标数据向上推送到业务性能管理系统。
2)数据存储层:业务性能管理系统将推送上来的指标数据、网络异常等进行存储。
3)综合分析层:业务性能管理系统将多组数据进行对比,实现数据关联分析、性能分析,并采用内部算法计算指标基线等。
4)可视化展示层:业务性能管理系统对网络线路性能、网络设备传输质量、业务性能进行可视化展示,最终形成监控大屏。
4.系统物理部署架构
根据网络流量分析项目需求,项目实施使用科来网络回溯分析系统用于移动数据中心的各区域流量监控和水西门灾备数据中心的各区域流量监控,每个数据中心分别部署中创网络流量分流设备产品进行流量的汇接。
移动数据中心机房安装UPM分析中心,通过分析中心进行全网的处理与分析。相关组件说明如下:
1)回溯:流量采集处理和分析。移动与水西门数据中心分别各部署一台回溯,进行相关流量的采集。
2)UPM:负责数据采集和展示。采用硬件部署方式,通过用户提供的虚拟机平台上安装相应系统软件。
3)采集点:通过TAP设备进行网络流量采集,各数据中心分别由镜像流量管理网连接进行流量汇总。
5.镜像流量管理网建设
为了实现主备双数据中心全网的网络设备流量接入,并方便管理,晋商银行同时建设了行内第三张网-镜像流量管理网,如下图所示。
通过镜像流量技术所有的网络设备的流量复制一份发送到智能TAP网内,然后根据需求对流量进行转发输出。
镜像流量管理网共分为两层,包括镜像流量输入层和输出层。镜像流量输入层用于连接实现镜像的网络设备,接入镜像流量,同时将流量上送到输出层。镜像流量输出层用于连接各种旁路分析设备,如网络流量分析系统、IPS、IDS等。
四、项目过程管理
项目建设共分为两期进行建设。一期建设实现数据中心重要功能区汇聚层流量的监控,二期建设实现剩余功能区以及重点设备前后流量的流量监控。
根据项目规划,工程实施分为 3 个阶段,第一阶段为前期准备阶段,大概需要15个工作日,包括设备采购,到货,设备初验等工作,将于项目采购合同签订后开展;第二阶段是现场安装服务阶段,需要30个工作日,进行网络设备安装调试,并进行系统测试。第三阶段是项目验收需要10个工作日。在安装实施完成系统并稳定工作后进行系统运行测试和验收工作并根据情况进行多次的培训。
五、运营情况
1.面向传输性能的可视化主动运维
建成后的网络流量分析系统为整个运维体系提供了220 性能指标参数,用于评估实时网络传输质量。按照评估的对象不同分为三方面,包括网络传输性能、主机服务性能和应用服务性能,如下图:
同时支持与过去同期的指标参数进行对比分析,通过丰富直观的图表展现方式呈现传输性能的变化。运维人员通过指标量化、对比的方式快速发现网络异常、应用异常等。
2.基于多维度评估的智能警报
由于考虑到行内运维人员精力有限,晋商银行同时针对各种可能发生的网络故障问题进行了评估和预判,对于可能会发生网络问题,建立了多种故障警报模型。实现由设备代替运维人员全天候实时智能监控及时发现网络隐患。
常用的警报模型包括网络线路拥塞、中断和传输质量差;网络设备传输延时突增、丢包率高、包数突增;应用主机响应慢、存在性能瓶颈;网络边界高危端口访问、网银区服务器异常访问互联网等。
从而实现贯穿网络-应用-主机-安全为一体的主动智能运维。
3.高效准确的根因定位
为了更快的发现处理承载在网络上业务故障,我行从网络视角将业务逻辑关系图进行梳理,通过可视化的方式呈现出组成业务的每个应用环节的访问关系和运行状态。运维人员可以通过该图可以清楚掌握每个业务系统所经过的网络路径以及在网络上传输质量。
当网络承载的某个业务出现问题时,运维人员通过性能指标在1分钟内发现性能问题范围,在五分钟内定位造成性能问题原因。
同时针对问题原因还可以采取数据包级分析,用以佐证验证分析结论,并将原始数据报下载复现故障现场,为结论提供数据支撑。
4.基于数据支撑的线路带宽变动
网络线路是晋商银行总行连接外界的通道,晋商银行通过网络流量分析系统的报表分析模块,每月对线路使用情况进行评估,为线路带宽扩容或者减速提供有效可靠的数据支撑。常用的指标包括进出网流量峰值、进出网严重拥塞占比,流量峰值可以看出每月流量带宽使用最高时候的上限,严重拥塞占比可以评估每月带宽出现拥塞的时长占整月时间的比例。
5.多平台联动运行
资产维护是运维不可或缺的一项工作。在晋商银行多个平台需要对主机资产、应用资产、网络设备资产、安全设备资产进行定义和监控,但是平台之间信息不互通,形成信息孤岛,导致运维人员工作量突增。从而晋商银行通过建立了统一资产管理平台—CMDB配置库,行内所有资产变动信息都会更新到此平台上。
网络流量分析系统监控有全网的流量数据,掌握所有主机、网络设备和安全设备之间的通信行为,其所需要的资产信息是最多最全的。因此晋商银行将网络流量分析系统的资产梳理功能与CMDB配置库打通,实现配置自动同步,将运维人员从繁重的资产维护工作中解脱出来。
网络流量分析系统智能警报功能模块监控着网络中多个维度的异常,运维人员早一步感知到警报,就可以早一步完成故障处理,及时遏制故障导致的负面影响。因此晋商银行将网络流量分析系统与短信平台进行了对接,监控系统产生的严重警报会通过短信第一时间通知到运维人员,运维人员接收到警报会立即进入故障处理流程进行故障恢复。
六、项目成效
1.经济效益:节省链路运营成本,对链路中流量优化,提高链路的有效利用率,同时实现线路带宽扩容或降速的有据可依;提升运维人员工作效率,降低人力投入成本;
2.社会效益:及时感知网络性能瓶颈,提供用户可感知的服务体验;及时发现主动外联等异常行为,确保行内数据不存在外泄风险。
七、经验总结
综上,完成网络流量分析系统的建设后,晋商银行的网络运维管理能力不断提升,监控分析视角不断增多,整体的运维体系得到了极大的补充,在网络分析的精细化、可视化和智能化等方面同时也得到了完善。充分满足网络日益复杂的背景下的运维需求,为实现网络稳定、持续和安全运行提供了保障。
更多金融科技案例和金融数据智能优秀解决方案,请登录数字金融创新知识服务平台-金科创新社案例库、选型库查看。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。