• 银行IT运维管理台发展分析

    银行IT运维体系一直以来都是银行科技部门管理的核心,其相关内容非常庞杂,比其他行业的IT运维更加辛苦、更具责任。银监会早在2011年《中国银行业信息科技“十二五”发展规划监管指导意见》中指出:加强信息科技风险管理,完善研发运维体系章节,要求商业银行注重强化运维体系建设,提升系统服务水平,保障信息安全,保障金融服务持续稳定,形成信息科技运维体系的长效管理机制。那种被动的、孤立的、分散的“救火式”IT运维体系管理模式,已经让银行IT运维部门疲惫不堪。如何简化银行IT运维体系管理,更好地满足银行业务的需求,已经成为银行IT运维部门的一个重大挑战。

    现有的银行I T 运维体系管理, 涵盖从机房的基础设施,到各类网络及网络设备、服务器、操作系统、数据库、中间件、各级业务系统所引发的各种事件,比如程序错误、系统缺陷、操作失误、系统宕机、硬件故障、容量不足、网络漏洞、故障恢复、灾备转移等诸多内容。同时银行IT运维也面临着应用系统繁多,系统间关联关系复杂,业务处理环节众多,服务链条日渐加长,事件处理过程中信息不全、问题表述不准确、关键信息缺失等问题,都为银行IT运维带来了重重困难。为有效解决银行IT运维部门管理方面的困惑,借鉴行业IBM、HP、CA、BMC等IT服务领域的资深运维管理理念和经验,恒生深入了解银行IT运维管理现状,切实推动银行IT运维的发展。

    银行IT运维管理台是呈现给银行IT运维系统管理员和业务管理员直接、直观的交互渠道。如果用一句话来概括银行IT运维管理台的目的,那就是:哪怕是一个只有基础技术能力的新人,也能做专业的IT维护。建立完整的设备、系统资源管理数据库和知识库,所有设备均可通过系统远程自动化采集配置信息,并进行远程自动化监控。设备遇到问题,会自动报警,以红色标识显示在监控屏幕上,可以是文字告警信息,也可以是设备拓扑结构图,无论是系统自动报警还是使用人员报故障,运维人员只需要按照系统知识库提供的解决方法,一步一步操作即可。因此对运维人员来说,不需要很高的技术水平就可以进行维护支持。

    但是,聚焦我们自身的客户,运维IT系统就面临如下问题:

  • 科技部门应对业务部门的要求,开发了多套系统,而这些系统的管理都是独立的、分散的;

  • 科技部门对现有系统的自动运维管理的投入和开发确实很少,通常业务部门驱动科技部门,以业务系统为重而轻视了运维系统的建设;

  • 随着银行业务系统的增多,复杂度增大,IT系统的风险在加大,长期积累并轻视基础运维系统跟不上众多业务系统的运维发展需要;

  • 科技部门的高层对风险的认识普遍比较高,但他们不清楚具体的应对措施;

  • 科技部门的各个层面各个分管认识不统一。开发部门着眼于开发,运维部门仅是对系统进行统一的管理维护,对已经上线的系统没有修改的权利。而落实到具体的系统运维管理人员,更多是集中自己的工作,关注自己的运维系统不要发生故障,对如何改进系统缺少想法。

    面对实际情况,我们需要提供一个小而精的运维管理平台,而不是一个大而全的运维管理平台。基于现有IT监控系统,整合各级业务系统及相关业务系统监控,构建更加适合银行IT运维体系的管理台。我们提出通过集中操作,通过切合场景应用的监控巡检的思路,提高了运维人员的工作效率,提升了从设备故障到业务应用系统故障的预发现率,有效保障生产的正常、稳定运行。切合场景的应用,即从生产作业计划的内容理解,从多个维度对集中操作运维的监控巡检结果进行统计呈现,并可以对其中产生的异常情况进行跟踪统计分析。

    未来银行IT运维管理台将以任务驱动为主来完成运维的需要。其中银行IT运维管理台将以任务制定为主,可见的任务流程图形化编辑器,或者任务流程脚本化编辑器,供运维人员完成任务制定。任务调度策略有:周期执行巡检、实时执行巡检。

    生产作业是管理台的一个管理单元任务,是流程化的执行脚本,满足三个特性:

  • 标准化:生产作业标准固化梳理,易于知识传承;

  • 信息化:生产作业执行处理记录、跟踪、达到全程管控;

  • 智能化:生产作业向设备和应用系统前移,解放生产力;

    为进一步说明未来银行IT运维管理台发展,以下选取五个场景做简洁说明。

    1、系统健康检查及优化

    系统健康检查就像我们的日常体检一样,是为了及时及早知道系统的健康状态,告知我们需要采取哪些注意措施。这也是银行IT系统管理运维人员每天需要例行完成的工作任务之一,构建适合银行的系统健康检查及优化方案,该功能依据检查生产作业脚本中诸多内容实现对系统的集中监控,主要包括对涉及的所有操作系统、数据库、中间件、业务系统的运行状态、事件管理进行遍历,结合历史性能数据的基线分析、系统运行配置参数阈值,提供系统运行的分析报告,大幅度降低出现系统问题及故障的解决时间。银行IT系统健康检查及优化可以通过确定性能降低的原因、可用性故障点和安全隐患来保护银行的业务,可以帮助银行客户对本身正在运行的业务应用系统的技术特征,故障隐患有一个全面的了解,以便根据业务发展需求和目前系统资源状况,制定合理可行的系统扩容、改造、维护计划,提高IT生产的安全性。

    2、配置信息收集

    资源管理作为I T 运维系统建设的基础、是相当重要的一部分,我们以业务应用系统为单元为其进行资源配置信息收集并管理。配置信息收集不同于系统健康检查,系统健康检查侧重性能指标,配置信息收集侧重资源属性。比如网络设备配置信息、服务器配置信息、数据库配置信息、中间件配置信息、业务应用系统配置信息等。配置信息收集能为CMDB提供实时的配置信息及配置变更信息。更为有意义的是,周期性的收集所有设备、系统配置信息,可以形成业务应用系统配置快照,生成系统配置信息报表,也可以对系统配置快照前后对比,获得系统在某段时期的配置变化,对系统的运行能力做出有效的评估,积累系统合理的调优参数,提供给银行IT运维完成持续完善调优参照。

    3、业务参数配置

    业务参数配置是对业务应用系统中一些重要的参数进行设定,这些参数会对业务应用系统中的业务流程、操作方式产生重要的影响,业务参数的正确设定对业务应用系统能否高效平稳运行具有重要的影响。根据银行IT系统运维需要,一方面把一些可以公用的业务数据集中统一管理并配置,由各个业务应用系统自行调用使用。另一方面可以让管理台来管理某些业务应用系统的业务参数配置。这样统一了业务应用系统的业务参数管理入口,运维人员不需要在多个业务应用系统自带的管理页面中进行管理。

    4、应用版本发布

    应用版本发布上线,为了保证发布版本的正确性及稳定性,不会出现版本的混乱,执行应用版本发布规范及流程,通过建立可发布版本受控区,保证软件生命过程中所有系统及产品和服务的完整性、一致性、可追溯性,同时保证测试的效率和有效性。一键更新到启停的脚本规范及实施,为应用版本在数据中心集中运维提供良好的便利性和简洁性。

    5、应用系统巡检

    系统巡检现在已经是银行IT运维一贯实行的一种保修制度,比如网络设备的巡检、服务器的巡检,巡检的对象主要是硬件设备,通过我们工作实践,巡检对业务应用系统同样适用,比如操作系统、数据库、中间件等采用模板化设计理念,实现业务应用系统个性化巡检管理。巡检管理以资源配置信息为基础,监控为核心,巡检为方法,告警为手段,全面立体实时对业务应用系统进行有力高效的管理,做到事前预防、事中监控和事后分析。

    通过以上的描述, 未来银行I T 运维管理台将融合ITIL运维流程管理,并以场景化来驱动运维管理,做到标准化、系统化,以更好的方法和更好的基础做好运维工作。