信息系统运维管理全解:核心指标、流程优化与系统转换实战
本文系统阐述了信息系统运维管理的技术指标、运行管理、故障处理、软件维护、系统评价及新旧系统转换等关键环节。在技术指标方面,详细介绍了MTTR、MTBF等核心运维指标的计算方法;在运行管理方面,重点分析了用户管理、网络资源和软件资源管理的具体内容;针对系统故障管理,提出了包含监视、调查、排查、恢复和收尾的五步处理流程;在软件维护方面,阐述了维护类型、影响因素及提高可维护性的方法;系统评价部分则介绍了
目录
一、运维技术指标
系统运行和维护是一项长期工作,从大多数信息系统的实际情况看,系统运行与维护阶段占整个系统生命周期的比重为60%-80%。
系统运维中,使用的指标包括:
- (1)MTTR:平均故障修复时间。MTTR=给定时间段内消耗在系统修复上的总时间/维修次数。
- (2)MTBF:平均故障间隔时间。MTBF=多次故障之间系统总运行时间/故障总数。
- (3)MTTF:平均无故障时间。MTTF=给定时间周期内系统可正常运行总时间/故障总数。
- (4)MTTA:平均应答时间。MTTA=给定时间周期内系统出现告警到告警确认之间累计的总时间/事件总数。
二、系统运行管理
系统运行管理的目的是对信息系统运行进行管控,记录其运行状态、进行必要的修改与扩展,使得信息系统更好地为管理和决策提供支持。其主要内容包括日常运行管理、系统运行情况记录、对系统运行情况的检查与评价等。
2.1 系统用户管理
系统用户管理是指管理用户的身份和权限,使用户在授权范围内对系统进行操作,防止非授权访问。
用户管理的功能包括用户账号管理、权限管理、企业外部用户管理和用户安全审计。
在信息系统中,通常对用户进行统一的管理。有如下好处:
- (1)使用统一认证,用户使用更加方便。
- (2)管理人员集中控制,安全控制力度得到加强。
- (3)减轻管理人员的负担,提高工作效率。
用户认证的方式主要有四种:用户名/密码方式、集成电路卡认证、动态密码、USB Key认证。
用户安全审计的主要功能是收集、保护和分析用户安全审计数据,形成用户安全审计报告。
常见的用户安全审计报告内容包括:系统运行过程所有情况记录、用户登录系统的时段记录、用户登录失败的记录。
2.2 网络资源管理
网络资源管理就是通过某种方式对网络资源进行调整,使网络能正常、高效地运行,可以把网络资源管理理解为广义的网络管理,网络管理主要包括五大功能:性能管理、故障管理、配置管理、计费管理、安全管理。
网络资源管理系统应该对所有网络资源提供基于地图方式的查询、统计分析、资料配置和维护等基础管理功能,并提供网络资源的物理路由图和逻辑拓扑图管理;提供对设备的各种展开图、端子图等关联管理;提供网络资源的关联管理、资源调度和割接管理;提供对光/电路的路由配置、光/电路的信息查询功能;提供完善的系统数据维护、安全管理、数据备份与恢复、版本控制等方面的系统运行管理功能。
2.3 软件资源管理
软件资源管理是指优化管理信息的收集,对企业所拥有的软件授权数量和安装地点进行管理。包括软件管理、软件分发管理、文档管理。
软件构建是系统的一个可独立配置且具有可复用价值的单元,它驻留在计算机中,一般采用构件的形式来进行管理。
软件分发管理的支持工具可以自动完成软件部署的全过程,包括软件打包、分发、安装和配置等,甚至在特定的环境下可以根据不同事件的触发实现软件部署的回滚操作。可以实现下列软件分发任务:软件部署、安全补丁分发、远程管理和控制。
三、系统故障管理
故障管理的主要目标是尽可能地恢复系统运行,尽量减少故障对业务运营的不利影响,以确保最好的服务质量和可用性。在故障管理中,影响度、紧迫性和优先级是描述故障的3个维度。故障管理包括故障监视、故障调查、故障排查、恢复处理和故障收尾5项基本活动。
3.1 故障监视
故障监视:要充分考虑故障的影响范围、紧迫性,对影响较大的故障类别进行重点监视,借助先进的自动化监视管理工具,启动更多的系统监视功能,或者投入更多的人力、物力和财力。故障接触人员在故障监视过程中起着重要作用,需要进行严格管理。
人员、操作规范性、系统硬件和软件是故障监视的重点内容。
对系统硬件设备的监视包括各主机服务器及其主要部件、专门的存储设备、网络交换机、路由器等。对软件的监视主要针对其应用性能、软件缺陷和变更需求。需要监视的人员包括系统操作员、系统开发工程师、用户、来访者,甚至包括系统所在机房的清洁工和运输公司的职工等。
3.2 故障调查
故障调查就是收集故障信息、确定故障位置和调查故障原因的过程。
故障信息的收集方式分为自动收集和人工收集。
硬件设备故障定位:对外围设备的故障检测应采用脱机检测与联机检测两种方式,以检查是哪种设备的哪个部分出现了故障;对于网络设备的故障,可以通过专门的命令或工具来进行测试和定位。在软件和数据方面,故障定位比较复杂,通常需要经过软件调试的过程,以确定位错误的代码行。
故障原因调查一般是在故障经由初步支持没有得到解决时进行的。导致系统故障的原因包括:按计划进行硬件操作系统维护操作时引起的故障、应用性故障、认为操作故障、系统软件故障、系统硬件故障、相关设备故障、灾难和灾害。
3.3 故障排查和恢复处理
故障排查和恢复处理:目的是能够尽可能地恢复用户的正常工作,尽量避免或者减少故障对系统服务的影响。
- 硬件设备故障的恢复。主机故障需要启用系统备份进行恢复。当遇到线路故障或者网络连接问题时,需要利用备用电路或者改变通信路径等恢复方法。
- 数据库故障的恢复。利用数据库后备副本和日志文件就可以将数据库恢复到故障前的某一致性状态。
- 应用软件故障的恢复。通过软件调试,找出错误的代码,然后进行修改和测试。也可以采取软件容错技术。
故障收尾:主要是基于上一阶段更新后的故障记录和已解决的故障,与用户一起确认故障是否被成功解决,并更新故障信息和故障记录。
四、软件系统维护
系统维护是系统运行过程中的重要一环,是保证系统正常运行,或为了改正错误或满足新需求而修改系统的活动,包括软件维护(程序维护)、数据维护、代码维护、设备维护、以及机构和人员的变动等。在整个信息系统的维护过程中,软件维护是最重要的工作,也是最难的工作。
4.1 软件维护概述
软件维护是指在软件交付使用之后,直至软件被淘汰的整个时期内,为了改正错误或满足新的需求而修改软件的活动。
维护性的6个子特性:
- (1)模块化。指由多个独立组件组成的系统或计算机软件,其中一个或多个组件的变更对其他组件产生的影响最小的程度。
- (2)可重用性。软件能够被用于多个系统或其他软件构建的程度。
- (3)易分析性。可以评估预期变更对产品或系统的影响、诊断产品的缺陷或失效原因、识别待修改部分的有效性和效率的程度。
- (4)易修改性。产品或系统可以被有效地、有效率地修改,且不会引入缺陷或降低现有产品质量的程度。
- (5)易测试性。能够为产品、系统或组件建立测试准则,并通过测试执行来确定测试准则是否被满足的有效性和效率的程度。
- (6)维护性的依从性。产品或系统遵循与维护性相关的标准、约定或法规以及类似规定的程度。
可维护性度量。在软件外部,可以用MTTR来度量软件的可维护性。在软件内部,可以通过度量软件的复杂性来间接度量可维护性。与软件复杂性相关的因素有环路数、软件规模等。
根据维护的原因不同,可以将软件维护分为以下4类:
- (1)改正性维护。为了识别和纠正软件错误、改正软件性能上的缺陷、排除实施中的误使用,应当进行的诊断和改正错误的过程。
- (2)适应性维护。在使用过程中,外部环境、数据环境可能发生变化。为使软件适应这种变化,而去修改软件的过程。
- (3)完善性维护。在软件的使用过程中,用户往往会对软件提出新的功能与性能要求,为了满足这些要求,需要修改或再开发软件,以扩充软件功能、增强软件性能、改进加工效率、提高软件的可维护性。
- (4)预防性维护。是指预先提高软件的可维护性、可靠性等,为以后进一步改进软件打下良好基础。
4.2 软件维护的影响因素
软件维护的影响因素:业务因素、理解的局限性、对待维护的优先级问题、维护人员的积极性、测试的困难。
提高可维护性:采用软件工程方法(文档比源码更重要)、注重可维护性的开发过程。
注重可维护性的开发过程,具体如下:
- (1)在需求分析阶段,应该对将来要改进的和可能会修改的部分加以明确。
- (2)在设计阶段,应该尽量遵循"高内聚,低耦合"的设计原则。
- (3)在编码阶段,应该采用科学的代码规范,强化注释的力度,保证注释的质量。
- (4)在测试阶段,测试做好可以减少维护量;测试相关的文档是维护后的回归测试的基础。
- (5)在维护阶段,要有严格的配置管理,每一次维护工作之后,都要按照配置关联,同步更新维护有关的系统文档和用户文档,保证系统的一致性。
4.3 软件维护管理
软件维护工作流程:

五、系统评价
5.1 信息系统评价
系统评价是对系统运行一段时间后的技术性能和经济效益等方面的评价,是对信息系统审计工作的延伸。评价的目的是检查系统是否达到了预期的目标,技术性能是否达到了设计的要求,系统的各种资源是否得到充分利用,经济效益是否理想,并指出系统的长处与不足,为以后系统的改进和扩展提供依据。
5.1.1 评价流程
- (1)确定评价对象,下达评价通知书,组织成立评价工作组和专家咨询组。
- (2)拟定评价工作方案,收集基础资料。
- (3)对评价对象实施评价,征求专家意见和将意见反馈给企业,撰写评价报告。
- (4)评价工作组将评价报告报送专家咨询组复核,向委托人送达评价报告和选择公布评价结果,建立评价项目档案。
5.1.2 评价指标
- 系统性能评价。可靠性、系统效率、可维护性、可扩充性、可移植性、实用性、适应性和安全保密性等。
- 系统效益评价。是指对系统的经济效益(直接效益)和社会效益(间接效益)等做出评价。与经济效益有关的指标包括系统投资额、系统运行维护费用、运行信息系统而带来的收益和投资回收期等。
- 系统建设评价。分配在信息系统生命周期的各个阶段的阶段评审之中。在信息系统生命周期的不同阶段,系统评价的作用是不同的。
评价指标设计
评价指标设计应遵循但不限于下述方式:
- (1) 效率驱动方式:基于信息系统支撑的业务分类角度设计评价指标。
- (2) 能力驱动方式:基于支撑信息系统正常运行运转的能力(如组织管理能力、人力资金保障能等)是否成熟,完善角度设计评价指标。
- (3) 效果驱动方式:基于信息系统运行产出物(如效率提升、成本降低等)角度设计评价指标。
- (4) 效益驱动方式:基于信息系统用户对象体验结果角度设计评价指标。
评价指标权重设计
评价指标权重设计使用的方法主要有主观赋权法、客观赋权法和组合赋权法。
(1)主观赋权法。当评价逻辑关系、重要性程度须体现指标制定者的评估意图、侧重点等主观考虑时。包括:
- 专家调查法:由专家依据知识和经验,对评价指标重要程度进行判断、评估。
- 层次分析法:依据各评价指标的相互关联影响以及隶属关系,明确评价指标在指标体系中的层级及重要性,形成多层次的评价模型。
- 环比评分法:通过依次确定各评价指标的重要性系数来确定权重。
- 因素成对比较法:通过评价指标成对比较,依据比较结果所反映的重要性来确定权重。
(2)客观赋权法。当评价指标拥有足够多的样本数据,能够通过数据公式反映逻辑关系、重要性程度时。包括:
- 主成分分析法:通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量来确定权重。
- 熵值法:通过计算评价指标的离散程度,并根据离散程度的大小来确定评价指标权重。
- 变异系数法:通过变异系数来比较评价指标之间的重要性,借此确定权重。
- 标准偏差法:通过计算评价指标值的标准差,根据变异程度大小所对应的重要性程度来确定权重。
- CRITIC法:通过计算不同指标权重方案中,单一评价指标的表现差异性以及指标间冲突性来确定权重。
(3) 组合赋权法。当以上两种情形均存在时,宜使用组合赋权法。
系统改进建议是系统评价的最后一个环节,它是评价的最终结果。应根据实际数据,结合事先制定的指标,给出相应的、合理的评价建议。需要形成一个总的评价报告。
六、遗留系统处置

遗留系统是指任何基本上不能进行修改和演化以满足新的变化了的业务需求的信息系统,它通常具有以下特点:
(1)系统虽然完成企业中许多重要的业务管理工作,但仍然不能完全满足要求。一般实现业务处理电子化及部分企业管理功能,很少涉及经营决策。
(2)系统在性能上已经落后,采用的技术已经过时。例如,多采用主机/终端形式或小型机系统,软件使用汇编语言或第三代程序设计语言的早期版本开发,使用文件系统而不是数据库。
(3)通常是大型的软件系统,已经融入企业的业务运作和决策管理机制之中,维护工作十分困难。
(4)没有使用现代信息系统建设方法进行管理和开发,现在基本上已经没有文档,很难理解。
七、新旧系统转换
7.1 新旧系统的转换策略
系统转换是指新系统开发完毕,投入运行,取代现有系统的过程,需要考虑多方面的问题,以实现与老系统的交接,有以下三种转换计划:
- 直接转换:现有系统被新系统直接取代了,风险很大,适用于新系统不复杂,或者现有系统已经不能使用的情况。优点是节省成本。
- 并行转换:新系统和老系统并行工作一段时间,新系统经过试运行后再取代,若新系统在试运行过程中有问题,也不影响现有系统的运行,风险极小,在试运行过程中还可以比较新老系统的性能,适用于大型系统。缺点是耗费人力时间资源,难以控制两个系统间的数据转换。
- 分段转换:分期分批逐步转换,是直接和并行转换的集合,将大型系统分为多个子系统,依次试运行每个子系统,成熟一个子系统,就转换一个子系统。同样适用于大型项目,只是更耗时,而且现有系统和新系统间混合使用,需要协调好接口等问题。

7.2 数据转换与迁移
7.2.1 数据迁移的方法
将数据从旧数据库迁移到新数据库中。有三种方法:系统切换前通过工具迁移、系统切换前采用手工录入、系统切换后通过新系统生成。
7.2.2 数据迁移前的准备工作
数据迁移的实施可以分为三个阶段,分别是数据迁移前的准备、数据转换与迁移和数据迁移后的校验。具体包括以下几个方面的工作:
- (1)待迁移数据源的详细说明,包括数据的存放方式、数据量和数据的时间跨度。
- (2)建立新旧系统数据库的数据字典,对现有系统的历史数据进行质量分析,以及新旧系统数据结构的差异分析。
- (3)新旧系统代码数据的差异分析。
- (4)建立新旧系统数据库表的映射关系,以及对无法映射字段的处理方法。
- (5)开发或购买、部署ETL工具。
- (6)编写数据转换的测试计划和校验程序。
- (7)制定数据转换的应急措施。
7.2.3 数据转换与迁移
数据转换与迁移程序大致可以分为抽取、转换与装载三个过程。
数据迁移后的校验,有两种方式:
- (1)对迁移后的数据进行质量分析。
- (2)新旧系统查询数据对比检查。
相关推荐
软件实现与测试
https://shuaici.blog.csdn.net/article/details/156688661软件架构设计
https://shuaici.blog.csdn.net/article/details/156654826
更多推荐
所有评论(0)