Uploaded by imelijah2013

UPS重大事故应急处理指导书 (V1.0)

advertisement
UPS 系统
重大事故应急处理指导书
文档版本
01
发布日期
2013-05-10
华为技术有限公司
版权所有 © 华为技术有限公司 2012。 保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传
播。
商标声明
和其他华为商标均为华为技术有限公司的商标。
本文档提及的其他所有商标或注册商标,由各自的所有人拥有。
注意
您购买的产品、服务或特性等应受华为公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务
或特性可能不在您的购买或使用范围之内。除非合同另有约定,华为公司对本文档内容不做任何明示或默示
的声明或保证。
由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本
文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。
华为技术有限公司
地址:
深圳市龙岗区坂田华为总部办公楼
网址:
http://www.huawei.com
客户服务邮箱:
support@huawei.com
客户服务电话:
0755-28560000
客户服务传真:
0755-28560111
文档版本 02 (2012-03-01)
邮编:518129
4008302118
华为专有和保密信息
版权所有 © 华为技术有限公司
i
UPS
系统重大事故应急处理指导书
前
前
言
言
概述
为了使服务工程师现场能更快更好地恢复供电,定位 UPS 系统的故障,特编制本应急
处理指导书。
文档应用说明
本指导书作为重大事故应急处理,可以对于明确的故障进行现场的解决,也可以采取
临时措施进行业务恢复,同时为非明确故障的最终定位赢得缓冲的时间。
本文档作为 UPS 产品故障信息采集与常见故障定位维护以及维护指南的一个补充。
读者对象
本文档主要适用于以下人员:

技术支持工程师

维护工程师

客户服务工程师

进机房检测的技术员
文档版本 02 (2012-03-01)
华为专有和保密信息
版权所有 © 华为技术有限公司
iii
UPS
系统重大事故应急处理指导书
前
言
修改记录
修改记录累积了每次文档更新的说明。最新版本的文档包含以前文档版本的必要内容,
并作为旧版本文档的替代。
日期
2013-5-10
文档版本 02 (2012-03-01)
修订版本
V1.0
修改描述
作者
初稿完成
华为专有和保密信息
版权所有 © 华为技术有限公司
iv
目
目
前
录
录
言................................................................................................................................................ iii
1 概要说明.......................................................................................................................................... 1
1.1 定义................................................................................................................................................................. 1
1.1.1 事故(Accident) ................................................................................................................................. 1
1.1.2 紧急故障(Critical Problem) ............................................................................................................. 1
1.1.3 业务恢复(Service Restoration) ........................................................................................................ 1
1.1.4 业务恢复处理时长(Service Restoration Time)
: ............................................................................. 1
1.1.5 UPS 产品问题分级标准 ........................................................................................................................ 2
1.2 重大事故内容 ................................................................................................................................................. 2
1.3 应急处理的内容 ............................................................................................................................................. 3
1.4 重大事故处理说明 ......................................................................................................................................... 3
1.5 事故处理工具与防护 ..................................................................................................................................... 3
2 重大事故的应急处理 ..................................................................................................................... 4
2.1 安全事故的处理 ............................................................................................................................................. 4
2.2 故障信息获取 ................................................................................................................................................. 4
2.3 外部故障处理 ................................................................................................................................................. 5
2.4 内部故障处理 ................................................................................................................................................. 6
3 疏理与清理...................................................................................................................................... 7
文档版本 02 (2012-03-01)
华为专有和保密信息
版权所有 © 华为技术有限公司
v
UPS
系统重大事故应急处理指导书
1
概要说明
1.1 定义
1.1.1 事故(Accident)
与华为相关的,给客户收益或名誉造成较大损失的,需要立即投入资源处理(恢复、
关怀)的事件。
1.1.2 紧急故障(Critical Problem)
严重影响业务、系统处理能力/通信流量、计费和维护功能,提供需要立即采取纠正措
施的问题。
1.1.3 业务恢复(Service Restoration)
指通过实施问题解决方案/规避方案将系统恢复到客户业务不再受影响的状态。
1.1.4 业务恢复处理时长(Service Restoration Time):
指华为从收到客户服务请求(CSR)到客户设备业务恢复的时间间隔。不包括路途时间
以及其他非华为可控因素导致的时间延迟。
文档版本 02 (2012-03-01)
华为专有和保密信息
版权所有 © 华为技术有限公司
1
UPS
系统重大事故应急处理指导书
1.1.5 UPS 产品问题分级标准
对于 UPS 产品,例如:UPS2000-G,UPS5000-E,UPS8000-D 等,共分为三级:严重
问题,关键问题以及一般问题。其分级标准如下所示。
一般问题
(minor)
关键问题(critical)
严重问题(major)
1.因UPS供电影响主设备业务,具体
1. UPS因整流模块或逆变模块故障,
1. 不属于
表现为:
转旁路工作(业务不中断);
Critical 和
1)核心机房所有语音业务、短消息
2.任何功能性的可见度或诊断能力的丧
Major 的 所
业务、所有数据业务等功能全部丧
失,如:系统正常工作,但是监控模
有技术服务
失;
块的LCD 不显示、风扇坏 、充电器故
请求(含咨
2)引起主设备(如服务器/计费系
障、严重问题无告警等。
询),备件
统等关键负载)掉电。
3.反复出现重要组件功能的退化,具体
请求等。
2.设备漏电(除在正常接线操作范
围外)、整机或单板起火危及到人
身和财产安全。
表现为:整流、逆变故障,监控报出
重要告警,指示灯变红色等.
4.产品告警能力退化,如:故障无法上
传、告警无法上传等。
2. 不影响
业务的非重
要性告警和
误告警问
题、数据显
示不准确等.
5.割接、搬迁等重要操作及问题处
理,操作前应提交 RFC 单。
1.2 重大事故内容
UPS 系统重大事故:主要包含 UPS 系统严重问题以及关键问题, 包括以下方面
1.
导致了紧急故障;
2.
可能对安全产生了影响;
3.
影响到后级设备的正常工作;
4.
故障如果不能短时间排除,会导致后级设备的供电风险;
在出现重大事故后,必须进行业务恢复,并尽量缩短业务恢复处理时长。
文档版本 02 (2012-03-01)
华为专有和保密信息
版权所有 © 华为技术有限公司
2
UPS
系统重大事故应急处理指导书
1.3 应急处理的内容
UPS 系统重大事故应急处理包含以下故障的处理,本故障已经或将导致极大的供电风
险,从而导致或将导致重大事故:
1.
安全事故的处理
2.
故障信息获取及判定
3.
外部故障处理流程
4.
内部故障处理流程
1.4 重大事故处理说明
1.
事故处理人员必须具备相应的电气或电池维护的资质,在维护过程中,遵照当地
的电气安全法律法规,进行自身安全防护,切实保障个人的人身安全。
2.
紧急处理的过程操作,应当用标识牌进行标识。临时性的措施要放置提示或警示
标识,将记录在紧急维护卡中。
3.
在紧急处理过程中,会采用一些非规范非可靠的临时措施,在问题可以根除后,
解决所有的临时措施,使整个 UPS 系统符合规范。
4.
一般情况下,即使是发生严重告警,UPS 系统仍可能供电。
5.
在遇到故障时,一定要冷静处理,对故障范围进行模块式的定位,并评估其它的
功能模块是否可以不受影响,从而避免处理扩大化。
6.
在进行事故处理时,要与 UPS 维护策略相对应,如果有些小机维护策略为直接更
换主机,则在判断事故由机器内部故障导致后,不需要进处理,直接更换 UPS。
1.5 事故处理工具与防护
1.
必须熟悉机房的设施,包括灭火装置、逃生路径、手电、身体防护装置等。
2.
配备必要的工具包,包括,万用表、钳流表、螺丝刀、剪钳、绝缘手套、防静电
手套等。
文档版本 02 (2012-03-01)
华为专有和保密信息
版权所有 © 华为技术有限公司
3
UPS
系统重大事故应急处理指导书
2
重大事故的应急处理
2.1 安全事故的处理
在重大事故处理时,人员安全是第一位的,在保证人员安全的前提下,再保障设备与
机房的安全,清除事故或防止事故扩大。
1.
在涉及或冒烟起火的场景,应准备好适用于电气火灾的灭火器。
2.
冷静处理,防止事故扩大,但处理过程中,一定要基于模块化的结构,分块处理
故障,防止不受影响的模块或区域受到不应有的波及或牵连,防止事故处理范围
扩大化。
3.
如果由于公共电网事故,如电网高压,电网供电错误,所导致的 UPS 系统供电故
障,应当在保障安全的情况下,先对上级供电进行隔离,才能进行下级电源系统
的处理。
4.
在遇到高压电网故障、雷击故障时,应当评估人员安全,禁止在高压电网故障或
仍有雷击风险时,派人进机房。在遇到不可抗拒力如山洪、地震导致的 UPS 系统
供电故障时,应先保障维护人员的安全,方可进行应急处理。
5.
在处理电池故障时,应当做好排氢,防酸雾的准备工作(如对机房进行通风对流
处理,做好个人防护等)
。
6.
在不涉及人身安全的情况下,应尽量确保用户机房负载安全,在做单机维护时可
使 UPS 切换到维修旁路,并机或双母线系统的维修应参照相关手册确保负载不断
电。
2.2 故障信息获取
发生故障的第一现场资料非常重要,根据这些资料可以大概判断故障点和故障原
因,可以制定出正确的解决方案。因此工程师到达现场首要的事情是记录有关
UPS的所有状况,主要记录以下内容:
1)
UPS状态(面板信息):发生故障时,UPS处于哪种状态,逆变、旁路、无输出或
者控制面板无显示;
2)
UPS实际输入、输出、电池参数:发生故障时面板显示参数不一定代表UPS的真实
参数,可用万用表测量UPS端子上实际参数,并作记录,包括:输入电压,输出
电压,电池电压;
3)
UPS告警信息记录,如果有条件,请下载告警记录以用于分析故障。
文档版本 02 (2012-03-01)
华为专有和保密信息
版权所有 © 华为技术有限公司
4
UPS
系统重大事故应急处理指导书
4)
UPS各个开关的位置;
5)
UPS环境记录:UPS周围环境对UPS工作同样非常重要,做完上述记录后,应对
UPS周围工作环境做记录:
a) UPS通风如何
b) UPS环境温度
c) UPS周围安装距离是否符合要求
d) UPS周围是否环境不良(如粉尘或潮湿)
e) UPS输入输出电池配线如何?线径是否满足要求?电力绝缘皮是否有损坏?
UPS接线端子是否有松动现象?
f) UPS所带负载名称、类型、额定功率等情况(可向客户咨询)
2.3 外部故障处理
故障类型识别:记录完故障信息以后,参看各UPS的故障信息说明表,大多数情况,
故障是由于UPS外部原因引起的,先依据故障信息表定位并排除外部故障。
外部故障处理,应按以下原则进行:
1)
UPS因外部故障导致的报警,UPS输出可能没有中断,首先要根据报警信息判
断是否对输出有影响,如果有影响,请先考虑将UPS切换到旁路或者维修旁
路。
2)
根据报警信息,参考UPS用户手册中故障处理章节内容,对故障进行定位。
有些报警外部故障或内部故障都有可能导致,应先排除外部故障。
3)
在对外部故障进行定位时,应先了解整体UPS系统,以免盲目动手造成误操
作。
4)
处理外部故障,需用万用表,电流钳等工具,按照告警信息定位,从源头一
步步进行确认,直至发现故障点。
5)
发现故障点,需要对UPS系统进行操作时,要先考虑该操作对UPS造成的影响,
确认清楚以后再动手操作。
常见外部故障原因:
1) 负载过重
2) 输入、输出过、欠压
3) 市电空开断开或市电异常
4) 输出短路
5)
文档版本 02 (2012-03-01)
电池低于低限
华为专有和保密信息
版权所有 © 华为技术有限公司
5
UPS
系统重大事故应急处理指导书
2.4 内部故障处理
若可能由UPS内部原因导致报故障,在操作前应做好如下判定。
1)
若用户负载可中断。请先关闭用户负载,再参考用户手册关闭UPS,断开所有输入输
出开关,等待至少5分钟,用万用表确认UPS母线上没有危险电压后再进行UPS内部
的维修操作。
2)
若用户负载不能中断,请先根据机器类型判断哪些是可热插拔部件。如果故障定位在
可热插拔部件上,判定热插拔操作不会对负载产生影响后,再进行更换。
3)
如果故障模块不支持热插拔操作,需要转维修旁路,请按用户手册步骤将UPS切换到
维修旁路,等待至少5分钟,用万用表确认UPS母线上没有危险电压后再进行UPS内
部的维修操作。
4)
如果是并机或双母线等冗余系统,支持单台UPS的热退出,综合考虑负载等各方面因
素,确认故障机器可热退出后,按用户手册步骤将故障UPS退出UPS系统。故障排除
后再按用后手册定义步骤将恢复后的UPS热加入到整个系统。
若需要更换模块或单板才能排除故障,请注意以下操作。
1)
对UPS内部故障进行处理时,应按照手册中故障信息表进行判定,逐一进行排查。
2)
单板和模块的更换必须由经过培训的专业人士才能进行操作。非专业人士请勿擅自操
作。
3)
更换模块或单板时,应根据工程师手册相关指导进行。
4)
拆除模块或单板时,如果拆除的连接线较多,应该做好标示,以便在更换时不发生接
线错误。
如果通过以上手段仍不能排除故障或一线人员没有能力进行内部故障处理,请将告警
相关信息及时反馈给总部研发人员获取技术支持。
文档版本 02 (2012-03-01)
华为专有和保密信息
版权所有 © 华为技术有限公司
6
UPS
系统重大事故应急处理指导书
3
疏理与清理
1.
由于应急处理时,很多措施是临时措施,必须在确保问题解决封闭后,及时清理
各种临时的措施的标识,临时操作状态。
2.
临时的应急措施如果不能最终解决问题,只是为最终的解决方案创造时间缓冲,
则在最终解决方案实施后,根据应急措施采取过的措施进行恢复,防止临时的不
规范的措施遗留在最终方案中。
3.
重大事故处理,经验很重要,同时经验的积累也很重要,在完成事故处理后,应
当进行详细地案例总结。
文档版本 02 (2012-03-01)
华为专有和保密信息
版权所有 © 华为技术有限公司
7
Download