■通讯员 李 爽
2016年,设备部全面接管梅钢BPC(宝钢过程控制)系统的运行维护工作,“BPC系统自力维保团队”应运而生。
梅钢BPC系统采用VM虚拟技术,将4台物理主机虚拟划分为8套虚拟机,涵盖冷轧6条成品机组、热轧2条产线,为工艺人员提供过程数据查询和产品质量分析服务。
团队成立以来,遇山开路、遇水架桥,在曲折坎坷的维保攻关之路上刻苦钻研、打怪升级,以亮剑精神保障了系统的稳定,满足了大生产的需求。
不问“前世”,只论“今生”
团队接管梅钢BPC系统之初,沿袭前期运行维护职责,仅对系统进行常规维护。随着制造部对关键工艺参数过程控制能力管理的加强,BPC系统在产品质量管理中逐渐成为主要抓手和重要工具。短短半年,系统用户数激增,使用频率大幅提高。
访问量的激增,暴露出系统功能性的不足:大面积丢失数据,经常性无法访问。各机组工艺人员陆续打电话抱怨“BPC系统不好使”,甚至质疑自力维保团队消极怠工、不能解决问题。团队成员很是委屈,找到自动化二室主任贾银芳诉苦。
贾银芳几番考量,召集团队开了个小会。她说:“平静湖水练不出精悍水手。系统交到咱们手中,咱们不论‘前世’,只论‘今生’。不会的可以学,只要肯攀登,就没有越不过去的山头。”说完,她在自力维保后面写了一个“+”,决定打造一支既能自力维保、又能技术攻关的“尖兵连”。
摸清脉络,稳定系统
为了加强团队的战斗力,贾银芳对团队成员进行吸纳和调整,将BPC自力维保和技术攻关工作与生产线“一对一绑定”,系统、应用、点检责任到户,形成人人有项目、人人有责任的局面。有压力才有动力,面对“抱怨”,团队成员踏实学习、集思广益,迸发出不一样的活力。
针对BPC系统空间不足导致生产数据频繁缺失的问题,团队制定出“硬盘空间扩容”的解决方案。系统负责人马见华潜心钻研,尝试搭建虚拟机的试验平台。经过几个月的反复测试和不断验证,终于攻克了虚拟机系统扩容难题,2016年11月顺利完成热轧1422和1780系统扩容工作。冷轧BPC系统任务执行期间,数据量大,DB2数据库性能无法满足需求。大家对数据库进行全面分析优化,为BPC系统的稳定奠定了坚实的基础。
不久,冷轧厂提出BPC系统功能完善项目,弥补系统功能性的不足。项目涉及6条成品机组,合计43项修改事项。技术攻关团队主动请缨,梳理学习现有系统的开发平台和数据库,对每条机组BPC系统中相关的142个数据表以及156个画面进行对比分析,最终完成936个班统计、班查询功能优化及37个过程控制模块的程序开发。
用户的激增,消耗了BPC大量的系统资源。团队采用定期结束会话的方式,限定用户数量,确保系统资源的合理分配。
从接管时的一头雾水,自力维保技术攻关团队经过三年的摸爬滚打,基本摸清了系统脉络,BPC系统的可用性、稳定性稳步提升。
“幽灵”再现,团队出招
2017年,BPC系统曾发生蓝屏故障,团队经过攻关,一举解决。2019年上半年,热轧1780机组BPC系统突然频发蓝屏故障,严重时一天多次蓝屏;冷轧区域BPC系统仿佛发生“共振”,电镀锡、酸洗、连退机组陆续突发“蓝屏”。
蓝屏故障的再现,打破了团队有条不紊的工作节奏。本以为已经驱赶的“幽灵”,这次大面积频繁爆发,大家意识到问题的严重性。
用户普遍反映系统界面经常无法登录,且伴有数据丢失的现象。通过多方资料查询,造成该故障的原因众多,非常棘手。
团队首先向研发该系统的相关专家寻求技术支撑。但是厂家反馈,由于BPC系统运行多年,硬盘可能存在坏道,其他硬件故障基本可以排除,建议从软件着手。大家深知,BPC系统硬盘不是说换就能换的,采购会有流程,但蓝屏故障的解决迫在眉睫。
为尽快控制故障,团队决定多管齐下。他们查询1780机组BPC资源使用情况,发现虚拟机内存不足,立即扩容内存。同时,进一步梳理BPC系统软件架构,以往疏漏的环节———SAS数据库浮出水面。
BPC系统中的SAS数据库负责大部分数据存储组态,数据十分庞大,无疑是导致系统异常的隐患,很可能就是问题的突破口。大家迅速编制SAS数据清理程序,生成计划任务,与其他任务错峰执行,成功实现SAS数据的自动删除和整理。通过日志分析,他们推断蓝屏故障与任务调度的故障紧密相关,便安排专人点检跟踪,及时排除任务调度故障。期间,还陆续解决了表格损坏、产品许可证到期、脏数据处理等问题。功夫不负有心人。5月份以来,BPC系统蓝屏故障得到有效遏制,1780机组BPC蓝屏故障为0。