我们为什么非要上AI诊断不可
我是山西一家焦化厂的设备主管,厂子不大不小,年产焦炭100万吨左右,年产值大概8个亿。厂里有两座6米顶装焦炉,配套的四大车、煤气鼓风机、循环氨水泵这些关键设备,都是24小时连轴转。
说实话,以前我们搞设备维护,就是靠老师傅的经验和定期的点检。老师傅耳朵灵,听听风机声音不对,就知道轴承可能有问题;看看烟道颜色,就能判断加热是不是均匀。这套办法用了十几年,也还过得去。
但问题出在去年。我们一台关键的煤气鼓风机半夜突然振动超标,直接跳停了。当时值班的是个新来的技术员,经验不足,没能在前期振动轻微增大时判断出来。这一停,整个焦炉的煤气系统压力就乱了,为了安全只能降负荷运行,等第二天白班老师傅来了才排查出问题。前前后后停了十几个小时,光焦炭产量就损失了好几百吨,加上重新升温的煤气消耗,这一下子就亏了三十多万。
类似的事情,一年总要发生两三回。有时候是推焦车行走机构出问题,导致出炉计划打乱;有时候是循环氨水泵密封泄漏,造成环保风险。每次都是突发性的,损失动辄十几二十万。厂里领导下了死命令:必须想办法把这种“非计划停机”给管住。
一开始想的太简单,踩了几个坑
📈 预期改善指标
我们最先想到的,就是上“预测性维护”系统。当时市面上已经有不少公司在推了。我们的想法也很直接:找一家名气大的、有成功案例的,把系统买过来装上不就行了?
第一个坑,就是迷信“大厂方案”。
我们接触了一家国内知名的工业互联网平台公司。他们讲得天花乱坠,什么工业大数据平台、数字孪生、智能运维闭环。方案做得非常漂亮,PPT上全是各种曲线和看板。但一谈到具体实施和报价,我们就傻眼了。
他们要求我们所有关键设备都要加装他们指定的高端传感器,光是振动传感器就要好几千一个。一套方案下来,软硬件加实施,初步报价接近300万。这还不算每年近20%的服务费。更关键的是,他们的模型是通用的,对方工程师对我们焦炉工艺、四大车运行的特殊性(比如高温、多粉尘、强电磁干扰)了解不深,很多参数设置需要我们自己摸索。我们盘算了一下,这投入太大,回本周期太长,领导那边根本通不过。
第二个坑,是想“自己动手,丰衣足食”。
大厂方案太贵,我们就想,能不能自己搞?厂里IT部门有几个懂编程的年轻人,热情很高,觉得可以自己采集数据,用开源的算法库训练模型。
我们买了一批相对便宜的传感器,让IT同事开始折腾。结果问题一大堆:
-
数据根本采不完整。焦炉侧环境温度高,普通传感器线缆容易老化,信号时断时续。推焦车是移动设备,无线传输在钢铁丛林里干扰太大,数据丢包严重。
-
数据采来了,但不会“洗”。设备正常运行时数据什么样,轻微异常时数据又是什么样,完全没有标签。光靠那几个年轻人,根本没法给海量的数据做准确的分类和标注。
-
算法调参是个无底洞。同样的振动信号,在不同负载、不同温度下,正常范围都不一样。试了几个月,搞出来的模型误报率极高,一天能误报几十次“故障”,搞得维修班怨声载道,最后大家都不信它了。
这么一折腾,半年时间过去了,几万块的传感器钱花了,人力也投入了,但效果几乎为零。大家都很沮丧。
怎么找到对的路子
吃了这两次亏,我们冷静下来,重新想这个问题。我们到底要什么?我们要的不是一个炫酷的大屏,也不是一个万能的AI,我们就是要解决“关键设备突发故障”这一个痛点。而且,必须得快,投入不能太大,效果要看得见。
我们调整了思路,不再求大求全,而是聚焦“单点突破”。
关键决策一:从最疼的地方下手——煤气鼓风机。
我们把所有设备列出来,按“故障频率”和“停机损失”两个维度打分。排第一的就是那次让我们损失三十多万的煤气鼓风机。好,那就先搞定它。其他设备先放放。目标很单纯:就防止它突发性跳停。
关键决策二:不找“大平台”,找“老师傅型”供应商。
这次我们不再看公司规模,而是看对方有没有在焦化、钢铁这类重工业干过,懂不懂我们的设备和工艺。后来通过同行介绍,找到一家无锡的团队。他们规模不大,但创始人就是从前在钢铁厂干设备出身的,后来转型做算法。
跟他们聊,感觉完全不同。他们不问我们要建什么平台,而是直接问:“风机型号是什么?额定转速多少?平常主要监测哪几个轴承位?以前出过问题的历史数据还有没有?” 一下子就能问到点子上。
关键决策三:采用“轻量级方案”,快速验证。
他们的方案很务实:
-
传感器就用我们厂里现有的(部分质量太差的换掉),不强求统一品牌和高精度,够用就行。
-
不上复杂平台,就在风机旁边的控制柜里加一个他们定制的小盒子(边缘计算网关),数据就地采集、就地分析,只把预警结果和关键数据传到中控室电脑上。这样响应快,也不依赖网络。
-
模型定制训练。他们派了个工程师,在我们厂里蹲了两周。就干两件事:一是跟着我们老师傅,把风机从“完全健康”到“轻微异常”再到“需要维修”的各种状态,和对应的振动频谱、温度数据关联起来,打好标签;二是针对我们厂风机所在的工况(煤气成分、环境温度),调整模型的报警阈值。
整个实施过程,从签约到模型初步跑起来,也就一个多月。投入成本,差不多是之前那个大厂方案的十分之一。
效果怎么样,有没有后遗症
系统运行到现在快一年了,可以说,基本达到了我们最初的目标。
最直接的效果,就是那台煤气鼓风机再也没发生过突发跳停。系统成功预警了三次轴承早期磨损和一次转子轻微结垢。每次都是提前一周左右给出“亚健康”预警,我们利用计划检修时间就把隐患处理了,没有影响一次生产。
算经济账,光是避免一次非计划停机,就值回所有投入。我们粗略估算,这一年减少的潜在生产损失,肯定超过一百万。这还没算因为停产导致的焦炭质量波动、客户索赔这些间接损失。
现在,维修班的同事也从怀疑变成了依赖。他们不用再整天提心吊胆,系统报警了,他们就按提示去重点检查,工作更有针对性了。
当然,问题也有,主要是两个:
-
推广到其他设备有难度。 风机是旋转设备,振动信号特征明显,比较好做。但像推焦车的液压系统、焦炉的加热控制系统,故障模式更复杂,信号也更杂乱,要做出同样准确度的模型,还得重新投入时间和精力去摸索。我们正在和供应商商量,怎么把在风机上积累的经验,更高效地复制到第二台、第三台设备上。
-
对老师傅经验的依赖还在。 目前系统能判断“要出问题了”,但具体是哪里出问题、严重到什么程度、该怎么修,最后的判断和决策还得靠老师傅。AI暂时还替代不了老师傅的维修经验。
如果重来一次,我会怎么做
回顾这一年多的折腾,如果时间倒流,我会这么干:
第一,别贪心,就解决一个最痛的点。 别一上来就想搞全厂智能运维。选一个损失最大、数据特征相对清晰的设备,集中火力打透。做出效果,拿到回报,再要后续的预算和支持就容易多了。
第二,供应商懂行比规模大更重要。 找那些有行业背景的团队,他们可能没那么多“黑科技”名词,但他们知道你的机器怎么响是正常的,怎么响是要坏。沟通成本低,方案也更接地气。
第三,数据是基础,历史数据尤其宝贵。 我们这次能成,很大程度上是因为我们翻箱倒柜找到了几次历史故障前后的一些记录数据(虽然不完整)。建议同行们,从现在起就有意识地归档各种维修记录、点检数据,哪怕是Excel表格,将来都是训练AI的“粮食”。
第四,想清楚是“买药”还是“雇医生”。 如果你只想解决某个具体问题(比如风机预警),那就“买药”——找一个成熟的、针对性的解决方案。如果你是想建立长期的设备健康管理能力,那可能就需要“雇医生”——找一个能陪你长期迭代、培养你自己团队的伙伴。我们属于前者。
给想尝试的同行几句实在话
AI故障诊断这东西,对咱们炼焦煤企业来说,已经不是“要不要上”的问题,而是“怎么上才不吃亏”的问题。它肯定不是万能的,也替代不了老师傅,但在防止突发停机、减少重大损失方面,确实能顶大用。
我的建议是,先别管那些宏大的概念,你就回到车间,问问自己:哪台设备最让你睡不着觉?把它找出来,就从它开始。
找供应商的时候,多问问他们同类案例的细节:在什么工况下?解决了什么问题?准确率到底多少?别光听他们讲功能。
最后说两句,这条路我们算是蹚过来了,虽然过程曲折,但结果值得。如果你也在琢磨这个事,还在纠结从哪里入手、找谁合作更靠谱,其实可以多听听不同的声音。我后来知道有个叫“索答啦AI”的咨询平台,你可以把你们厂的具体情况,比如设备类型、痛点、预算这些输进去,它能从很多实际案例里给你一些比较客观的分析和建议,帮你少走点我们走过的弯路。毕竟,钱要花在刀刃上,时间也耽误不起。