华北电力大学宋光雄:电站设备温度数据分析探索实践

工业设备的温度预警技术方法严重滞后,所以要研究电站设备的锅炉、齿轮箱、轴承温度等部件运行参数的变化过程,分析关键部件温度运行数据复杂性、多样性、不确定性等重要问题,基于不同的温度异常检测方法,利用大规模的运行数据,探索并研究基于异常检测的温度预警方法。

2019年8月22日,由中国能源研究会节能减排中心联合华北电力大学国家大学科技园共同举办的“2019年智慧电厂论坛(第二期)”在北京召开。主旨报告环节,华北电力大学能源动力与机械工程学院副教授 宋光雄作了题为“电站设备温度数据分析探索实践”的报告。北极星电力网对本次会议进行全程直播。

我是2005年到北电力大学教书,一直做电站设备的状态监测与故障诊断的研究工作。我今天到会场之后真是大开眼界,看到了智慧电厂的建设真是很厉害,终于发现有这样的市场空间。我的题目是《电站设备温度数据分析探索与实践》。

温度能干什么事情呢?我想温度至少可以做这两件事情,可以对轴承状态进行预警和评价,第二件事情,可以对锅炉的温度进行检测,我就想说一下,有关于锅炉的温度我们能不能做一些温度异常检测。

首先介绍一下轴承状态的预警评价。轴承状态的预警评价的本质就是劣化过程的评价。劣化过程什么意思?前面很多人说过故障诊断,我是来自于故障诊断领域的,故障的发生往往就是劣化过程的一个阶段,我们说任何事物人有生老病死,我们说事物的发生发展,比如产生了、形成了,会发生发展,可能有前期、中期、后期、晚期的阶段,这些阶段过程中肯定会有劣化,这是毋庸置疑的。这个劣化过程,比方我们说我们今天的主题是讨论轴承的劣化,轴承是很关键很关键的,我们工业运行如果没有轴承是根本转不动的。

轴承的劣化怎么去评价?现在工业界轴承评价有四种方式,第一种油力检测,测润滑油状态。第二种用工业内窥镜,观察轴承内部摩擦面的摩擦情况。但是这两种状况,人员成本、设备停机成本是很高的。第三种,通过劣化数据能不能对轴承进行评价呢?可以。我们可以比较一下,利用温度数据、利用振动数据,温度有什么优势呢?他的数据成本、检测成本、采集成本上温度是远远低于振动的,比方说可能有的人很熟,我们的汽轮机振动,它的一个测点1秒钟要采大概1000、2000、3000、4000个点,温度数据用不用采这么多呢?温度可能10秒钟采一次或者20秒、1分钟、3分钟、5分钟就则够反映一些问题。这样一个数据的采集成本、分析成本不是对等的,所以我们现在就谈用温度来做一件事情。

轴承的监测,实际是一个老话题,你不管滑动轴承也好、滚动轴承也好都有ISO的标准,它的阈值到了80度或者85度,当然国内外的轴承情况不一样,这个规程已经用了10年、15年、20年了,到80、85度是一个报警,到了90、95度是要停机的。我们说已经有了这样的阈值判断标准,我们在这样一个基础上能不能做一些事情,有没有改善的空间,能不能做的更好呢?我们现在想说这么一件事情。我们的目标,当然也有一些问题,我们说在研发过程当中是不是需要这样新的观测方式,我们能不能做一些定性及定量的分析呢,我们下面进一步介绍。

我们说介绍任何一件研究言必之国外的,因为国外是我们的研究目标或者赶超目标。Vestas是供电巨头,Vestas说他自己大数据的应用是这样的,我们用5千台的数据,利用历年来电机轴承的前换端温度进行比较对比,这样的数据规模如果判断有比较大的温差可以进入评价环节,看是不是要修,或者到下一个阶段要集中关注它,Vestas是这样做的。这里有一个问题,你做这样一个事情需要什么样的数据规模,还有就是我们需要有一个什么样的基础呢、还有什么样的条件呢,我们需要不需要新的数据分析工具呢,需要不需要长期的工程验证。比方很多技术说我很厉害,说怎么怎么样,但是你一定要经得起长期的工具链,尤其是在工程界,你技术再先进、再发展一定要经得起各方的质疑。

我们这个探索用了什么样的数据规模,我们用了100多个供电机组的轴承数据,因为一个传动链有一个关键点,轴承有两个测温点,一个在前、一个在后,我拿到的数据是这样一个规模,有66台的数据,我们在清洗的过程中ETL的过程中清洗了6个T,这个数据如果跟大的企业相比不是很大、量不是很多,但是我对专业的做这方面的研究人来说,我也是在近三年看到这么大的数据,以前我们做检测最多看的就是几十个K,或者再多一点就是几十兆,或者再运气好可能见到几百兆的数据,但是如果说你面临几百个G或者几个T的数据的时候,你会发现,我们都是从同样一个理论背景下受的教育,我们发现很多问题、很多理解、很多解释和我们的教材情况是不一样的,我们回头再来说这个事情。

我们研发过程中发现,就需要多维的面向温度的工具,这个基础上我们就可以建立个性化的异常定量分析数据模型,也需要在大规模数据基础上反复验证、不断优化。我也会介绍验证和优化的过程,我这项工作是从2016年6月份开始的,现在已经三年多了。最近三个月我又反过来看这些数据的时候,因为我是连续的做这样的,我见到的数据越来越多,反过来看的时候,我们对它认识会加深。这样的数据是不是在试验台或者很局限的环境中?不是!所有的过程当中我是在工业云上做过这样的,比如说数据给我电厂或者大规模数据让我采集、分析、整理一直到结果的输出,我们整个流程是可以在工业云上完成闭环操作的。

这是什么意思呢?一模一样的数据,我用不同的观测方式得到的信息、得到的定制标准是不一样的,这是一个轴承的两年数据,我们观测这个数据,轴承的温度数据得到的信息是不一样的,无机分布,我们从很少到很集中,这个可以告诉大家,密度最强或者稍弱情况下的分布,这是一个散点分布,这个就是对温度进行切片,在不同的条件下对温度进行切片,我们进行更系统的观察。

定性观察够不够呢?我们该需要定量的分析、定量的计算,这样的分析过程是怎样的结果?是好还是坏?好、坏我们是必须要通过数据来反映的,这样一个计算过程不是那么一蹴而就的,这是一个艰苦的探索过程,这不是一年、不是几个月,我的经历就是。我在一年前对它的了解和三年前对它的了解和现在对它的了解是不一样的。这个就是一个评价的过程,这有一个问题,评价你用一个指标够不够呢?它的一个基本的数据原理是什么呢?你不能凭空造一个原理说,这个是靠谱的,不能这么干,因为我说服不了自己、也说服不了大家,因为大家都是工科出身的,是不那么容易被说服的。

这个就是我通过两个指标,累积量,我们出现异常的累积的数量是多说,比方我们永远是的方式80度,超过80度的情况点有多少个呢,我们现在阈值的标准是动态的,随着时间的退役是有动态变化的。我们超过阈值的一种方式,数量有一个累积量,但是还有一个程度的差异。比方有的轴承过了60度,有的机组超过70度、80度也有,也就是说你超过60度或者50度、70度、80度,程度是有差异的,一般我们说超过七八十度,严重程度就相对很严重了,劣化的程度上也有计量,一个是数量上、一个是质量上要分别进行差异的计算。这是我们前面说10号机组相对好的两年情况是这样的。相对比较差的情况是什么样的,无论在数量上、程度上有很大的不同。

以上我简单介绍了一下评价的过程,怎么预警呢?我总说预测,实际上是预警,预测是很难做到的,当然每个人对预测的理解不一样,我就是说严格的预测我们还是做不到的,比方说地震的预测就做不到,但是地震的预警我们可以做到。什么叫地震的预警,你发生了之后我能够提前10秒、20秒、1分钟、3分钟可以做到,但是预测为什么做不到呢?因为我们对它的运行规律的理解是非常有限的,工艺设备就这样了。

我们说轴承温度是不是也这样,我们看怎么预警的呢?我们预警的结果是这样的,我这个预警覆盖了所有的极端情况,也覆盖了我认为它是一个不正常的情况,这是什么意思呢?比方说我今天从11点半下来到12点要下去的,这个过程我要在这里做一个介绍,如果这种场景下,大家可能监测我的轨迹,我顶多就是在这个舞台上来回走,但是如果说你一旦监测到我的轨迹跑这儿去了或者跑那儿去了,这跟我的场景是不对称的,温度也是这个温度,就是我在一段时间内有一个确定的温度范围,这种确定的温度范围是谁定的呢?是数据给出来的,是100台机组一年到两年的数据确定了他能够给出这样的轨迹范围,这是统计量,这不是人定的,这很难推翻。在这样的一个范围下我就能够预警,你一旦超过了他的统计范围的话肯定是异常。并且这种异常和80度、90度异常的特征是连贯的,就是他这个特征和极端的报警和停机阈值的特征是一致的。这样我们说,我们报警是能够提前到多少呢?原来是80度,我们至少能够提前到60度,时间的提前量有多大呢?一般说两个小时左右。

这是刚刚介绍的单机的情况,我们说需要在一个大环境下进行横向对比、纵向对比,我们总说没有最坏的、也没有最好的,但是我们通过横向对比就能够知道,你好能好到什么程度、你坏能坏到什么程度,怎么做对比呢?下面这个图就是两个点它的异常量数量两年情况下,当然我们可以做某一段时间,三个月、半年或者一年情况的对比,我们发现好的是真好,坏的它的问题也是很严重的,这个东西有什么用呢?我们就能够根据这个东西来判断,或者延伸的话我们就能够为维修决策提供依据,你下次去的时候可以着重看一些高得多的技术。

做一个总结,分三点:

第一点,什么是人工智能?人工智能我想至少是分成两个部分,一个是人工部分、一个是智能部分。人工部分就是专业经验、就是专业角度出发的理解。什么是智能呢?就是算法。算法还不是那么准确,实际上我们人工智能在工业领域要做的就是,要有一定量的数据用一定的方法描述和理解一定的设备。这也比较抽象,我举个故事,也是一个解读。昨天我刚刚看的,《大数据文在》说AlphaGo是什么现象,说AlphaGo中日韩的围棋高手正在华山论剑,突然上来一个端机关枪的把这些高手全都打败了,你如果是那个端机关枪的你就是很厉害的。但是我们在工业领域所谓的人工智能机关枪是什么东西呢?是有明确的实务和软的东西支撑的,一个是数据,一个不一定是人工智能,你可能是很简单的数据算法,也可能是很复杂的数据算法;还有一个是编程环境,因为我们现在没有一个可靠的分析工具给你用,你肯定要自己摸索、自己探索。

我们在工业领域面临的情况,往往是我们可能要走到用更多的数据、用更好的方法在一个可编程的环境里去对工业设备进行探索或了解、理解,了解和理解是最重要的。

第二点,下面还有锅炉数据异常或者温度异常检测,我们说异常检测是不是只限于温度呢?不是,我只是把注意力集中在温度而已。比方我们说过,前面有几位老师也说过变压器异常放电,比方说油温、油压,某一个KPI值,我们说能不能做到异常检测,当然可以,甚至电磁电压,所有你可以见到的任何一种,只要参数是可测的,都肯定是有异常的,你只要给我数据,我们就能做到异常检测。并且我坚信,ABB也在做、霍尼韦尔也在做。

第三点,我就想说数据是可以增值的,怎么个增值法呢?你交给的人,比方你把这个数据交给十个人,你就有十次增值的机会,为什么这么说呢?因为我的经验告诉我,我对数据的理解,三年前、一年前、现在我们对数据的理解是不一样的,就是我们对算法的解释或者算法的理解。所有这个情况在现在的背景下就可以得到一个倍增,什么样的倍增?举个例子,三年前、五年间我们计算机、我们工作站的内存可能是几个G,现在工作站的工作内存是几十个G的情况,或者再过一两年可能几百G的情况,这是一个单机版,这样的情况下我们就可以对大规模的数据进行预算,就是现在是个计算时代。

还有一个问题,我经常说我们有一个模型,某些电厂有一万个模型,你怎么去优化?肯定是需要优化的、肯定是需要管理的,你怎么去管理它呢?这是个问题。因为你在三年前、五年前对这段数据的理解和三年后对它的理解肯定是不一样的,为什么?国际象棋上卡斯帕罗夫被击败过了若干年之后有AlphaGo把围棋选手干掉了,现在也是这样的,因为对事物的理解是越来越加深的,电厂数据是不是这样呢?毋庸置疑肯定是,但是能不能改善、能不能优化、能不能进步呢?这需要考虑。

我们下面简单说一下锅炉。锅炉这个数据我是7月份拿到的,现在是8月份,我们前后间隔一两个月,如果时间再长我可能会做的稍微更好一些。

这是一个机组,是2014年、2015年、2016年、2017年四年的数据,92根,下面是机组的负荷,这么看是看不出来的。我们对它的趋势进行了劣化处理,我们得到这样的,是其中一组,因为92根分6种。我们看一下2017年的1月份,三根线三个测点,原理就是,我们三四个人一起走,齐步走,在2014年、2015年、2016年的时候,他们是严格按照齐步走的顺序一直在走,可是到了2017年1月份的时候出现了交叉,不齐步走了。如果说这一组数据是在一个月的时间跨度下观察,半年或者一年的时间跨度,我们是得不到明确的结论的。大数据是什么呢?至少时间跨度会很大,这样我们对事物的理解会更多。

这个东西是不是偶然的呢?不是,我们如果连续观测92根轮流来一遍,有人会问我你为什么敢这么算呢?因为背景有算法。我们背后的算法什么意思呢?齐步走是什么意思?大白话简单来讲就是长的差不多,长的差不多是什么呢?再用学术点的意思说,持续数据保持同步变化。你在这样的过程中,我用92根轮流来一遍,如果说1、3、5、2号数据点不做处理是这样的情况,你根本不知道有这样的趋势变化。

你把92根轮流来一遍之后会发现,在1月份某一阶段之前有一个集中的爆发,就是说这一点肯定发生了一些事情,并且是我有非常确实的证据来证明这肯定是异常的。再看下一个算法,摘取其中两个,这样就会发现,2017年1月份前后的确是有一个很异常的情况,但为什么我不知道,因为我只是拿数据说话。但是这里头的问题是什么呢,恰恰是在4、5月份,我们知道2017年1月份到7月份有一个中间落差阶段,正好那个机组爆管,是这么一个背景。

以上是我最核心部分的讲解,再补充讲一些内容。

异常检测,绝对有普适性。油压有普适性,各种状况有异常情况,所有的运行参数都可能出现异常,我们不一定要延用十年前、二十年前ISO的标准,我们可以用数据做一些积极的开发。比方昨天有嘉宾就说数据打通,这个数据打通意义是很大的,我们经常也跟电厂的人交流,我们设备不出毛病,可是你要保持现在状态的时候要做很多工作,就是说设备要养生,怎么养呢?肯定需要有数据的支撑。还有,你数据打通有真正意义呢?可以对别的比你更好的或者比你更差的设备提供一个参照的可能。

我想跟大家分享一下什么是工业大数据,为什么我们总说现在到了第四次工业革命,因为我们对数据的理解进入了一个新的阶段,就是大数据,大数据想干吗呢?实际想说的是能够理解多样性是什么、能够理解复杂性是什么、能够理解不确定性是什么。这块怎么说的呢?我们总说金无足赤,可是我们看到理工科所有教材的公式、定理、定律的时候,我们都说的是一种理想情况,但是这种理想情况存在不存在呢?毋庸置疑是不存在的,那你怎么办?实际任何一种事物是有多样性、复杂性的,就是你看到任何一种情况是理想情况的,但是每一个机组、每一个设备是变化的,你怎么去理解这种变化呢,教科书上没有,现在这样的技术、这样的条件下能不能往前走呢?肯定,为什么?技术上已经有一种积累,数据上有积累,我们也要这么去做。

我今天的介绍就是这么多,谢谢大家!