小电机异音异响检测：基于物理参数解耦的AI方法，精准识别真实故障

在工厂里，经验丰富的老师傅只要耳朵一听，就能知道那台滑轨是该涂油了，还是马达快烧了。但随着“老师傅”越来越少，我们开始寄希望于 AI 声音监测系统。

然而，现实往往给工程师们泼一盆冷水。你可能费尽心思训练了一个异常检测模型，结果工厂里机器转速一变、负载一调，或者只是天气冷了润滑油变粘了，AI 就开始疯狂报警。这种因为机器运行参数改变（即“领域偏移”，Domain Shift）导致的误报，是目前自动化巡检中最头疼的难题。

最近，来自日立公司的研究团队提出了一种聪明的方案：通过“解耦”物理参数，让 AI 学会过滤掉那些干扰判断的运行变量。

传统的无监督异常检测（如 VAE 或常用的异常分计算）逻辑很简单：AI 记住正常声音的长相，只要听到的声音不在“正常分布”里，就报警。

但工业现场的情况太复杂了。以一个滑轨为例：

100mm/s 的速度是正常的。
500mm/s 的速度也是正常的。
但如果你只给 AI 喂过 100mm/s 的数据，当机器加速到 500mm/s 时，声音的频谱会发生剧烈变化。AI 并不懂什么叫“加速度”，它只会觉得：“这个声音我没听过，一定是坏了！”

这种现象就是领域偏移。物理参数（速度、压力、温度）的改变，在 AI 眼里和“故障”产生的变化很难区分。如果我们为了减少误报而调低灵敏度，那真正的故障声音可能就被漏掉了。

日立的研究员提出：既然物理参数（比如速度 $v$）是我们可以观测到的，为什么不直接告诉 AI，让它把“因为速度变化产生的声音差异”单独打包放好，剩下的那部分才是我们要查的“健康状况”？

这就是解耦（Disentanglement）的思想。

他们选用了一种叫 Normalizing Flows (NF，规范化流) 的模型。这种模型比传统的 VAE 更有表达力，它能实现输入数据与潜在空间（Latent Space）之间的完全可逆转换。

模型将隐藏的变量分成了两部分：

在计算异常得分时，我们只看 z_c。

这样一来，就算机器转速从 100 变到了 700，变化的部分都被 z_d 吸收了，而 z_c 保持稳定。只有当真正的故障发生时，z_c 才会产生剧烈波动，触发报警。

为什么不用普通的 AI 模型，而非要用 NF？

工厂工程师可能更熟悉“降维”或者“特征提取”。但传统的自编码器（Autoencoder）在处理复杂的工业背景噪声时，往往会丢失细节。NF 模型的厉害之处在于它是可逆的。它像是一个精密的调音师，能够把杂乱的声音频谱一步步还原成标准的高斯分布。

论文中使用了 Glow 这种高性能的 NF 架构。通过在模型的多尺度结构中进行干预，研究员在最后一层施加了一个约束：强制让一部分神经元去“背诵”物理参数。

使用MathJax渲染数学公式

\[ log~p(x)=log~p(z_{c})+log~p(z_{d})+\sum_{i=1}^{K}log|det(\frac{dz_{i}}{dz_{i-1}})| \]

在上面的公式中，我们计算异常得分时，直接剔除掉中间和右边那些受环境影响的部分，只保留最核心的健康指标。

使用MathJax渲染数学公式

\[ a(z_{c}) = -log~p(z_{c}) \]

为了验证这个想法，研究员在真实的滑轨上做了测试。他们让滑轨以不同的速度（50mm/s 到 750mm/s）运行。

最神奇的地方在于，研究员只用了其中 7 个速度的数据进行训练，但在测试时，AI 面对从未听过的“陌生速度”时，依然能够精准地估算出当前的运行速度。这意味着模型真正理解了声音与物理参数之间的数学关系，而不是死记硬背。

实验数据显示：

这意味着，即使工厂突然调整了生产节拍，这套系统也不需要停机重新训练。

对于负责工厂数字化转型的工程师来说，这项研究给出了几个非常实用的启示：

传感器数据要打通： 如果你的机器自带 PLC 输出（转速、负载、压力），千万别浪费。把这些物理参数作为标签喂给 AI，它能学得比单纯听声音更透彻。
拒绝“黑盒”： 传统的 AI 像黑盒，报了警你也不知道为什么。解耦技术让 AI 具有了一定的可解释性——我们可以清晰地看到哪部分变量受速度影响，哪部分代表真实故障。
适应柔性生产： 现代工厂切换型号非常频繁。这种具备“领域不变性”的模型，是实现真正 7×24 小时无人值守监控的关键。

苏州东原电子有限公司推出的 谛听异音检测系统 ，正是为解决工业场景中“AI 误报频发”的核心痛点而生。基于深度神经网络构建先进的机器听觉模型，通过物理参数解耦有效应对领域偏移问题，降低异音误报率，实现精准异常定位，提升设备巡检与品质管控效率，助力企业降本增效、稳定输出高品质产品。