水处理AI突破小样本困境:VAE数据增强让污染物降解预测精度达88%

离子
2026-01-18 19:00:25
人工智能
论文精读与讲座笔记

华东理工大学团队在 Water Research 2026 年 291 期发表《 Data-augmented machine learning improves water treatment design: 
Precise prediction of PPCPs reaction with reactive radicals 》,提出 VAE-ML 数据增强框架。通过变分自编码器(VAE)将 28 条 PPCPs 与 CO₂・⁻反应动力学数据扩展,使训练集从 22 条增至 122 条。最优 VAE-ANN 模型测试集,较基线模型提升 0.15-0.29,且成功泛化至・OH 主导的 AOPs。结合 SHAP 揭示电子转移主导机理,为水处理工艺优化提供精准、可解释的 AI 方案。




高级氧化 / 还原技术(AOPs/ARPs)是 wastewater 中有机污染物的 “强效降解剂”,但自由基与污染物的反应动力学数据稀缺,导致机器学习模型易过拟合、泛化能力差。华东理工大学团队在《Water Research》发表研究,创新性引入变分自编码器(VAE)进行数据增强,构建 “VAE-ML” 框架,不仅将反应速率常数预测精度大幅提升,还通过 SHAP 揭示分子机理,为水处理工艺优化提供精准解决方案。


  一、水处理 AI 的 “卡脖子” 难题:数据稀缺制约研发


在水处理中,精准预测污染物(如药物与个人护理品 PPCPs)与自由基(如 CO₂・⁻、・OH)的反应速率常数(k),是优化降解效率的核心。但实际应用中面临两大关键障碍:


数据获取成本极高:通过纳秒激光闪光光解(LFP)实验测定反应速率常数,流程复杂、耗时费力,本研究仅获取 28 条有效数据(23 条实验测定 + 5 条文献补充);


模型性能受限:小样本下,深度学习与集成模型易过拟合,线性模型虽相对稳定但预测精度不足,且难以捕捉分子间复杂的非线性关系,无法深入解释反应机理。



图1 28种 PPCPs 与 CO₂・⁻反应速率常数分布及特征相关性热图


  二、VAE 的 “数据魔法”:小样本变身大数据


VAE 作为生成式模型,通过 “编码器 - 解码器” 架构,从少量真实数据中学习分布规律,生成可信的合成数据,完美破解小样本困境:



图2 VAE-ML水处理预测框架全流程


2.1 VAE 核心原理与关键公式


VAE 的核心是通过编码将高维分子描述符映射到低维潜在空间,再解码生成新数据,其训练依赖关键公式支撑:


证据下界(ELBO)损失函数:平衡数据重构精度与潜在空间的平滑性,确保生成数据贴合真实分布



其中qϕ(z|x)是编码器的变分分布,pθ(x|z)是解码器的生成分布,DKL为 KL 散度,避免生成数据偏离真实分布。


潜在空间重参数化:通过随机采样生成多样化合成数据



μ和σ是编码器输出的均值与标准差,ϵ为标准正态分布的随机噪声,保证生成数据的多样性与合理性。


2.2 数据增强全流程


分子描述符构建:通过 Gaussian、Multiwfn 等工具,计算结构、量子化学等 93 个初始特征,经 Lasso 回归筛选出 18 个关键描述符;


VAE 训练生成:以 22 条训练数据(80% 总数据)为基础,训练 VAE 生成 100 条合成数据,使训练集扩展至 122 条;


分布验证:核密度估计(KDE)验证显示,合成数据与真实数据分布高度一致,峰值偏差仅 5%,确保数据有效性。


  三、模型性能飙升:从线性到非线性的跨越


3.1 预测精度大幅提升


模型性能评估依赖两大核心指标:



其中ypi、yti、ym分别为预测值、真实值与均值,N 为样本数。实验结果显示:



图3 VAE-ANN模型预测性能及各模型精度对比


基线模型:小样本下线性模型(ElasticNet)表现最佳,R2=0.86,非线性模型(ANN、RNN 等)因过拟合性能较差;


VAE 增强后:所有模型性能显著提升,VAE-ANN 模型表现最优,测试集R2=0.88、RMSE=0.21,较基线模型R2提升 0.15-0.29;


泛化验证:将框架扩展至・OH 主导的 AOPs,同样大幅提升预测精度,证明其通用性。


3.2 机理清晰可解释



图4 VAE-ANN模型特征重要性及部分依赖关系图


通过 SHAP 分析与部分依赖图(PDP),揭示反应核心影响因子:


关键分子特征:HOMO-LUMO 能隙(EGAP)、分子硬度(S)、表面静电势(ESPposper)等是决定反应速率的核心;


反应机制:电子转移主导污染物降解,低EGAP、低分子硬度、强局部富电子中心的 PPCPs,反应速率更高,为工艺优化提供定量指导。


  四、应用价值:水处理工艺优化的 “智能指南”


该框架的落地将为水处理行业带来实际变革:


降低实验成本:减少昂贵的 LFP 实验需求,通过 AI 生成数据辅助模型训练,大幅降低研发成本;


优化工艺参数:精准预测不同污染物的降解速率,指导自由基生成剂用量、反应条件调控,提升处理效率;


拓展应用场景:可推广至各类有机污染物的降解预测,适配 AOPs/ARPs 等不同水处理工艺。


  五、总结:数据增强 + AI,解锁水处理新可能


VAE-ML 框架的核心价值,在于用生成式 AI 突破小样本限制,既提升了预测精度,又实现了机理可解释性。其 88% 的测试集R2、0.15-0.29 的精度提升,为环境科学中 “数据稀缺” 问题提供了通用解决方案。未来,该框架有望广泛应用于各类水处理场景,让 AI 更高效地助力污染治理,守护水资源清洁。


 




文章链接:https://doi.org/10.1016/j.watres.2025.125259

33
0
0
0
关于作者
相关文章
  • LSTM结合遗传算法的股票市场趋势预测:方法、实现与验证 ...
    本案例提出一种 LSTM 与遗传算法(GA)结合的股票趋势预测方案,解决股价时间序列二分类预测中 L ...
    了解详情 
  • 周期性感知框架PerioGT:聚合物深度学习建模的突破与应用 ...
    2025年发表于 Nature Computational Science 的研究《 Periodicity-aware deeplearning for poly ...
    了解详情 
  • EP-GAT革新股票预测:能量建模 + 并行注意力精准捕捉市场动态 ...
    布里斯托大学团队提出 EP-GAT 模型,为股票趋势预测提供新方案。其用能量差异与玻尔兹曼分布构建 ...
    了解详情 
  • 量子优化新突破!解码量子干涉(DQI)如何让难题求解速度快 10 ...
    谷歌量子 AI 团队在《Nature》提出解码量子干涉(DQI)算法。其将组合优化转为量子态制备、解码 ...
    了解详情 
联系我们
二维码
在本版发帖返回顶部
快速回复 返回顶部 返回列表
玻色有奖小调研
填写问卷,将免费赠送您5个100bit真机配额
(单选) 您是从哪个渠道得知我们的?*
您是从哪个社交媒体得知我们的?*
您是通过哪个学校的校园宣讲得知我们的呢?
取消

提交成功

真机配额已发放到您的账户,可前往【云平台】查看

量子AI开发者认证

考核目标

开发者能够成功搭建Kaiwu-PyTorch-Plugin项目基础环境,并成功运行示例代码,根据示例提示,输出指定的值并填写至相应的输入框中。

通过奖励

5个一年效期的1000量子比特真机配额

专属「量子AI开发者」社区认证标识

开发者权益

每月固定权益:5个550量子比特真机配额
前往考核

第一步

按照README提示成功安装Kaiwu-PyTorch-Plugin库环境依赖
前往GitHub

第二步

运行 community-assessment 分支下的 run_rbm.py 代码示例

第三步

理解示例代码,手动打印并填写如下数值:

正相采样的状态

负相采样的状态

正相的能量值

负相的能量值

*

提交答案

开发者权益

每月固定权益:5个550量子比特的真机配额

恭喜您完成考核

您将获得量子AI开发者认证标识及考核奖励

1000 bit*5

配额