综述｜机器学习：连接海洋观测、理论与模拟的新桥梁

宇宙微尘 · 发表于 1758619703

发表于 Environmental Research Letters 的《 Bridging observations, theory and numerical simulation of the ocean using machine learning 》系统梳理了机器学习在海洋科学的应用。它能解决数据稀疏等问题，如辅助构建 1°×1° 高分辨率全球碳数据集，还可加速数值模拟，相关代理模型计算效率较传统模型提升超 3000 倍。文章指出其面临数据与泛化挑战，为跨尺度建模等方向提供参考。

引言

海洋科学长期以来依赖于观测、理论和数值模拟三大支柱的协同发展。近年来，随着数据量的爆发式增长和计算能力的提升，「机器学习（Machine Learning, ML）」 正在成为连接这三者的重要桥梁。2021年，Maike Sonnewald 等人在 Environmental Research Letters 上发表了一篇综述文章，系统阐述了机器学习在海洋科学中的应用现状与未来潜力。

海洋学的挑战与机器学习的机遇

海洋系统具有多尺度、非线性、高维度和观测稀疏等特点。其时间尺度从秒级的湍流到千年尺度的气候变异，空间上则涵盖从毫米级的微结构到全球环流。传统的分析方法在处理如此复杂且数据分布不均的系统时显得力不从心。

机器学习凭借其强大的「模式识别」和「函数逼近」能力，为海洋学家提供了新的工具。它不仅能加速传统任务（如数据插值、误差校正），还能从数据中发现新的物理机制，甚至推动理论的发展。

机器学习基础：监督与无监督学习

机器学习可分为监督学习、无监督学习和强化学习三大类。在海洋科学中，前两类应用最为广泛。

监督学习

监督学习旨在从输入-输出数据对中学习映射关系。其目标是最小化损失函数：

常用的算法包括：

「线性回归（Linear Regression）」

「支持向量机（Support Vector Machines, SVM）」

「随机森林（Random Forests）」

「神经网络（Neural Networks, NN）」

尤其是「深度学习（Deep Learning）」，凭借卷积神经网络（CNN）、循环神经网络（RNN）等结构，在图像、时间序列等数据类型上表现出色。

无监督学习

无监督学习不依赖标签，而是从数据本身发现结构。常用方法包括：

「聚类算法」（如 -means、DBSCAN）

「降维方法」（如主成分分析 PCA、自编码器 Autoencoder）

「生成模型」（如生成对抗网络 GAN、变分自编码器 VAE）

这些方法常用于水团识别、海洋区域划分、异常检测等任务。

机器学习在海洋观测中的应用

海洋观测数据通常具有空间稀疏、时间不连续、噪声多等特点。机器学习在这些方面展现出强大潜力：

「数据插值与重构」：如使用 DINEOF 算法填补缺失数据，或利用神经网络重建海表温度场。

「特征检测与分类」：如利用聚类算法自动识别海洋锋面、水团或异常事件（如厄尔尼诺）。

「多源数据融合」：将卫星、浮标、船舶等不同来源的数据进行融合，生成更完整的数据产品。

例如，Argo 浮标数据的聚类分析可以帮助识别南大洋的不同水团结构，揭示其动力和热盐特征。

连接理论与数据：机器学习推动理论发展

传统理论往往基于简化假设，而真实海洋数据复杂多变。机器学习可以在两者之间搭建桥梁：

「发现物理规律」：通过符号回归、方程发现等方法，从数据中推导出简洁的物理表达式。

「构建层次模型」：通过不同复杂度的模型层次，理解从简单到复杂的海洋动力过程。

「可解释AI（XAI）」：使用如 SHAP、LIME 等方法解释模型决策，确保其符合物理规律。

例如，Zanna & Bolton (2020) 使用相关向量机（RVM）从高分辨率模拟数据中推导出了中尺度涡参数化方案，其结果既简洁又可解释。

机器学习改进海洋数值模拟

数值模型是海洋预测和理解的重要工具，但也面临计算成本高、参数化不准确等问题。机器学习可在以下方面发挥作用：

「参数化改进」：使用神经网络替代传统参数化方案，如涡流传输、混合过程等。

「模型加速」：构建代理模型（emulators），以较低计算成本重现复杂模型的行为。

「数据同化」：将机器学习与数据同化方法（如4D-Var、EnKF）结合，提高状态估计和预测精度。

例如，神经网络已被用于替代生物地球化学模块，显著降低气候模拟的计算成本。

透明机器学习与可信AI

机器学习在海洋科学中的应用仍面临“黑箱”质疑。为提高模型的可信度和可用性，需推动「可解释人工智能（XAI）」 和「可解释AI（IAI）」：

「物理约束嵌入」：在损失函数中加入物理守恒律（如能量守恒、质量守恒）。

「不确定性量化」：使用贝叶斯神经网络等方法提供预测不确定性。

「领域知识融合」：将专家知识融入模型结构或训练过程中。

只有这样，机器学习才能真正成为海洋学家信赖的工具。

未来展望

机器学习在海洋科学中的应用仍处于快速发展阶段。未来值得关注的方向包括：

「跨尺度建模」：结合物理模型与机器学习，实现从涡旋到气候尺度的无缝模拟。

「实时决策支持」：用于极端事件预警、航行路线规划、渔业管理等。

「自主观测系统」：通过机器学习优化观测网络布局，实现智能自适应采样。

尽管挑战仍存——如数据稀缺、非平稳性、模型泛化能力等——但机器学习无疑将为海洋科学带来新的突破。

参考文献

Sonnewald, M., Lguensat, R., Jones, D. C., Dueben, P. D., Brajard, J., & Balaji, V. (2021). Bridging observations, theory and numerical simulation of the ocean using machine learning. Environmental Research Letters, 16(7), 073008.

https://doi.org/10.1088/1748-9326/ac0eb0

文章改编转载自微信公众号：海洋遥感Dynamic和AI

原文链接：https://mp.weixin.qq.com/s/teBv1B6EXXVTunyWS1K3Og?scene=1&click_id=85