Fraser King是(加拿大安大略省)滑铁卢大学的一名博士生。本文的一个版本首次出现在Towards Data Science上。Graphcore对起草本文的支持仅限于提供与IPU系统和技术相关的技术支持和指导。
机器学习在地球科学领域的应用并不是一个新的想法。自二十世纪六十年代中期以来,k均值聚类、马尔科夫链和决策树的早期例子已被积极地应用于一些地理相关的语境中(Preston等人,1964;Krumbein等人,1969;Newendorp,1976)。
然而,随着来自Graphcore、亚马逊和谷歌等公司的云计算资源不断进步,再加上可以轻松获取的、强大的机器学习库(如Tensorflow、Keras、PyTorch)以及蓬勃发展的开发者社区,这一新兴领域在最近几年迅速普及起来(Dramsch,2020)。
现在,机器学习模型不仅经常被用于地球科学中的运行预测(Ashouri等人,2021),还被用于统计推理,并且不存在与自然过程的物理模型模拟相关的传统不确定性(King等人,2022)。
问题
降雪是全球水和能源循环不可或缺的组成部分,对区域淡水供应有重大影响(Musselman等人,2021;Gray和Landine,2011)。事实上,每年有超过12亿人(占全球人口的六分之一)依赖融雪产生的淡水以满足人类消费和农业用途(Sturm等人,2017)。随着全球平均气温的持续上升,降雪频率和强度预计也将发生变化,给全球水资源管理带来新的挑战(IPCC,2019)。
然而,传统的降雪模型在评估中存在很大的不确定性,因此,需要研究新的算法,以推进我们对全球降雪模式变化的理解。

那么,让我们来探讨一下机器学习是如何被用于推进降雪预测领域,以及这些技术在未来的发展方向。
我们的解决方案
下图展示的是DeepPrecip,或者更准确地说,是DeepPrecip的计算图的渲染,该计算图构成了这个模型决策过程的基础。
DeepPrecip是滑铁卢大学开发的深度卷积神经网络(CNN)。它由400万个可训练的模型参数组成!这个模型的目的是评估在不同的区域气候条件下,使用地面雷达数据输入预测地表降水量(King等人,2022–2)。这种类型的模型被称为降水“检索”,因为这个模型的输入是大气雷达观测数据(即下降的水体中后向散射的能量),并输出有关地表雨雪的预测。

图片来源:Graphcore和本文作者
但是如何利用大气雷达后向散射强度来推断地表降水量?
我们必须找到一种方法,从仅部分关联的相关大气变量(在这种情况下是雷达后向散射强度)中提取关于降水的非常具体的信息。这可以通过两种方法实现:
- 通过基于物理的模型,该模型模拟大气中发生的导致冰晶形成并最终降雪的物理过程。
- 实证统计过程(如机器学习模型),它可以通过正向模型找到不同变量之间的模式,这些变量彼此之间显示出一定的敏感性。
这两种方法各有优劣,都可以用整篇博文来讨论,但在这项研究中,我们将专注于第二种方法。首先,什么是正向模型?Stephens在1994提出了一个经典的说明:
“假设你想描述一条龙,但你只观察到龙在沙地上留下的脚印。如果你已经了解龙,你可以很容易地描述它在沙地上可能留下的足迹。也就是说,你可以建立一个正向模型。但如果你只观察到沙地上的足迹,要想详细地描述龙,就会困难得多。你很可能会知道这是一条龙,而不是一只鹿,但有些方面你将无法描述:如龙的颜色,它是否有翅膀等等。检索可以将观察结果(大脚印)与先验信息(大多数龙都有翅膀,而且留下大脚印的龙是绿色的)结合起来,得到最可能的状态(这是一条有翅膀的绿龙)。”

摄影:Vishy Patel,发布于Getty Images
我们可以利用这个想法,将垂直雷达剖面的信息与地表降雪量联系起来!由于雷达数据输入(剖面从地表到约3公里的高度)有一个物理结构,DeepPrecip采用多个卷积层来提取可能的水汽凝结体活动的不同部分之间的特征。这些信息有助于模型理解不同的风暴事件类型和结构,从而提高网络的全连接前馈回归部分的降水率评估强度的准确性。
DeepPrecip的模型架构可以被更正规地表示如下。您能从这张图片中将不同的模型架构层与先前所示的计算图相匹配吗?

图片来源:本文作者
模型训练
为了开发一个稳健的模型,我们首先需要收集一个有代表性的雷达数据和同地降水测量观测的训练数据集。请注意,这是一个监督学习问题,因此需要参考数据。
在数据选择阶段,必须注意选择具有代表性的样本,这在地球科学问题中始终是个挑战。每个地点还必须配备以相同方式校准的类似仪器。在这项研究中,我们利用从微雨雷达(MRR)系统和Pluvio2测量仪收集的8年数据,确定了北半球的9个地点。这些仪器的示例如下所示。

图片来源:本文作者
由于我们管理的训练数据集的规模庞大(数百万个训练样本),再加上模型架构的普遍复杂性,超参数优化在开发过程的早期就成为了瓶颈。在尝试了各种不同的云计算方案后,Graphcore的系统脱颖而出,大大改善了我们的训练时间。
通过Graphcore实现训练速度提高的关键在于使用了其专门的智能处理器(IPU)。IPU是一种全新的大规模并行处理器,用于加速机器智能。它的计算和存储架构专为人工智能的横向扩展而设计。请注意IPU和传统处理器的区别,如下所示:

图片来源:Graphcore
该硬件是与软件一起开发的,提供了一个易于使用并在实际应用中出类拔萃的平台。使用Graphcore MK2 Classic IPU-POD4(请注意,第二代IPU现已上市),我们能够将DeepPrecip的训练速度比其他先进的系统(例如Tesla V100s)加快6倍。如果您想为您的项目测试IPU系统,请查看Graphcore的云平台。

图片来源:本文作者
选择硬件后,我们需要选择一种优化范式。为了确定DeepPrecip的最佳超参数值,我们决定使用一种被称为超频带优化的自适应优化形式。这种方法是贝叶斯优化的一种变体(即自适应搜索),其重点是利用自适应资源分配和提前停止来加快随机搜索过程(Li等人,2018)。这使我们能够测试巨大的超参数空间,并快速确定模型参数的良好值。

图片来源:Talaat等人,2022
使用单个IPU对具有68个不同的总值选项(即数万亿的可能组合)的DeepPrecip运行14个不同参数的超频带优化,大约需要两周时间。均方误差(MSE)指标(如下)显示了这个过程是如何智能地选择了更好的超参数组合,同时也缓慢地增加每个周期的epoch(时期)数。

图片来源:本文作者
这些参数关系的高维可视化可以用超频带优化过程的每个迭代(或指数)的平行坐标图来呈现(如下图)。这使我们能够在模型结构的复杂性和性能之间找到一个平衡点,从而生成一个既高效又有技巧的模型。关于这个过程的其他细节以及最终的超参数值,请参见King等人,2022–2。

图片来源:本文作者
虽然在收集、预处理和适当取样数据方面投入的时间再加上2周的超参数化过程似乎有点矫枉过正,但正确执行这些步骤非常重要,因为它大大减少了接下来出现过拟合问题的可能性。
性能和稳健性
对于一个经过充分训练的模型,我们能够对照其他机器学习模型和传统的实证关系来评估它的一般性能。
总的来说,DeepPrecip的表现优于其他传统检索方法,MSE值降低了40%,R²提高了40%。我们还注意到,与测试的其他模型相比,DeepPrecip似乎更能够正确评估高强度降水的峰值和谷值。我们使用交叉验证的方法,发现DeepPrecip显示出稳健性,并具备更强的能力可以准确预测模型以前未见过的区域气候地点的降水量。
最后关于稳健性这一点非常关键。以前实证方法的主要局限性之一是每个模型都是根据它所处的气候而定制的(Wood等人,2014)。因此,虽然该模型在美国北部可能运行良好,但到了其他地区,如瑞典或韩国则可能表现不佳。
基于机器学习方法的一个重要好处是,它可以不受粒子微物理学物理假设的限制,对来自各种不同地点的数据进行训练。我们在这个项目中发现,基于机器学习的地表降雪解决方案显示出低误差和高泛化性的特点。我们有充分的理由相信,全局的机器学习检索算法可以帮助加强目前基于卫星提供世界各地降雪评估的产品。

图片来源:NASA
推理
该项目开始时的目标不仅是开发一个操作模型,还包括解释该模型以识别垂直雷达剖面内的区域,这些区域似乎是对高模型技能贡献最大的区域。
深度学习模型通常被认为是“黑盒”算法,其中一些输入被输入到模型中,一些输出从模型中出来;我们对这两个阶段之间发生的事情没有太多的了解。一些机器模型如随机森林,根据每个决策树的决策方式,提供特征重要性排名。但我们如何为DeepPrecip这样的深度学习模型提取类似的信息呢?
输入,沙普利值。
沙普利值由劳埃德•沙普利在1951年提出(并以他的名字命名),是合作博弈理论中的一个解决方案概念。该值代表了单个参与者对游戏中某些共同目标的贡献。对于多个参与者,沙普利值允许我们衡量每个参与者对最终结果的边际贡献。例如,如果多人出去吃饭,每个人都点了不同的主菜,如果我们决定分摊晚餐账单,每个人支付的百分比可以根据沙普利值进行分摊。
下面是一个可视化的图表,描述了从大量观察样本中得出的局部解释如何利用沙普利值对全局模型行为提供见解,用于死亡率风险评估:

图片来源:Lundberg等人,2020
这种测量局部和全局对某些目标贡献的过程可以与使用上述方法的深度学习关联起来。Lundberg等人在2020年对该方法详细地进行了介绍。我们可以检查模型输入的不同组合(即雷达数据子集,或大气变量组合),以了解模型准确性如何变化。可以用它来确定在本案例中哪些变量以及大气中的哪些位置为主动检索降雪提供了最重要的信息。请注意,这是一项计算量非常大的分析。
将我们的数据集分成不同强度的降水事件类型,并对每个子集进行沙普利分析,可以发现最重要的变量和区域(如下;区域的阴影越深表示重要性越高)。

图片来源:本文作者
有趣同时也出乎意料的是,我们发现DeepPrecip将大气层中上层区域(2公里附近)评估为贡献最大的区域,而不仅仅是近地表的区块。通常情况下,基于雷达的降雪检索依赖于来自单一(或少数)近地表区块的信息,但这里的情况似乎并非如此。此外,在基于雷达的检索中,反射率(RFL)通常被认为是最重要的变量,然而对于高强度降水事件来说,多普勒速度(DOV)的重要性实际上超过了RLF。请注意,SPW是光谱宽度,TMP是温度,WVL是风速。
理解我们的深度学习模型是如何做出决策的,对于在未来迭代中进一步优化其表现和提高其技能是一个重要的步骤。此外,这个分析所揭示的信息有助于为下一代降水任务提供当前和未来的降雪量检索。如果您正在使用深度学习进行类似的实验,我强烈建议在您自己的模型上测试这个过程,因为这些输出可能相当具有启发性!
总结和结论

图片来源:本文作者
在这项研究中,我们简要介绍了DeepPrecip的开发过程:一种使用垂直反射率剖面的新型深度学习降雪检索算法。虽然我们在这里没有讨论DeepPrecip的代码,但该模型是开源的,并可以在GitHub上使用。它是在scikit-learn、Tensorflow和Keras中使用Python开发的。
如果您有兴趣进行测试,可以使用以下命令建立和运行该模型:
git clone https://github.com/frasertheking/DeepPrecip.git
conda env create -f req.yml
conda activate deep_precip
python deep_precip.py
还包括一个deep_precip_ipu.py模块,用于在Graphcore IPU上运行这个模型。请注意,您需要MRR训练数据作为模型的输入。
总结来说,我并没有期望深度学习模型完全取代物理模型或传统的降雪检索实证方法。然而,深度学习方法的高准确性和稳健性,结合全局模型行为分析所提供的见解,可以帮助对未来地面和空间雷达任务的降雪检索方法进行提升和提供信息。
关于本项目的更多细节,请阅读我们在《大气测量技术》(AMT)上的论文。该论文目前正在经受评审。
此外,如果您愿意支持我们的工作,我们是NSERC Science Exposed竞赛的入围选手,希望您能为我们的图片投票,以示支持。
致谢
我想感谢为这项研究贡献了多年观察的众多数据提供者、我的合著者、滑铁卢大学和Graphcore团队。感谢Graphcore团队的持续支持和对他们计算系统的访问权限的提供。
我还想感谢NSERC对本项目的资助。
参考文献
Ashouri, Hamed, Gehne, Maria & National Center for Atmospheric Research Staff (Eds). Last modified 31 Oct 2021. “The Climate Data Guide: PERSIANN-CDR: Precipitation Estimation from Remotely Sensed Information using Artificial Neural Networks — Climate Data Record.”
Dramsch, J. S. (2020). 70 years of machine learning in geoscience in review. Advances in Geophysics, 61, 1–55. https://doi.org/10.1016/bs.agph.2020.08.002
Gray, D. M. ed, & Male, D. H. ed. (1981). Handbook of snow: Principles, processes, management & use. Pergamon Press. https://snia.mop.gob.cl/repositoriodga/handle/20.500.13000/2981
IPCC, 2019: IPCC Special Report on the Ocean and Cryosphere in a Changing Climate [H.-O. Pörtner, D.C. Roberts, V. Masson-Delmotte, P. Zhai, M. Tignor, E. Poloczanska, K. Mintenbeck, A. Alegría, M. Nicolai, A. Okem, J. Petzold, B. Rama, N.M. Weyer (eds.)]. Cambridge University Press, Cambridge, UK and New York, NY, USA, 755 pp. https://doi.org/10.1017/9781009157964.
King, F., Duffy, G., & Fletcher, C. G. (2022). A Centimeter Wavelength Snowfall Retrieval Algorithm Using Machine Learning. Journal of Applied Meteorology and Climatology, 1(aop). https://doi.org/10.1175/JAMC-D-22-0036.1
King, F., Duffy, G., Milani, L., Fletcher, C. G., Pettersen, C., & Ebell, K. (2022). DeepPrecip: A deep neural network for precipitation retrievals. EGUsphere, 1–24. https://doi.org/10.5194/egusphere-2022-497
Krumbein, W. C., & Dacey, M. F. (1969). Markov chains and embedded Markov chains in geology. Journal of the International Association for Mathematical Geology, 1(1), 79–96. https://doi.org/10.1007/BF02047072
Li, L., Jamieson, K., DeSalvo, G., Rostamizadeh, A., & Talwalkar, A. (2018). Hyperband: A Novel Bandit-Based Approach to Hyperparameter Optimization (arXiv:1603.06560). arXiv. https://doi.org/10.48550/arXiv.1603.06560
Lundberg, S. M., Erion, G., Chen, H., DeGrave, A., Prutkin, J. M., Nair, B., Katz, R., Himmelfarb, J., Bansal, N., & Lee, S.-I. (2020). From local explanations to global understanding with explainable AI for trees. Nature Machine Intelligence, 2(1), 56–67. https://doi.org/10.1038/s42256-019-0138-9
Musselman, K. N., Addor, N., Vano, J. A., & Molotch, N. P. (2021). Winter melt trends portend widespread declines in snow water resources. Nature Climate Change, 11(5), 418–424. https://doi.org/10.1038/s41558-021-01014-9
Newendorp, P. D. (1976). Decision analysis for petroleum exploration. https://www.osti.gov/biblio/6406439
Preston, Floyd W., and James Henderson. Fourier series characterization of cyclic sediments for stratigraphic correlation. Kansas Geological Survey, 1964.
Stephens, G. L., 1994: Remote Sensing of the Lower Atmosphere: An Introduction. Oxford University Press, 562 pp.
Sturm, M., Goldstein, M. A., & Parr, C. (2017). Water and life from snow: A trillion dollar science question. Water Resources Research, 53(5), 3534–3544. https://doi.org/10.1002/2017WR020840
>Talaat, F. M., & Gamel, S. A. (2022). RL based hyper-parameters optimization algorithm (ROA) for convolutional neural network. Journal of Ambient Intelligence and Humanized Computing. https://doi.org/10.1007/s12652-022-03788-y
Wood, N. B., L’Ecuyer, T. S., Heymsfield, A. J., Stephens, G. L., Hudak, D. R., & Rodriguez, P. (2014). Estimating snow microphysical properties using collocated multisensor observations. Journal of Geophysical Research: Atmospheres, 119(14), 8941–8961. https://doi.org/10.1002/2013JD021303
感谢Alyssa Francavilla和Katherine Prairie。