深度学习的几何理解(3) – 概率变换的几何观点

(最近,哈佛大学丘成桐先生领导的团队,大连理工大学罗钟铉教授、雷娜教授领导的团队应用几何方法研究深度学习。老顾受邀在一些大学和科研机构做了题为“深度学习的几何观点”的报告,汇报了这方面的进展情况。这里是报告的简要记录,具体内容见【1】。)


1.jpg

昨天(2018年6月15日),严东辉教授邀请老顾在泛华统计协会( International Chinese Statistical Association)举办的应用统计会议(ICSA2018 Applied Statistics Symposium)上做了“深度学习的几何观点”的报告。会议上Eric Xing教授给出报告,用统计概率的观点统一了变分自动编码器(VAE,Variational Autoencoder)和生成对抗网络(GAN,Generative Aderseral Network)。老顾用几何观点将VAE和GAN加以分析,再度阐述GAN模型中的对抗是虚拟的,没有必要的,生成器网络和判别器网络是冗余的。(以前的博文曾经系统阐述过,请见 “虚构的对抗,GAN with the wind)下面我们从几何角度详细解释。


2.jpg

图1. 流形结构。

我们前面阐述过深度学习成功的核心原因可以部分归结为流形分布律和聚类分布律(深度学习的几何观点(1) – 流形分布定律),深度学习的基本任务就在于从数据中学习流形结构,建立流形的参数表达;和变换概率分布。

如图1所示,假设概率分布3.jpg的支集是流形4.jpg。我们上一讲(深度学习的几何理解(2) – 学习能力的上限)分析了深度学习如何计算流形的参数化映射(即编码映射),5.jpg;和参数化表示(解码映射),6.jpg。编码映射将流形上的概率测度7.jpg映射到参数域(隐空间)8.jpg上,“推前”概率测度记为9.jpg。在工程应用中,我们希望能够完全控制隐空间上的(推前)概率分布10.jpg,使之等于高斯分布或者均匀分布,为此,我们构造隐空间到自身的同胚映射,11.jpg,满足12.jpg等于高斯分布或者均匀分布。

13.jpg14.jpg

图2. 隐空间的同胚映射,改变概率分布。

如图2所示,我们将米勒佛曲面15.jpg映射到平面圆盘16.jpg17.jpg;在平面圆盘上均匀采样,再映射回米勒佛曲面,18.jpg。上面一行显示圆盘上的均匀分布映回曲面后不再是曲面上的均匀分布。下面一行显示,我们建立平面圆盘到自身的同胚映射,19.jpg,这样平面圆盘上的均匀分布被映射到曲面上的均匀分布。核心问题在于如何构造隐空间的自同胚,实现两个概率测度间的变换。这方面已经有相对成熟的最优传输理论。

最优传输理论

给定欧氏空间中的两个区域和定义其上的概率测度20.jpg21.jpg,总测度相等22.jpg。假设23.jpg是一个区域间的映射,如果对于任意的可测集合24.jpg,都有

25.jpg,

那么我们说此映射保持测度,记成26.jpg。对于任意27.jpg28.jpg,它们之间的距离为29.jpg,那么映射的传输代价定义为:

30.jpg.

法国数学家蒙日(Monge)于1781年提出了著名的最优传输问题:寻找保持测度的传输映射31.jpg,使得传输代价最小,32.jpg。这个映射被称为是最优传输映射,最优传输映射的传输代价被称为是两个概率测度之间的Wasserstein距离,记为33.jpg

Kantorovich将传输映射(transportation map)减弱为传输规划(transportation scheme),用联合概率分布34.jpg来表示传输规划,其边际概率分布等于35.jpg36.jpg,即对于任意可测集合37.jpg38.jpg39.jpg40.jpg,记为41.jpg42.jpg。Kantarovich将最优传输问题转化成 Kantarovich问题,Wasserstein距离等于

43.jpg

如果最优传输映射存在,那么最优联合概率分布的支集为对角线44.jpg。Kantarovich发明了线性规划来求解这一问题,由此得到1975年的诺贝尔经济奖。

Kantarovich问题等价于其对偶形式, Wasserstein距离等于

45.jpg,

这里46.jpg47.jpg的c-变换,

48.jpg

我们将49.jpg称为Kantarovich势能函数如果距离函数为50.jpg,那么可以证明51.jpg,并且52.jpg是1-Lipsitz函数。


二十世纪八十年代,Brenier进一步发展了Kantarovich的理论。如果采用53.jpg距离函数,54.jpg,那么存在一个凸函数55.jpg,其梯度映射给出了最优传输映射,56.jpg。我们称这个凸函数为Brenier势能函数。那么由最优传输映射保测度,我们得到Brenier势能函数满足蒙日-安培方程


57.jpg


更进一步,在58.jpg距离下,最优传输映射的Kantarovich势能函数和Brenier势能函数满足简单的等式:

59.jpg

凸几何理论

最优传输的60.jpg理论天然地和凸几何闵可夫斯基理论等价,因此我们可以用更为直观的几何观点来分析概率变换问题,从而可以将深度学习中的黑箱部分用透明的数学模型来取代。

61.png

图3. 闵可夫斯基定理。

如图3所示,给定一个凸多面体,每个面的法向量已知,面积已知,所有面的面积和法向量的乘积之和等于0,闵可夫斯基(Minkowski)定理证明这样的凸多面体存在,并且彼此相差一个平移。

62.jpg

图5. 亚历山大定理。

闵可夫斯基的学生亚历山大(Alexandroff)将闵可夫斯基的结果推广到开的凸多面体,如图5所示。给定凸多面体每个面的法向量,和每个面向平面圆盘的投影面积,总投影面积等于平面圆盘面积,那么这样的凸多面体存在,并且彼此相差一个垂直平移。亚历山大在1950年给出的证明是基于代数拓扑原理,从中无法构造算法。2013年,丘成桐先生,罗锋,孙剑和老顾给出一个基于变分法的证明【2】。证明的大致思路如下:每个面的线性方程记为63.jpg,这里梯度64.jpg已知,截距65.jpg未知。每个平面将三维欧氏空间分成上下两个半空间,所有上半空间的交集叫做这些平面的上包络,上包络的边界即为凸多面体。我们通过改变截距来调节每个面的投影面积。 亚历山大定理中的截距优化下面的凹能量,


66.jpg,


这里67.jpg是每个面的目标投影面积,68.jpg是每个面的当前面积。可以证明,这个能量在子空间69.jpg上是严格凹的,其梯度和海森矩阵都有明确的几何意义,因此可以用牛顿法快速求解。

这一理论可以直接推广到任意维,证明不需要改动。

Brenier理论,Alexandroff理论的等价关系

最优传输的Brenier理论和凸几何的Alexandroff理论本质上是等价的。下面我们来具体分析。

70.png

图6. 离散最优传输问题。

图6显示了离散最优传输问题。目标概率测度为离散的Dirac测度,

71.jpg,

源概率测度是单位圆盘上的均匀分布。我们希望找到单位圆盘上的一个剖分,每个胞腔72.jpg映射到一个目标点73.jpg74.jpg,并且胞腔75.jpg的面积等于目标测度76.jpg。在所有的这种剖分中,找到一个特定的剖分,极小化传输代价,

77.jpg

78.jpg

图7. 离散Brenier势能函数的构造。

根据Brenier理论,存在一个凸函数,其梯度映射给出最优传输映射。对于每一个目标点79.jpg,构成一个平面其梯度等于80.jpg81.jpg,其上包络给出Brenier势能函数,每个面的投影面积等于82.jpg。由此我们看到Brenier定理和Alexandroff定理本质相同。

83.jpg

84.jpg

图6. 最优传输映射的计算实例。

图6显示了这种方法的一个计算实例,首先我们将滴水兽曲面用黎曼映照映射到平面单位圆盘,黎曼映射的像如下行左帧所示,那么曲面的面元诱导了平面圆盘上的一个测度。平面圆盘上的欧氏面元定义了均匀测度。我们用上面讲述的变分法来构造平面圆盘到自身的最优传输映射,最优传输映射的像如下行右帧所示。那么最优传输映射的结果给出了从曲面到平面圆盘的保面元映射。

对抗生成网络(GAN)

2014年,Goodfellow 提出了GAN的概念,他的解释如下:GAN的核心思想是构造两个深度神经网络:判别器D和生成器G,用户为GAN提供一些真实货币作为训练样本,生成器G生成假币来欺骗判别器D,判别器D判断一张货币是否来自真实样本还是G生成的伪币;判别器和生成器交替训练,能力在博弈中同步提高,最后达到平衡点的时候判别器无法区分样本的真伪,生成器的伪造功能炉火纯青,生成的货币几可乱真。这种计算机左右手互搏的对抗图景,使得GAN成为最为吸引人的深度学习模型。

85.jpg

图7. WassersteinGAN的理论框架。

图7显示了Wasserstein GAN的理论框架。假设在隐空间有一个固定的概率分布86.png,例如高斯分布或者均匀分布。我们用一个深度神经网络87.png来逼近解码映射88.png89.png90.png映成了图像空间中的概率分布

91.png,

我们称92.png为生成分布。判别器的核心任务是计算训练数据分布93.png和生成分布94.png之间的距离;生成器的目的在于调节95.png使得生成分布96.png尽量接近数据分布97.png。换言之,判别器计算Wasserstein距离;生成器计算最优传输映射

判别器计算测度间的Wasserstein距离,等价于求解Kantarovich势能函数。如果距离函数为98.png,Kantorovich势能为1-Lipsitz,并且99.png。这里Kantorovich势能由一个深度神经网络100.png来计算,记为101.png。Wasserstein距离为

102.png

生成器极小化Wasserstein距离,103.png。所以整个WGAN进行极小-极大优化:

104.png

生成器极大化,判别器极小化,各自由一个深度网络交替完成。在优化过程中,解码映射105.png和Kantorovich势能函数106.png彼此独立。


如果,我们用107.jpg距离函数,108.jpg,那么Wasserstein距离由Kantarovich势能函数109.jpg给出,最优传输映射由Brenier势能110.jpg给出。在111.jpg距离下,最优传输映射的Kantarovich势能函数和Brenier势能函数满足简单的等式:

112.jpg

这意味着:在最优情况下,判别器D由生成器G的结果直接给出;生成器G由判别器D的结果直接给出;判别器D和生成器G之间的对抗是虚拟的;判别器网络和生成器网络是冗余的。这和人们对于GAN模型生成器、判别器相克相生的想象大相径庭。

半透明深度网络模型

113.jpg

图8. 半透明深度网络模型

传统的变分自动编码器VAE核心想法是将隐空间的概率分布变换成高斯分布,手法相当曲折。

因为概率变换可以用最优传输理论来清晰阐释,并且用牛顿法优化凸能量可以保证全局最优性,和高阶收敛速度,我们可以将深度学习中的概率变换部分分离出来,用透明的数学模型来取代,其他部分依然用传统的黑箱来运算,如此得到了半透明的网络模型【4】。

如图8所示,我们将GAN和VAE进行改进,流形的编码解码映射依然用autoencoder来计算,数据分布114.jpg被编码映射115.jpg推前到隐空间,得到分布。我们再计算隐空间的最优传输映射,116.jpg,将均匀分布变换成推前概率分布。隐空间的最优传输映射可以用透明的几何方法计算。

117.jpg

real digits and VAE results

118.jpg

WGAN and AE-OMT

图9. 半透明网络的计算结果和其他模型的计算结果比较。

我们将半透明网络做为生成模型,在手写体数据集合上进行测试。如图9所示,半透明网络的计算结果优于传统的VAE和WGAN结果。

119.jpg

图10. VAE和半透明网络比较。

我们将半透明网络做为生成模型,在人脸图片数据集合上进行测试。如图10所示,半透明网络的计算结果优于传统的VAE结果。

小结

最优传输理论可以用于解释深度学习中的概率分布变换。120.jpg最优传输的Brenier理论和凸几何中的Alexandroff理论等价,我们的理论结果给出了基于变分法的构造。在这种情形下,生成器和判别器彼此等价,它们之间的对抗不再需要,网络体系结构可以大幅简化。在深度学习中,我们可以将流形降维和概率变换分开,用透明的最优传输模型来部分取代黑箱,得到半透明网络模型。


References

                                         

  1. Na Lei, Zhongxuan Luo, Shing-Tung Yau and David Xianfeng Gu.  "Geometric Understanding of Deep Learning". arXiv:1805.10451 . 

    https://arxiv.org/abs/1805.10451

  2. Xianfeng Gu, Feng Luo, Jian Sun, and Shing-Tung Yau. "Variational principles for minkowski type problems, discrete optimal transport", and discrete monge-ampere equations. Asian Journal of Mathematics (AJM), 20(2):383-398, 2016.

  3. Na Lei,Kehua Su,Li Cui,Shing-Tung Yau,David Xianfeng Gu, "A Geometric View of Optimal Transportation and Generative Model", arXiv:1710.05488. https://arxiv.org/abs/1710.05488

  4. Huidong L,Xianfeng Gu, Dimitris Samaras, "A Two-Step Computation of the Exact GAN Wasserstein Distance", ICML 2018.

原文发布在【老顾谈几何】公众号 (2018年6月17日)

https://blog.sciencenet.cn/blog-2472277-1166725.html

上一篇:深度学习的几何理解(2) – 学习能力的上限
下一篇:计算机应用中存在性证明的代数拓扑方法

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片