流行学习

流行学习是一类机器学习算法，假设原始数据集位于公共歧管上，它们会在数据集之间产生投影。该概念由Ham，Lee和Saul于2003年首次引入，^[1]在涉及高维向量集相关性的一般问题中增加了流形约束。^[2]

总览

流行学习方式假设由相似的生成过程生成的不同数据集将共享相似的基础歧管表示形式。通过学习从每个原始空间到共享流形的投影，可以恢复对应关系，并将知识从一个域转移到另一个域。大多数流行学习技术仅考虑两个数据集，但是该概念扩展到任意多个初始数据集。

考虑对齐两个数据集的情况， ${\ displaystyle X}$ 和 ${\ displaystyle Y}$ ，带有 ${\ displaystyle X_ {i} \ in \ mathbb {R} ^ {m}}$ 和 ${\ displaystyle Y_ {i} \ in \ mathbb {R} ^ {n}}$ 。

流行学习算法尝试同时投影两个 ${\ displaystyle X}$ 和 ${\ displaystyle Y}$ 到新的d维空间中，这样投影既可以最小化对应点之间的距离，又可以保留原始数据的局部流形结构。投影函数表示为：

${\ displaystyle \ phi _ {X}：\，\ mathbb {R} ^ {m} \ rightarrow \ mathbb {R} ^ {d}}$

${\ displaystyle \ phi _ {Y}：\，\ mathbb {R} ^ {n} \ rightarrow \ mathbb {R} ^ {d}}$

让 ${\ displaystyle W}$ 表示中点之间的二进制对应矩阵 ${\ displaystyle X}$ 和 ${\ displaystyle Y}$ ：

${\ displaystyle W_ {i，j} = {\ begin {cases} 1＆if \，X_ {i} \ leftrightarrow Y_ {j} \\ 0＆否则\ end {cases}}}$

让 ${\ displaystyle S_ {X}}$ 和 ${\ displaystyle S_ {Y}}$ 表示数据集中的逐点相似性。这通常是编码为热内核的的邻接矩阵 A的ķ -nearest相邻图表。

最后介绍一个系数 ${\ displaystyle 0 \ leq \ mu \ leq 1}$ ，可以对其进行调整以调整“保留歧管结构”目标的权重，而不是“最小化相应的点距”目标的权重。

有了这些定义，就可以编写流形对齐的损失函数：

${\ displaystyle \ arg \ min _ {\ phi _ {X}，\ phi _ {Y}} \ mu \ sum _ {i，j} \ left \ Vert \ phi _ {X} \ left（X_ {i} \ right）-\ phi _ {X} \ left（X_ {j} \ right）\ right \ Vert ^ {2} S_ {X，i，j} + \ mu \ sum _ {i，j} \ left \垂直\ phi _ {Y} \ left（Y_ {i} \ right）-\ phi _ {Y} \ left（Y_ {j} \ right）\ right \ Vert ^ {2} S_ {Y，i，j} + \ left（1- \ mu \ right）\ sum _ {i，j} \ Vert \ phi _ {X} \ left（X_ {i} \ right）-\ phi _ {Y} \ left（Y_ {j } \ right）\ Vert ^ {2} W_ {i，j}}$

解决此优化问题等效于使用联合矩阵G的图拉普拉斯^[3]来解决广义特征值问题：

${\ displaystyle G = \ left [{\ begin {array} {cc} \ mu S_ {X}＆\ left（1- \ mu \ right）W \\\ left（1- \ mu \ right）W ^ { T}＆\ mu S_ {Y} \ end {array}} \ right]}$

数据间的对应

上述算法需要输入数据集之间完整的成对对应信息。有监督的学习范例。但是，在现实应用中通常很难或不可能获得此信息。最近的工作已将核心流形对齐算法扩展到半监督 ^[4] ，无监督 ^[5] 和多实例 ^[6] 设置。

一步骤与两步骤对齐

上述算法执行“一步式”对齐，同时找到两个数据集的嵌入。在稍作修改的过程之后，也可以通过“两步式”比对^[7] ^[8]获得类似的效果：

使用多种降维算法中的任何一种，将每个输入数据集独立地投影到低维空间。
对嵌入的数据执行线性流形对齐，保持第一个数据集固定，将每个其他数据集映射到第一个流形上。这种方法的优点是分解所需的计算，从而降低了内存开销并允许并行实现。

实例级别与功能级别的预测

流形对齐可用于查找线性（特征级）投影或非线性（实例级）嵌入。尽管实例级版本通常会产生更准确的对齐方式，但由于学习的嵌入通常难以参数化，因此牺牲了很大程度的灵活性。特征级投影允许将任何新实例轻松嵌入到流形空间中，并且可以将投影组合起来以形成原始数据表示形式之间的直接映射。这些属性对于知识转移应用尤其重要。

应用领域

流行学习适用于位于共享歧管上的多个语料库的问题，即使每个语料库的维数不同也是如此。许多现实世界中的问题都符合此描述，但是传统技术无法同时利用所有语料库。流行学习还有助于转移学习，其中一个域的知识用于在相关域中快速开始学习。

流行学习的应用包括：

跨语言信息检索/自动翻译^[8]
- 通过将文档表示为单词计数的向量，流形对齐可以恢复不同语言的文档之间的映射。
- 跨语言文档通信相对容易获得，尤其是从像欧盟这样的多语言组织中。
转移学习策略和状态表示以进行强化学习^[8]
蛋白质NMR结构的比对^[8]
通过共享其他机器人生成的数据来加速机器人技术中的模型学习^[9]

参考文献

火腿智勋 Daniel D. Lee；劳伦斯·索尔（Lawrence K.Saul）（2003）。“从低维流形学习高维对应” （PDF）。第20届机器学习国际会议论文集（ICML-2003）。
H.Hotelling（1936年）。“两组变量之间的关系” （PDF）。Biometrika。28（3–4）：321–377。DOI：10.2307 / 2333955。JSTOR 2333955。
贝尔金，男；P Niyogi（2003）。“用于降维和数据表示的拉普拉斯特征图” （PDF）。神经计算。15（6）：1373–1396。CiteSeerX 10.1.1.192.8814。doi：10.1162 / 089976603321780317。
火腿智勋 Daniel D. Lee；劳伦斯·索尔（Lawrence K.Saul）（2005）。“歧管的半监督对齐” （PDF）。人工智能不确定性年会论文集。
王昌 Sridhar Mahadevan（2009年）。无对应的流行学习 （PDF）。第21届国际人工智能联合会议。
王昌 Sridhar Mahadevan（2011年）。使用歧管比对的异构域适应 （PDF）。第22届国际人工智能联合会议。（原始内容存档于（PDF） 2012-04-15）。检索2011-12-14。
斯蒂芬·拉芳；尤西·凯勒（Yosi Keller）Ronald R.Coifman（2006年）。“通过扩散图进行数据融合和多线索数据匹配” （PDF）。IEEE模式分析与机器智能交易。28（11）：1784-1797。CiteSeerX 10.1.1.419.1814。doi：10.1109 / tpami.2006.223。PMID 17063683。
王昌 Sridhar Mahadevan（2008年）。使用Procrustes分析进行流行学习 （PDF）。第25届国际机器学习会议。
Ndivhuwo的Makondo；本杰明·罗斯曼；长谷川修（2015）。基于局部过程分析的学习机器人模型知识转移。第15届IEEE-RAS人形机器人国际会议（人形）。DOI：10.1109 / HUMANOIDS.2015.7363502。

进一步阅读

熊，L。F.王; C.张（2007）。“半定流行学习”。第18届欧洲机器学习会议论文集。CiteSeerX 10.1.1.91.7346。
王昌 Sridhar Mahadevan（2009年）。“流行学习的通用框架” （PDF）。AAAI关于流形学习及其应用的秋季研讨会。
王昌 Sridhar Mahadevan（2010年）。“多尺度歧管对准” （PDF）。大学马萨诸塞州TR UM-CS-2010-049。
马云前（2012年4月15日）。流形学习理论及其应用。泰勒和弗朗西斯集团。p。376 。 978-1-4398-7109-6。
Chang Wang的流行学习概述

[1] 火腿智勋 Daniel D. Lee；劳伦斯·索尔（Lawrence K.Saul）（2003）。“从低维流形学习高维对应” （PDF）。第20届机器学习国际会议论文集（ICML-2003）。

[2] H.Hotelling（1936年）。“两组变量之间的关系” （PDF）。Biometrika。28（3–4）：321–377。DOI：10.2307 / 2333955。JSTOR 2333955。

[3] 贝尔金，男；P Niyogi（2003）。“用于降维和数据表示的拉普拉斯特征图” （PDF）。神经计算。15（6）：1373–1396。CiteSeerX 10.1.1.192.8814。doi：10.1162 / 089976603321780317。

[4] 火腿智勋 Daniel D. Lee；劳伦斯·索尔（Lawrence K.Saul）（2005）。“歧管的半监督对齐” （PDF）。人工智能不确定性年会论文集。

[5] 王昌 Sridhar Mahadevan（2009年）。无对应的流行学习 （PDF）。第21届国际人工智能联合会议。

[6] 王昌 Sridhar Mahadevan（2011年）。使用歧管比对的异构域适应 （PDF）。第22届国际人工智能联合会议。（原始内容存档于（PDF） 2012-04-15）。检索2011-12-14。

[7] 斯蒂芬·拉芳；尤西·凯勒（Yosi Keller）Ronald R.Coifman（2006年）。“通过扩散图进行数据融合和多线索数据匹配” （PDF）。IEEE模式分析与机器智能交易。28（11）：1784-1797。CiteSeerX 10.1.1.419.1814。doi：10.1109 / tpami.2006.223。PMID 17063683。

[procrustes-8] 王昌 Sridhar Mahadevan（2008年）。使用Procrustes分析进行流行学习 （PDF）。第25届国际机器学习会议。

[9] Ndivhuwo的Makondo；本杰明·罗斯曼；长谷川修（2015）。基于局部过程分析的学习机器人模型知识转移。第15届IEEE-RAS人形机器人国际会议（人形）。DOI：10.1109 / HUMANOIDS.2015.7363502。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]