关键词:平衡锚点;多视图;空间聚类
1. 引言
在今天的大数据时代,随着信息技术的快速发展和数据采集手段的多样化,多视角数据变得越来越普遍和重要[1]-[3]。这些数据通常是未标记的,本文需要从中发现内在的模式,以便进行更深层次的分析和处理,从而提高数据驱动决策的质量和效率[4]。然而,多视角信息的引入带来了大量的数据,这对传统聚类方法的效率提出了巨大挑战,特别是在面对大规模和高维数据时。如何高效地聚类这些多视角数据,已成为当前的热门研究话题之一[5]-[7]。
近年来,提出了各种多视角聚类方法,其中有三种典型方法:基于图的多视图聚类[8]-[10]、基于矩阵分解的多视图聚类[11]-[13]和多视图子空间聚类[14]-[16]。其中,多视角子空间聚类因其良好的可解释性和出色的性能而受到了广泛关注。子空间聚类通过将每个数据点表示为其他数据点的线性组合,并最小化重构系数来获得系数矩阵,从而避免了维度灾难[17]。
多视图子空间聚类(MVSC)通常包括两个步骤:共识图构建和谱聚类。共识图构建的时间复杂度为O(n3)Ο(n3) 或O(n2k)Ο(n2k) ,谱聚类的时间复杂度为O(n3)Ο(n3) ,其中k和n分别表示聚类簇数和数据样本的数量。高计算成本严重限制了MVSC在处理大规模数据集时的效率[18] [19]。
为了提高MVSC的效率,提出了基于锚点的MVSC方法。该方法在MVSC框架中采用锚定策略[20],旨在学习一个维度为m×nm×n 的锚图来替换原来的维度为n×nn×n 的自表示矩阵。这种替代大大降低了时间复杂度,同时保持了良好的聚类性能。
目前,基于锚点的MVSC选择锚点的策略大致分为两种。一种策略是基于采样的方法,例如首先对不同视角的原始数据分别进行k-means聚类,从中获得的聚类中心作为锚点,然后进行子空间图学习;[21]将每个视角的原始数据合并为一个矩阵,对其进行k-means聚类以获得共同的锚点集,然后使用这些锚点学习一个共识锚图,将所有视角信息整合到一个共识锚图中。这些方法直接对原始数据进行k-means聚类以获得锚点,简单且高效。然而,它们也存在锚点分布不均和对噪声及异常值敏感的问题。
另一种锚点选择策略是基于学习的动态选择方法。例如,[22]通过采样矩阵动态选择锚点,并将子空间图学习和多视角融合整合到一个统一框架中,从而获得更高效的锚图;[23]将锚点学习和子空间图学习结合在一个统一框架中,自动学习具有低秩特性的锚图,无需任何超参数。这些方法将锚点学习和锚图学习整合在同一个框架中,并取得了显著的聚类结果。它们通常对锚点施加正交性约束,以增加锚点的多样性,但仅关注锚点的多样性,而忽视了锚点的潜在语义关系和锚点的平衡结构,可能导致学习到的锚点缺乏代表性和区分性,从而使得某些类别的锚点数量较少或没有锚点。
以上两种针对锚点策略的MVSC方法都取得了相当不错的效果,但是本文仍然可以考虑并进一步改进以下方面,使得学习到的锚点更具代表性和可识别性:(1) 在合适的低维子空间中选择锚点:为了避免直接在原始数据空间中选择锚点的局限性,搜索一个低维子空间并在其中选择锚点。(2) 完全覆盖与平衡结构:锚点应该能覆盖整个数据点云且在各个类别中分布均衡,以保证对数据的全面描述。
为了解决上述问题,获取更具代表性的锚点,并提高基于锚点的多视角聚类,本文提出了一种新颖的多视角子空间聚类方法,称为带有潜在平衡锚点指导的大规模多视角子空间聚类。与其他锚点学习方法不同,所提出的方法在一个干净且低维的共享潜在空间中动态学习锚点,并鼓励锚点向潜在质心对齐,从而使得学习到的锚点集具有平衡结构。干净且更具代表性的锚点反过来使本文能够学习到更高质量的锚图,并进一步提高聚类方法的效果和准确性。
2. 相关工作
2.1. MVSC
给定原始数据{Xv}Vv=1∈Rdi×n{Xv}v=1V∈ℝdi×n ,MVSC的总体框架可以表述如下:
minSv,S∑v=1V∥Xv−XvSv∥2F+λf(Sv,S), s.t. S≥0, ST1=1,minSv,S∑v=1V‖Xv−XvSv‖F2+λf(Sv,S), s.t. S≥0, ST1=1,(1)
其中,符号λλ 表示超参数,函数f(⋅)f(⋅) 是正则化项,将不同视图独有的相似度图SvSv 统一为共识相似度图S。
2.2. 基于锚点的MVSC
一般来说,基于锚点的MVSC的框架可以用一下数学公式来表示:
minAv,Zv,Z∑v=1V∥Xv−AvZv∥2F+λf(Zv,Z), s.t. Zv≥0, (Zv)T1=1,minAv,Zv,Z∑v=1V‖Xv−AvZv‖F2+λf(Zv,Z), s.t. Zv≥0, (Zv)T1=1,(2)
其中Av∈Rdi×mAv∈ℝdi×m 表示第v图中的锚矩阵,Zv∈Rm×nZv∈ℝm×n 表示第v视图中的锚图。Z表示共识锚图。值得注意的是,算法中学习到的锚点的质量将直接影响后续锚图的学习以及最终的聚类性能。
3. 模型
3.1. 自适应锚点学习框架
为了将锚学习和锚图构建过程统一到单个框架中,[23]提出了以下数学模型:
minWv,A,Z,αv∑v=1Vα2v∥Xv−WvAZ∥2Fs.t. (Wv)TWv=Id, ATA=Im, Z≥0, ZT1=1, αT1=1.minWv,A,Z,αv∑v=1Vαv2‖Xv−WvAZ‖F2s.t. (Wv)TWv=Id, ATA=Im, Z≥0, ZT1=1, αT1=1.(3)
该方法假设所有视图的锚点在潜在空间中是一致的。
在此假设下,不同视图之间的锚图也是一致的,并引入投影矩阵来确保潜在表示可以映射回原始特征空间。具体而言,A表示共识锚点矩阵,Z表示共识锚图矩阵,WvWv 是用于将潜在表示AZ映射到原始特征空间的投影矩阵。此外,αvαv 表示特定于视图的权重系数。此外,正交性约束(ATA=IATA=I )增强了锚点之间的多样性,从而提高了其判别能力,最终提高了聚类性能。
3.2. 所提出的方法
为了获得更具代表性的锚点,本文旨在使锚点集具有平衡结构。具体来说,本文先寻找一个干净的低维潜在空间H。接着使用∑i=1n∥c−hi∥22∑i=1n‖c−hi‖22 计算该低维潜在完整空间中所有潜在数据点的质心。然后,在约束ATA=IATA=I 下,本文通过∑j=1m∑i=1n∥aj−hi∥22∑j=1m∑i=1n‖aj−hi‖22 强制将锚点集向潜在质心对齐。在这两个因素的作用下,锚点在确保最大多样性的同时尽可能地靠近潜在质心。从而使锚点均衡的分布在潜在质心c的周围。使得锚点集在充分考虑整体数据集结构的前提下具备了平衡结构。最后,上述思想可以用以下数学公式表达:
minWv,A,Z,H,E,αv∑v=1Vα2v∥Xv−WvAZ∥2F+λ(∥E∥2,1+∑i=1n∑j=1m∥A[:,j]−H[:,i]∥22),s.t. H=AZ+E, (Wv)TWv=Id, ATA=Im, Z≥0, ZT1=1, αT1=1.minWv,A,Z,H,E,αv∑v=1Vαv2‖Xv−WvAZ‖F2+λ(‖E‖2,1+∑i=1n∑j=1m‖A[:,j]−H[:,i]‖22),s.t. H=AZ+E, (Wv)TWv=Id, ATA=Im, Z≥0, ZT1=1, αT1=1.(4)
其中ajaj ,A[:,j]A[:,j] 表示锚点矩阵A的第j列,hihi 和H[:,i]H[:,i] 表示潜在完整表示矩阵H的第i列。c表示所有潜在数据点{hi}ni=1{hi}i=1n 的潜在质心。值得注意的是,与计算聚类中心的传统k-means不同,k-means的聚类中心是该簇所对应数据点的质心。而∑i=1n∥aj−hi∥22∑i=1n‖aj−hi‖22 通过遍历所有潜在数据点来计算每个锚点。因此,本文从全局角度在潜在完整空间中搜索锚点,使学习到的锚点具有全局代表性。
................略
6. 结论
本研究提出了一种新颖的基于锚点的多视角子空间聚类(MVSC)方法。具体来说,本研究试图在一个干净的低维潜在空间中动态学习锚点,并通过一个正则化项鼓励锚点向潜在质心对齐,以实现锚点集的平衡结构并使锚定更具代表性,获得更高质量的锚图。通过分析和实验证明,所提出的潜在平衡锚点的确使锚点集具有了平衡结构并最终提高了聚类性能。最后,在10个基准数据集上的大量实验证明了本文提出方法的有效性和优越性。
Figure 2. Convergence curves of proposed on different datasets
图2. 在不同数据集上的收敛曲线
未来,本文将重点关注三个任务:1) 在本文的实验中,本文发现所提出的算法的性能受到初始锚点的影响。未来,本文将寻找方法来学习更高质量的初始锚点;2) 本文的潜在平衡锚点也是共识锚点。由于不同视角的原始数据具有不同的维度,更合理的假设是不同视图应该有不同数量的锚点。未来,本文将尝试动态地为每个视角寻找最优的锚点数量;3) 本文发现,在不完全的多视图聚类中也存在与不平衡相关的问题[34] [35]。未来,本文将尝试将本文的平衡策略应用于这一问题。
参考文献 略