🌌 浅析嵌入空间的各向同性与聚类现象:兼论线性分类器的隐忧🌌 浅析嵌入空间的各向同性与聚类现象:兼论线性分类器的隐忧
🔍 引言 最近,自然语言处理(NLP)领域关于嵌入空间是否应平等利用其所有维度,即是否应实现“各向同性”的讨论愈演愈烈。各向同性(Isotropy)是指在嵌入模型中,每个方向的概率是均等的,从而保证数据在向量空间中的均匀分布,没有方向性偏差。这种特性表面上看似非常理想:直观上,非各向同性的嵌入空间可能存在过参数化问题,因为它可能会低效地利用某些维度。 然而,本文的研究表明,确保嵌入空间的各向同性可能会与数据点聚类结构的存在相冲突,并且这种冲突还对线性分类器的目标产生负面影响。我们将通过数学分析和实验证实这一观点,并借此重新审视文献中的相关研究结果。 💡 聚类与各向同性的目标冲突 🧩 聚类的优化目标 我们可以通过轮廓系数(Silhouette Scores)来评估数据点是否形成了自然的聚类。轮廓系数的定义基于两个核心部分:凝聚度和分离度。 根据轮廓系数的定义,数据点的分离度越大,凝聚度越小,轮廓系数越高。为了最大化整个数据集的轮廓系数,我们需要(i)最大化所有类间距离,(ii)最小化所有类内距离。 数学上,我们可以定义一个对整个数据集进行优化的目标函数 $O_S$: $O_S = \sum_{d \in D} \sum_{d’ \in D} \text{sign}(\ell(d), \ell(d’)) \sum_i (d_i – d’_i)^2$ 其中,$\text{sign}(\ell(d), \ell(d’))$ 用于区分需要最大化的类间距离和需要最小化的类内距离。 [...]