论文笔记之Distributed Representations of Words and Phrases and their Compositionality

Ton10

已于 2022-03-04 14:47:34 修改

阅读量3.5k

点赞数 9

分类专栏： NLP 文章标签：机器学习深度学习人工智能 NLP word2vec

于 2022-02-28 15:04:39 首次发布

本文链接： https://blog.csdn.net/MR_kdcon/article/details/123171180

版权

NLP 专栏收录该内容

5 篇文章 1 订阅

订阅专栏

这篇文章是用于解决skip-gram和CBOW两种模型在计算softmax时因为语料库V太大导致计算复杂度偏高的问题。为了降低复杂度，提高运算效率，论文作者提出了层次softmax以及负采样的方式去解决(负采样会比层次softmax用的更多些)。此外，作者还提出了一种重采样方式去使得采样更偏重一些含重要信息的词。

参考：
① B站视频
② 论文
③ Word2vec的两种原模型
④ Word2vec 中的数学原理详解
⑤ Word2Vec-知其然知其所以然

Distributed Representations of Words and Phrases and their Compositionality

1 Hierarchical Softmax
- 1.1 Skip-gram HS构建
- 1.2 CBOW HS的构建
2 Negative Sampling
- 2.1 Skip-gram中的NS
- 2.2 CBOW中的NS
3 Subsampling of Frequent Words
4 实战演练
- 4.1 PTB数据集
- 4.2 模型训练
5 Conclusion

文章介绍了2种可以简化skip-gram和CBOW两种模型中softmax部分的计算复杂度，即Hierarchical Softmax(HS)和Negative Sampling(NS)。这两种技巧均可用于上述2种模型，故HS和NS的目标就是改变softmax的表达式：
$\frac{exp(u_o^Tv_c)}{\sum^V_{w=1}exp(u^T_wv_c)}\tag{1}$
从式(1)中可以看出，计算一次概率需要经过 $V$ (语料库大小)次的指数运算，那么自然HS和NS就要想办法在保证求出概率 $p (o ∣ c)$ 的情况下，减小 $u^T_wv_c$ 的运算次数。因此原skip-gram以及CBOW的softmax需要做出改进。

1 Hierarchical Softmax

层次softmax的核心思想就是通过引出二叉树结构(Huffmax 二叉树)将求softmax的计算转为求sigmoid的计算，从而将计算复杂度从 $V$ 降到 $log_2V$ 以下，即从原来的需要求 $V$ 次关于 $u_w^Tv_c$ 的指数运算降低到求小于 $log_2V$ 次的sigmoid运算( $\sigma(x) = \frac{1}{1+e^{-x}}$ )。

为了便于理解，我们中间加入满二叉树过程而不是直接到Huffman树过程。

上图是一个满二叉树(V=8)，可以看到，每次计算一个词 $a$ 的概率需要进行 $log_2V=3$ 次的二分类过程，也就是说需要进行3次的sigmoid计算。

那么满二叉树达到了 $log_2V$ 的优化程度，那么有没有更快的方式呢？——引入Huffman树。

哈夫曼树是带权重路径最短二叉树，它基于将权值小的节点放的位子深(越小越接近叶子节点)，权值大的节点放的位子浅(越大越靠近根节点)的原则来实现比满二叉树更小的路径和。
Note:

在层次softmax的CBOW和skip-gram模型中，你无法采用 $\frac{W+W^*}{2}$ 的形式来做，因为在skip-gram模型中，只有一组完整的中心词向量矩阵 $W$ ，而中心词向量矩阵是由 $\theta$ 组成的，其维度势必小于 $V$ ，故 $W$ 和 $W^*$ 是size不同的两个矩阵。同理，在CBOW模型中，只有一组完整的周围词向量矩阵 $W$ ，而 $W^*$ 的size是比 $W$ 要小的，故不能相加。
对于HS，有的词概率计算用的sigmoid次数可能小于 $log_2V$ ，有的可能要大于 $log_2V$ ，平均下来是 $log_2V$ 。

1.1 Skip-gram HS构建

Skip-gram中哈夫曼树的构建：

输出层是一课Huffman树。
叶子节点是语料库中的词。
将某个词出现的频率作为叶子节点的权值，频率越大的层数越浅，频率越小的层数越深。

如上图所示，比如说我们要去求"词I"的概率，我们用HS技巧来取代softmax计算，设c为中心词：
$\sigma(\theta_0^Tv_c)\cdot\sigma(\theta_1^Tv_c)\cdot(1-\sigma(\theta_2^Tv_c))\\ = \sigma(\theta_0^Tv_c)\cdot\sigma(\theta_1^Tv_c)\cdot\sigma(-\theta_2^Tv_c)\tag{2}$

$\theta$ 参数的个数一定是小于 $V$ 的，其没有具体意义，实在要一个意义的话，可以理解为该节点以下整一簇的上下文词向量。
$\theta$ 的个数大约有 $log_2V$ 个，比 $V$ 要略大。
树的高度大约是 $O(\log_2V)$ 。

上图的意思大概就是：从根节点出发，以一半一半的概率走向两个子节点，需要注意的是同一层的两个结点之和为1。然后一半一半的概率继续往下走，当第三次分开走的时候就遇到了我们要求的“词I”，我们把它拿出来做反向传播就行了。具体写成公式如下：
$p(w|w_I) = \prod_{j=1}^{L(w)-1}\sigma(\delta(n(w,j+1)==ch(n(w,j)))\cdot \theta_{n(w,j)}^Tv_{w_I})\tag{3}$
Note:

$n (w, j)$ 表示词 $w$ 在树上的第j个节点，比如 $n (w, 1)$ 就是根节点。
$\delta(n(w,j+1)==ch(n(w,j)))$ 表示当节点 $n (w, j)$ 的右儿子节点是词 $w$ 的下一个节点的时候，那么就取正号，否则就取负号。
公式(3)中 $v_{w_I}$ 表示中心词向量。

1.2 CBOW HS的构建

在CBOW中HS和skip-gram中差不多，只是公式上略微有点变化。因为和skip-gram相反，CBOW要改变中心词向量矩阵 $W^*$ ，具体如下：

如上图所示， $\theta$ 在CBOW中的含义大概是中心词向量，而非skip-gram中的上下文词向量。

对应skip-gram中的公式3，CBOW也要略微进行修改：
$p(w|w_I) = \prod_{j=1}^{L(w)-1}\sigma(\delta(n(w,j+1)==ch(n(w,j)))\cdot u_{w_I}^T \theta_{n(w,j)})\tag{4}$

2 Negative Sampling

负采样的核心思想就是将多分类(V类)问题转为二分类问题。Softmax之所以慢，是因为它涉及一个多分类问题，且和词表大小 $V$ 相关的。负采样就是舍弃多分类，转为二分类来提升速度。

2.1 Skip-gram中的NS

既然是二分类，正样本由中心词以及窗口内上下文词组成；负样本由中心词和词库中随意采样的样本组成。
先给出负采样的核心公式，即目标函数：
$J_{neg-sample}(\theta) = log\sigma(u_o^Tv_c) + \sum^K_{k=1}\mathbb{E}_{k\sim P(w)}[log\sigma(-u_k^Tv_c)]\tag{5}$

$v_c$ 是中心词向量； $u_o$ 是窗口内上下文词向量； $u_k$ 是负采样上下文词向量。
我们的目标是最大化式(5)，即正样本的 $u_o^Tv_c$ 概率越大越好；负样本 $u_k^Tv_c$ 越小越好。这也是二分类的核心思想：增大正样本概率，减小负样本概率。
对于每个词，一次要输出 $K + 1$ 个概率，一般也不大(3~10)，所以会比Hierarchical Softmax需要计算大约 $log_2V$ 个概率或者原模型需要的 $V$ 个概率要高效很多。
我们之所以取期望 $\mathbb{E}$ 以及采取多个负样本，就是因为负样本是采样得来的，需要多采样几份求平均。
NS里面还是需要完整的 $W$ 和 $W^*$ ，故总的参数比HS要多，但是每次的计算量不多。

2.2 CBOW中的NS

大多数和skip-gram中的NS类似，除了正负样本的定义以及目标函数。
正样本由中心词及其窗口内上下文词的平均组成；负样本窗口内上下文词的平均和随机采样的词组成。
其目标函数为：
$J_{neg-sample}(\theta) = log\sigma(u_o^Tv_c) + \sum^K_{k=1}\mathbb{E}_{k\sim P(w)}[log\sigma(-u_o^Tv_k)]\tag{6}$
Note:

$u_o$ 是窗口内上下文词向量； $v_c$ 是正确的中心词向量； $v_k$ 是错误的中心词向量。

如何采样呢？

采样的核心思想就是减小频率大的词的采样概率，增加概率小的词的采样概率。之所以这么做，是因为概率小的词往往比较重要，反之概率大的词不太重要，如“the、a、to、的”。

3 Subsampling of Frequent Words

自然语言共识：在语料库中出现频率高的词往往不太重要，所含信息较少，如“a、and、the”；在语料中出现频率低的词往往比较重要，所含信息比较多。
重采样的原因：

更多地训练重要的词对，比如训练“Chinese”和“HangZhou”的关系，少训练“Chinese”和“the”之间的关系。
高频词很快就训练好了，而低频词需要训练更多的轮次。

重采样方式：
$P(w_i) = max(0, 1-\sqrt{\frac{t}{f(w_i)}}).$

其中 $f(w_i)$ 为词 $w_i$ 在数据集中出现的概率。文中选取 $t=10^{-5}$ ，训练集中的词 $w_i$ 会以 $P(w_i)$ 的概率删除。
词频越大， $f(w_i)$ 越大， $P(w_i)$ 越大，那么词 $w_i$ 就有更大的概率被删除。
实验表明，重采样可以加加速训练，得到更好的词向量。

Note：

在batch个中心词向量中，每一个中心词对应一个长度为S的，由周围词和负采样值以及掩码组成，因此这就相当于一个中心词对应窗口内的周围词都做了运算。
这里和之前写的那篇 Word2Vec笔记中不一样的一点是，并没有从索引到one-hot，再用矩阵乘法输出中心词向量，而是直接将索引通过Embding层挑选出指定索引对应的中心词向量。
最后我们所想要的就是上图绿色Embding层的weight参数。