CS224N:Natural Language Processing with Deep Learning
Intrinsic(内在) Evaluation
- 对一个特定中间任务进行评估
- 子任务比较简单,并且计算较快
- 子系统性能表现能理解子系统的作用
- 内在评估与最终任务性能表现呈正相关
Extrinsic(外在) Evaluation
- 对真实任务的评估
- 计算性能可能会很慢
- 如果性能不佳,搞不清楚问题出现在哪一个子系统、还是子系统之间协调不佳的问题
- 如果更换子系统可以提高性能,则更改可能是好的
内部评估例子: Word Vector Analogies(类比)
给定词向量a,b,c,我们想找到一个词向量d,使得
根据余弦相似度cosine similarity:
因为我们想要:$x_b-x_a=x_d-x_c$,比如说:queen – king = actress – actor。
这意味着我们想找到一个向量 $x_d$,使得$x_b-x_a+x_c=x_d$
semantic(语义的) word vector analogies (intrinsic evaluation)
这里存在一个问题:在美国很多城市名字一样,比如美国有十个城市都叫Phoenix。Arizona就不是唯一正确答案
我们可以考虑另一种首都对应国家的词类比形式
这种首都对应国家的词类比形式也可能存在问题,1997年以前,哈萨克斯坦的首都是阿拉木图。如果我们的语料库过时了。
syntactic(语法的) word vector analogies (intrinsic evaluation)
下面的例子使用内在评价测试词向量捕捉形容词最高级的能力:
类似地,下面所示的内在评估测试词向量捕捉动词过去时的能力:
词嵌入技术和内在评估的超参数:
- 词向量的维数
- 语料库大小
- 语料来源/类型
- 上下文窗口大小
上下文对称性
我们可以看到不同超参数下,不同的方法的性能表现
- 词嵌入性能在很大程度上依赖于用于词嵌入的模型
- 语料库规模越大,性能越好
- 对于极低维的词向量,性能较低
超参数选择:
词向量维度选为300
上下文窗口大小选为8比较好
内在评估例子:相关性评价(Correlation Evaluation)
让人给词向量之间相似度评分(比如:0-10分),然后跟对应的词向量的余弦相似度比较