序列标注

教师:邱锡鹏 微博:@邱锡鹏

助教:施展、龚经经

复旦大学 计算机学院 大数据学院

x为句子序列,y为标注序列

argmax 对应解码过程,若是序列,需要使用动态规划算法,若是分类,否则使用穷举法即可。

中文分词简介

1.1 BMES 编码

单个字作为词:S

双字作为词:B(起始),E(结束)

多字作为词:B(起始),M(中间字),E(结束)

例子:他(S)说(S)的(S)确(B)实(E)在(B)理(E)

1.2 特征抽取

序列之间存在依赖关系(如这种组合是不会出现的)

设计如下模板来抽取特征:

  1. 抽取序列之间的特征
  2. 抽取(x,y)之间的特征

模板1抽出的特征例子如下:

模板2抽出的特征例子如下:

1.3 优化方法

若将序列代入式(1),则的解空间共有大小(L为序列长度),无法穷举获得最佳解

简化步骤:

特征提取模板与空间维数的关系:

问题转化为:

1.4 预测y序列

抽取只和相关的特征,(2)式又可写成

运算次数由降低为

viterbi算法:

定义

记录路径,得到最佳序列。