助教:施展、龚经经
复旦大学 计算机学院 大数据学院
x为句子序列,y为标注序列
argmax 对应解码过程,若是序列,需要使用动态规划算法,若是分类,否则使用穷举法即可。
单个字作为词:S
双字作为词:B(起始),E(结束)
多字作为词:B(起始),M(中间字),E(结束)
例子:他(S)说(S)的(S)确(B)实(E)在(B)理(E)
序列之间存在依赖关系(如和这种组合是不会出现的)
设计如下模板来抽取特征:
模板1抽出的特征例子如下:
模板2抽出的特征例子如下:
若将序列代入式(1),则的解空间共有大小(L为序列长度),无法穷举获得最佳解
简化步骤:
特征提取模板与空间维数的关系:
问题转化为:
抽取只和相关的特征,(2)式又可写成
运算次数由降低为
viterbi算法:
定义
记录路径,得到最佳序列。