基于CRF模型的维吾尔语分词研究
Uygur Word Segmentation Based on Conditional Random Fields Model
投稿时间:2019-03-23  修订日期:2019-03-23
DOI:
中文关键词: 条件随机场  维吾尔语分词  特征模板  分词模型  分步实验
英文关键词: conditional random fields  Uyghur word segmentation  feature template  segmentation model  test
基金项目:国家自然科学基金项目(面上项目,重点项目,重大项目)
作者单位E-mail
李成华 中南民族大学 电子信息工程学院 mdlich@mail.scuec.edu.cn 
孙雅婧 中南民族大学 电子信息工程学院 14170651@qq.com 
张世娟 中南民族大学 电子信息工程学院  
艾提日也古丽•艾尼瓦尔 中南民族大学 教育学院  
摘要点击次数: 298
全文下载次数: 0
中文摘要:
      条件随机场(CRF,Conditional random fields)能够很好地处理序列标注问题。引入条件随机场进行维吾尔语分词方法研究,主要包括制定词性和分词单独标注与一体化标注标记集并建成语料库;设计不同特征模板进行训练测试,反复比较实验结果,总结优化以获取最佳的特征模板。本文在设计特征模板时充分了结合维吾尔语语言形态特征,采用了对称特征组合非对称特征的设计方法,将获得的最佳分词模板应用到分步预测词性和分词实验中,得到最佳分词准确率、召回率、F 值分别为90.28%、88.81%、89.54%的实验结果。相比单独分词标注,分词时加入词性特征列进行分词与词性一体化标注能取得更好的分词性能。
英文摘要:
      CRF (Conditional random fields), a word segmentation algorithm is introduced to handle sequence labeling problems. The main tasks include the formulation of the corresponding tag sets, part of speech tagging and integrated tagging. Furthermore, this paper focuses on the design of feature templates fully combined with the morphological features of Uyghur language and asymmetric features, which are applied to building corresponding segmentation models. The experiments are carried out repeatedly using different templates in order to obtain the best one. Ultimately, the accuracy, the recall and the F value of the test are 90.28%, 88.81% and 89.54% respectively. Compared with the separate word segmentation, the participle feature column used for word segmentation performs better.
View Fulltext   查看/发表评论  下载PDF阅读器
关闭