自然语言处理(NLP)是人工智能领域中的一个重要方向,主要研究人与计算机之间用自然语言进行有效通信的各种理论和方法,自然语言处理的底层任务由易到难大致可以分为词法分析,句法分析和语义分析,分词是词法分析(还包括词性标注和命名实体识别)中较基本的任务,也是众多NLP算法中必不可少的步,其切分准确与否往往与整体结果息息相关。
金融领域分词的难点。
分词既简单又复杂,简单是因为分词的算法研究已经很成熟了,大部分的算法(如HMM分词,CRF分词)准确率都可以达到95%以上,复杂则是因为剩下的5%很难有突破,主要可以归结于三点:。
粒度,即切分时的较小单位,不同应用对粒度的要求不一样,比如“融资融券”可以是一个词也可以是两个词。
歧义,比如“恒生”一词,既可指恒生公司,又可指恒生指数。
未登录词,即未出现在算法使用的词典中的词,比如不常见的专业金融术语,以及各种上市公司的名称。
在金融领域中,分词也具有上述三个难点,并且在未登录词方面的难点更为突出,这是因为金融类词汇本来就多,再加上一些专有名词不仅有全称还有简称,这就进一步增大了难度。
“语义特征”就是语义范畴的一种.其实,范畴化,类别化就是较初的形式化.我们对形式化的理解是这样的:对象→范畴化→符号化→数理化→可操作化。
“语意”有两大类型:一是语言意义,二是言语意义,语言意义又包括,1.词义,2.句义,语义的演变途径有比喻和借代,语义演变的结果有扩大,缩小和转移三种。