NLP之文本分类和NLP领域常识

  作为NLP领域较经典的使用场景之一,文本分类积累了许多的实现方法,这里我们根据是否使用深度学习方法将文本分类主要分为一下两个大类:。

  随着统计学习方法的发展,特别是在90年代后互联网在线文本数量增长和机器学习学科的兴起,逐渐形成了一套解决大规模文本分类问题的经典玩法,这个阶段的主要套路是人工特征工程+浅层分类模型,整个文本分类问题就拆分成了特征工程和分类器两部分。

  这里的特征工程也就是将文本表示为计算机可以识别的,能够代表该文档特征的特征矩阵的过程,在基于传统机器学习的文本分类中,我们通常将特征工程分为文本预处理,特征提取,文本表示等三个部分。

  文本预处理过程是提取文本中的关键词来表示文本的过程,中文文本预处理主要包括文本分词和去停用词两个阶段。

  文本分词,是因为很多研究表明特征粒度为词粒度远好于字粒度(其实很好理解,因为大部分分类算法不考虑词序信息,基于字粒度显然损失了过多“n-gram”信息),具体到中文分词,不同于英文有天然的空格间隔,需要设计复杂的分词算法。

  NLP领域目前主要有几个大的任务类别:语音识别和生成,文本分类,信息提取,实体识别,对话系统,机器翻译,情感分析,知识图谱等。

  人工智能及NLP领域近些年的发展迅速,各类算法不断的优化创新,新的算法层出不穷。

  自然语言处理NLP它包括了机器翻译,语音翻译,语义分析,语义理解,信息检索,自动文摘,语言歧义,语言多义,语法分析,上下文推断,自动问答,音素音节处理,图像处理,光学字符识别,文本分析,语料库对齐。