NLP自然语言处理和语音信号特征参数提取

  计算机视觉,NLP自然语言处理和推荐算法哪个前景更好。

  1,人工智能大致可分为感知智能与认知智能,其中感知智能主要包括语音识别和计算机视觉两块,认知智能主要包括语义识别和理解。

  2,目前图像识别和语音识别在技术上都有较大的突破,尤其是2016年以来,这两项识别的准确率可以超过人类,很多公司借此爆发出来。

  3,在计算机视觉方面,像商汤,旷视,依图,云从等都获得了大笔投资,在应用上也已经挖掘了很多落地的场景,如安防,金融,新零售等,所以要在计算机视觉方面再进一步突破,难度可能更大一些,更多的是需要考虑如何挖掘垂直应用场景,把这些技术更好的落地。

  4,在语音识别方面也是差不多,像科大讯飞,思必驰等也大有潜力,但是就人机对话交互的流程来说,语音识别很难单独发展,语音识别后的语义识别限制了其应用落地和发展。

  语义识别的主要技术是NLP,在技术上的突破不如图像和语音,但是2017年也是得到了较大的发展,有些深度学习学者在图像处理获得突破后都考虑深度学习在NLP中的应用,同时,像知识图谱等语义网络技术也逐渐被工业界应用,微软小冰,苹果语音助手等也更加智能,但是NLP存在的问题很多,比如要考虑语言背景知识,考虑语言情感,考虑语言的个性化等,所以要真正实现这一块大规模的应用还有很长一段路要走。

  语音信号的特征参数提取。

  人说话的频率在10kHz以下,根据香农采样定理,为了使语音信号的采样数据中包含所需单词的信息,计算机的采样频率应是需要记录的语音信号中包含的较高语音频率的两倍以上,一般将信号分割成若干块,信号的每个块称为帧,为了保证可能落在帧边缘的重要信息不会丢失,应该使帧有重叠,例如,当使用20kH*的采样频率时,标准的一帧为10ms,包含200个采样值。

  话筒等语音输入设备可以采集到声波波形,虽然这些声音的波形包含了所需单词的信息,但用肉眼观察这些波形却得不到多少信息因此,需要从采样数据中抽取那些能够帮助辨别单词的特征信息,在语音识别中,常用线性预测编码技术抽取语音特征。