NLP review ch01
z

ch01 intro

自然语言处理:自然语言处理是研究如何利用计算机技术对语言文本(句子、篇章或话语等)进行处理和加工的一门学科,研究内容包括对词法、句法、语义和语用等信息的识别、分类、提取、转换和生成等各种处理方法和实现技术。

屈折语:用词的形态变化表示语法关系,如英语、法语等。

黏着语:词内有专门表示语法意义的附加成分,词根或词干与附加成分的结合不紧密,如日语、韩语、土耳其语等。

孤立语:形态变化少,语法关系靠词序和虚词表示,如汉语

分类

机器翻译、信息检索、自动文摘、问答系统、信息过滤、信息抽取、文档分类、情感分类、语音识别

问题

  • 形态学问题 –> 关于词素的构成问题
  • 句法问题 –> 句子构成成分之间的相互关系和聚成句子的序列的规则
  • 语义问题 –> 从语句中词的意义推导出整个语句的意义
  • 语用学问题 –> 上下文对语句理解的影响
  • 语音学问题 –> 语音特性等等

难点

  • 歧义: 词法、词性、结构、语义、语音
  • 未知语言线性:新词、新含义、新用法

研究方法

  • 理性主义: 基于规则的分析方法建立符号处理系统
    • 规则库、辞典标注、推导算法
    • 知识库+推理系统 –> NLP
  • 经验主义:基于大规模真实预料建立计算方法
    • 真实数据的收集、标注、统计模型
    • 语料库+统计模型 –> NLP
  • 数据驱动的方法:双语料模型学习、翻译、解码
  • 基于统计的方法:构建语言模型、翻译模型
    • 语言模型概率p(C)
    • 翻译模型概率P(E|C)
    • 快速的搜索候选译文C,使得p(C)p(E|C)最大