NLP review ch01

ch01 intro
自然语言处理:自然语言处理是研究如何利用计算机技术对语言文本(句子、篇章或话语等)进行处理和加工的一门学科,研究内容包括对词法、句法、语义和语用等信息的识别、分类、提取、转换和生成等各种处理方法和实现技术。
屈折语:用词的形态变化表示语法关系,如英语、法语等。
黏着语:词内有专门表示语法意义的附加成分,词根或词干与附加成分的结合不紧密,如日语、韩语、土耳其语等。
孤立语:形态变化少,语法关系靠词序和虚词表示,如汉语
分类:
机器翻译、信息检索、自动文摘、问答系统、信息过滤、信息抽取、文档分类、情感分类、语音识别
问题:
- 形态学问题 –> 关于词素的构成问题
- 句法问题 –> 句子构成成分之间的相互关系和聚成句子的序列的规则
- 语义问题 –> 从语句中词的意义推导出整个语句的意义
- 语用学问题 –> 上下文对语句理解的影响
- 语音学问题 –> 语音特性等等
难点:
- 歧义: 词法、词性、结构、语义、语音
- 未知语言线性:新词、新含义、新用法
研究方法:
- 理性主义: 基于规则的分析方法建立符号处理系统
- 规则库、辞典标注、推导算法
- 知识库+推理系统 –> NLP
- 经验主义:基于大规模真实预料建立计算方法
- 真实数据的收集、标注、统计模型
- 语料库+统计模型 –> NLP
- 数据驱动的方法:双语料模型学习、翻译、解码
- 基于统计的方法:构建语言模型、翻译模型
- 语言模型概率p(C)
- 翻译模型概率P(E|C)
- 快速的搜索候选译文C,使得p(C)p(E|C)最大