自然语言处理(二) wu-kan

语言学基础(英文为主)

词性与语法

语言学家将词按照相似的语法结构行为和典型的语义类型聚成不同的类,称为词性(parts of speech,POS,句法类或语法类)。

词性分类

  • 开放类(词汇类):名词、动词、形容词
  • 封闭类(功能类):介词、限定词等

词法(构词过程)

变形

对词根形式进行系统的修改,通过加前缀或后缀来指明语法结构的不同,如单数和复数。并不显著改变词语的类别和语义,但修改一些特征,如时态、数目等。

派生

缺乏系统化,通常导致语法类别的根本变化,且涉及含义的变化。

如 wide->widely,difficult->difficultly

复合

两个或多个词合成一个新词,如:college degree,overtake,mad cow disease

英语主要词性

  • 名词和代词
  • 名词附属词
    • 限定词(the,a)和形容词
  • 动词
    • 主语数、主语人称、时态、体态、情态、分词
  • 副词、介词
  • 连词

短语结构

  • 特定的词语集合的行为类似于一个语法成分
  • 语法成分可以通过看他们是否能够出现在不同的位置,并且表现出一致的语法扩展的可能性而检测到。

名词短语

名词短语(NP)是句子中名词信息聚集起来的语法结构单位。名词是名词短语的中心词,是决定这个短语语法性质的核心成分。

介词短语

介词短语(PP)是以介词开始并且包含一个名词短语补语。它们可以出现在其他所有主要短语类型中,特别是在名词短语和动词短语中用来表示空间、时间、位置以及其它属性。

动词短语

动词短语(VP)以动词为中心词,通常在句法结构上依靠动词来组织起句子的所有元素。

形容词短语

形容词短语(AP),复杂形容词短语较少见。

短句结构表示

  • 叶节点作为终结节点,内部节点作为非终结节点
  • 子节点的顺序生成了句子中语法的顺序
  • 树只有一个根节点,是语法的开始符
  • 分析树对应句子的派生
带标记的括号

括号集合划分出了各成分并且通过加标记表示了非终结符的类别。

远距离依存关系

  • 远距离依存关系对很多统计 NLP 方法都是一个挑战
  • 怎样包含必要的依存关系是概率分析的一个中心议题

句法分析和短句结构歧义

  • 句法分析是指给出一个特殊的词语序列,重构它的短语结构树的过程
  • 根据句子构建的一棵短语结构树称为一个分析
  • 多数情况下,对一个特定的词语序列可以给出多个不同的短语结构树;一个基于英语中完全语法的句法分析器通常能找到一个句子的上百个分析。这种现象称为短语结构歧义句法结构歧义
附着(Attachment)歧义
  • 发生在可以被两个不同节点生成的短语中
  • 不同附着有不同的含义
  • 解决附着歧义对于找到正确的语义非常重要

语义和语用

语义

语义研究词语的含义、结构和说话的方式

  • 研究单个词的语义词义
  • 单个词的词义怎样联合起来组成句子或更大单位的含义
词义
  • 研究词义之间怎样相互联系
  • 词汇歧义涉及到同形异义词多义词
词语搭配
  • 整体含义是指各部分含义之和加上一些不能从各部分推导出来的额外的语义信息。
  • 词语含义与短语含义之间关系很远。
作用范围

待补

语用

篇章(discourse)分析

阐明文本中句子之间隐含的关系,是语用论研究的重要部分

语用论

研究世界知识和语言习惯是怎样与字面含义相互影响的

指代关系消解
  • 指代关系发生在涉及到同一个人或物的多个名词短语之间,是一种语用现象,收到世界知识的约束
  • 对信息抽取至关重要:识别、跟踪事件中的参与者及其他信息
对话中的语言行为建模:语言理解的步骤
  1. 文本预处理
  2. 句子切分
  3. 形态分析
  4. 分词
  5. 词性标注
  6. 句法分析
  7. 词义消歧
  8. 语义关系分析
  9. 指代消解
  10. 逻辑形式

其他研究领域

一些特殊领域

社会语言学

研究社会组织和语言间的相互作用

历史语言学

研究语言如何随时代变迁而变化

语言分类学

研究语言对语言学工具的不同使用,以及它们是怎样基于所用工具的方式被分为不同类的

语言获取

研究儿童如何学习语言

心理语言学

研究实时语言的产生和语言理解问题,以及语言展现在脑海里的方式

数理语言学

实现一些使用非定量数学思想的方法