0%

wordNet Introduction

WordNet简介与原理

什么是WordNet

wordNet在线使用地址 wordNet_API wordNet_可视化

一句话概括WorNet即为:面向英文词汇数据库,其按照单词的含义构造了单词的网络。WordNet的最大的特点为按照词义构建词集

在WordNet中词性是分类的重要标准,按照词性划分为四类同义词集,分别是动词同义词集、名词同义词集、形容词同义词集与副词同义词集。上述的四种同义词集各自构成了同义词网络。每一个同义词的集合表示一个基本语义概念,并且集合之间存在各种关系。

集合之间的关系包括九类:上下位关系(动词、名词)、蕴含关系(动词)、相似关系(名词)、成员部分关系(名词)、物质部分关系(名词)、部件部分关系(名词)、致使关系(动词)、相关动词关系(动词)、属性关系(形容词)。

例如名词”Love”的上下位关系为:

entity——>abstract entity——>abstraction——>attribute——>state——>feeling——> emotion——>love;

WordNet的特点

1.与一般词典的组织结构不同

它利用同义词集合作为基本组织单位,用户可以在同义词集中找到合适的词表示某个已知的基本概念,同时也给出了定义与例句。

如果将WordNet视为数据库,则Synset就是一条数据的主键,代表了一个词义。Python中Synset展示:

上图中是Synset基础用法,其通过单词”dog”,寻找包含”dog”的所有同义词集。

2.同义词集间通过关系构成网络

WordNet中同义词集并非是独立的,其通过特定的关系类型构建同义词集网络架构。

上图是”China”词,在WordNet中涉及的同义词集关系展示。

3.WordNet中同义词集的单义性

在WordNet中,大多数的同义词集都有说明性的注释,但一个Synset不等于词典中的一个词条,因为一个Synset只包含一个注释,而在传统词典中的词条是多义词,会有多个解释。

所以说,“一个Synset等于的是一个词义”这一点必须反复强调。以一条词义为一条数据,是跨语言想要成立所必须的条件。

WordNet 非重要概念

这一部分内容介绍了WordNet中不太重要的概念,不影响基本使用,但有利于理解。

  1. 独立起始概念(Unique Beginner)

    某些同义词集不存在上位词集,那么我们称之为独立起始概念。这个可以认为是语义领域内所有概念的原始语义元素。在WordNet中名词体系中存在25个独立起始概念,例如:时间、物质、目的、关系、属性等等。其下位词继承上位词的所有特点,这与编程思想中父子类的关系类似。

  2. 词典ID(Lexicographer ID)

    每一个同义词集都包含一个唯一的编号。

  3. 概念链(Concept Chain)

    这里的概念链指的是同义词集间上下位关系,构成的概念链条。与上面提到的关系可视化概念类似,但其仅包含上下位关系

    上图内容与可视化展示相似,这里不解释。

WordNet文件结构简介

WordNet语料库中最常用的有两个:omw与wordnet

omw文件夹

此文件夹内包含有各国家地区的研究人员基于英文WordNet构建的本国语言的WordNet,目前包含有27个国家与地区,其中cmn(简体中文)和qcn(繁体中文)与中文相关。

文件夹中有三个文件,分别是citation.bibLICENSEwn-data-语言名.tab

wn-data-cmn.tab文件

词条保存在wn-data-语言名.tab文件中。打开后发现,简体中文下的词条一共有79808条,繁体为8069条

数据为两年前,目前中文词条应高于上述数据。

如图:

文件的内容分为三列,第一列为词义的八位十进制序号(offset)(对应于上述的词典ID)和词性(n:名词、v:动词、a:形容词、r:动词);第二列内容为“语言名:lemma”;第三列是对应语言的词义。

“00001740-a”的词义共包含有3个具体的词汇,分别是可以+的,有能力+的、能。

中文简体通过去重之后的词义数量为42312条数据。

WordNet中原本的此役统计数据为:名词:82115条,动词:13767条,形容词:18156条,副词:3621条,共计:117659条。大约占三分之一。

wordnet文件

此文件内包含有wordnet的本体。

wordnet文件夹中一共有18个文件,比较重要的文件有15个。其中四个是data文件,存放四种词性的词的根本内容;四个是index文件,即索引文件;四个是exc文件,对词汇的变形进行对应;还有一个是lexnames文件,存放所有词的45个意向集(即这117659条词义,可以被归为这45个类)。

data.pos文件

此文件是一个数据文件,以data.adj中able词条为例子:

上图中表示了”1740”同义词集下的able词条,其内容依次包含:词典ID、词意向集序号、词性、同义词集内词个数、指针个数、指针列表、句型、注释与例句。

上图是指针符号列表,用于表示此同义词集与其他同义词集的关系。

lexnames文件

WordNet讲英文单词归类为45个意向集,其中名词26个,动词15个,形容词3个,副词1个。

WordNet_API

官方提供了WordNet接口用于研究与应用。其提供了基于上述数据库文件的基本使用方式:包括同义词集的获取、同义词集对应关系的获取、意向词集的获取、语义相似度的判断。

wordNet提供了多种维度的语义相似度接口,一共包含有6种;

  1. 基于上下位词的最短路径,输出空间0-1.

    1
    2
    >>> dog.path_similarity(cat)  # doctest: +ELLIPSIS
    0.2...
  2. 基于上下位词的最短路径与最大深度,其计算公式$-\log(p/2d)$.

    1
    2
    >>> dog.lch_similarity(cat)  # doctest: +ELLIPSIS
    2.028...
  3. 基于两同义词深度与最近公共父节点

    1
    2
    >>> dog.wup_similarity(cat)  # doctest: +ELLIPSIS
    0.857...
  4. 基于两同义词深度与最近公共父节点的含义

    1
    2
    >>> dog.res_similarity(cat, brown_ic)  # doctest: +ELLIPSIS
    7.911...

    第五种与第六种与上述类似,仅仅是公式不同,这里不再赘述。

可以看到WordNet利用了同义词集、同义词集网络深度等信息实现语义相似度的计算。

参考地址:

wordnet官网
wordnet的一些入门性介绍
wordnet词网研究
wordnet思路
wordNet在线使用地址
wordNet_API
[wordNet_可视化](