一个自然语言处理系统必须考虑许多语言自身与结构方面的知识——如什么是词、词如何组成句子、词的意义是什么、词的意义对句子意义有什么贡献等,但这些却还是远远不够的。比如一个系统如果要回答提问或者直接参与对话,它不仅需要知道很多语言结构的知识,而且还要知道人类世界的一般性知识并具备人类的推理能力。因此许多语言学家通常把对语言的分析和理解分成如下几个主要层次:词法分析、句法分析、语义分析、篇章分析。
首先,词法分析——主要包括分词、词性标注、词义消歧、新词识别等——是通过分词、词频和位置统计等手段获得相关语言信息。
其次,句法分析通过使句子成分特征化来分析句子结构特征,通过对句子和短语结构的分析找出词、短语等的相互关系以及各自在句中的作用,并以一定结构来表达诸如从属关系、成分关系等,目的是判定句子中各种结构性成分。
第三,为了理解一个提问,一般还需要更多的语义和语用知识来帮助理解句子的意思,通过分析找出词义、结构意义及其结合意义,从而确定句子所表达的真正含义,而语义信息的标记需要包含概念完全集与关系图的支持,需要对句法成分做出细致的语义分类,它一般应包括语言层面(即反映语言表面现象的知识,如同义词关系、层次关系等)、本体论层面(描述概念之间复杂的语义关系)、常识层面等。虽然这项工作浩繁,但目前已经取得了一些初步成果。
最后,篇章分析用于对多个语句、段落之间在结构或者语义上的相互关系进行分析。
NLPIR分词系统是经过多年研究工作积累,主要功能包括中文分词;英文分词;词性标注;命名实体识别;新词识别;关键词提取;支持用户专业词典与微博分析。NLPIR系统支持多种编码(GBK编码、UTF8编码、BIG5编码)、多种操作系统、多种开发语言与平台。
NLPIR/ICTCLAS2018分词系统主要功能介绍
1)中英文混合分词功能
自动对中文英文信息进行分词与词性标注功能,涵盖了中文分词、英文分词、词性标注、未登录词识别与用户词典等功能。
2)关键词提取功能
采用交叉信息熵的算法自动计算关键词,包括新词与已知词,
3)新词识别与自适应分词功能
从较长的文本内容中,基于信息交叉熵自动发现新特征语言,并自适应测试语料的语言概率分布模型,实现自适应分词。
4)用户专业词典功能
可以单条导入用户词典,也可以批量导入用户词典。如可以定“举报信 敏感点”,其中举报信是用户词,敏感点是用户自定义的词性标记。
ICTCLAS分词法利用词典匹配进行初切分得到一个切分词图,然后利用词频信息求词图N条最短路径的N-最短路径法。还有些研究者利用词典找出所有的交叉歧义,然后利用Bigram语言模型或其变形来消除歧义。