一种语境标注的双语平行语料库构建系统

发布者:系统管理员发布时间:2020-08-06浏览次数:664

专利类型: 发明授权

申请(专利)号: CN201610368937.3

申请日: 2016-05-27

授权公布号: CN106066870B

授权公告日: 2019-03-15

申请人: 南京信息工程大学

地址: 210000 江苏省南京市建邺区奥体大街69号

发明人: 尹娜; 高湘; 韩进; 李潼潼; 林弋岚; 李亚州

分类号: G06F16/21;G06F16/22;G06F16/2458

主分类号: G06F16/21

国省代码: 32

页数: 6

代理机构: 江苏爱信律师事务所

代理人: 唐小红


主权项:

1.一种语境标注的双语平行语料库构建系统,其特征在于,包括:1)并行的语境标注数据生成架构:由上机位与外接的并行语境标注数据生成单元组成,通过上位机将语料分词结果发送到生成单元,由生成单元完成词的双向索引和词共句关系统计,作为语境标注所需的基础数据;2)并行语境标注数据生成单元:由一个主控模块和多个可扩展的处理节点模块构成,由主控模块实现与上位机的交互,可扩展并行节点实现对词的索引与词共句关系统计,作为语境标注的数据来源;3)面向语境的词索引结构:该结构实现了一种面向语境的词索引结构,能实现词与语料的双向索引,保存词在语料中位置,实现词与词之间的共现关联关系统计;4)基于语境的双语平行语料库的构建:基于语境模型实现对语料库中语料语境的构建,实现包含语境标注的双语平行语料库;其中,所述可扩展的节点模块由ARM、扩展内存、外接FLASH芯片以及相关的控制与数据线组成,其接收从主控模块发送来的分词以及语料ID,缓存于模块语料分词缓存数据结构中,再遍历各分词,将分词生成MD5再映射成节点号,判断该分词是否由本节点处理,若由本节点处理,则生成该词的面向语境的词索引结构和词共现关系统计数据;所述词索引结构,包括词,词的MD5码以及二进制的反向语料有序索引数组,每个索引数组元素为corpusID,index二元组,其中:corpusID为语料唯一ID,以及词在语料中的位置,数组以corpusID为序从小到大排列,提供二分法插入与查找,词与词句共现关系的分析接口;所述词共句关系统计,每个统计项为wordID,wordID,count三元组,其中前二个wordID分别代表在同一个句子中出现的二个词的ID,count代表到目前为止这二个词共句出现的频率。 


摘要:

本发明公开了一种语境标注的双语平行语料库构建系统,该系统由上位机与并行的语境标注数据生成单元组成。通过上位机进行双语语料的前置处理,再将语料分词发送至并行标注数据生成单元。在生成单元的主控模块控制下由单元内各节点模块生成语境标注数据并将数据存储在模块外接的FLASH芯片中。当双语平行语料库达到一定规模后,由上位机读取存储在各节点模块中词共句关系的统计数据实现对语料库中双语语料的语境标识。本构建系统充分利用了并行处理的架构优势,能快速处理较大规模的语料库语境标注数据的生成。并基于标注数据标注出语料库中语料的语境,实现语境标注的双语平行语料库。