首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种用于隐式篇章关系分析的显式数据筛选方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京理工大学

摘要:本发明涉及一种用于隐式篇章关系分析的显式数据筛选方法及系统,属于自然语言处理技术领域。本发明从隐式数据和插入推荐连接词隐式数据的篇章关系预测结果分布中提取判断连接词可有可无的规则,并将显式数据和去掉连接词显式数据篇章关系预测结果分布中符合上述规则的数据提取出来,用这些数据对隐式篇章关系进行数据增强。对比现有技术,本发明提升了隐式篇章关系识别的准确度。

主权项:1.一种用于隐式篇章关系分析的显式数据筛选方法,其特征在于,包括以下步骤:步骤1:获取语料库样本和篇章关系类别,语料库包括显式数据和隐式数据;对样本进行预处理,每个样本包括两个以上的句子,一个句子称为一个论元;步骤2:将显式数据和隐式数据均划分为三个数据集,分别为训练集、验证集、测试集;此处,定义两种格式的隐式篇章关系数据集:Dataset1:原始的隐式篇章关系数据集;Dataset2:带推荐链接词的隐式篇章关系数据集;定义两种格式显式篇章关系数据集:Dataset3:原始的显式篇章关系数据集;Dataset4:去掉连接词的显式篇章关系数据集;步骤3:用Dataset1的训练集,训练一个隐式篇章关系分类器M1;步骤4:将Dataset1的测试集,输入到训练好的隐式篇章关系分类器M1中,得到Dataset1隐式数据的分类结果概率分布A1;步骤5:将所有隐式数据加上其推荐连接词,形成Dataset2;步骤6:用Dataset2的训练集,训练一个显式篇章关系分类器M2,分类器M2结构和分类器M1一致;步骤7:将Dataset2的测试集输入到训练好的显式篇章关系分类器M2中,得到Dataset2的分类结果概率分布A2;对于<隐式数据,带推荐连接词的隐式数据>这种代表连接词可有可无的数据中存在一种规则R1,即,无论有无连接词都能正确预测逻辑关系,连接词只起到了强化作用;步骤8:将所有Dataset3输入到显式篇章关系分类器M2中进行预测,得到所有数据的分类结果概率分布B1;步骤9:将所有Dataset3中的连接词去掉,形成Dataset4;步骤10:将所有Dataset4输入到隐式篇章关系分类器M1中进行预测,得到所有数据的分类结果概率分布B2;步骤11:基于从<隐式数据,带推荐连接词的隐式数据>的分类结果概率分布中提取出的规则R1,将所有<显式数据去掉连接词,显式数据>中符合上述规则的数据提取出来,得到新的去掉连接词的显式篇章关系数据集Dataset4-1;步骤12:将Dataset4-1加入到Dataset1的训练集,得到新的隐式篇章关系数据集Dataset1-1数据集;步骤13:使用新得到的Dataset1-1数据集,重新训练一个隐式篇章关系分类模型M3;步骤14:将Dataset1的测试集分别用M1模型和M3模型进行预测,得到预测结果的f1值和正确率。

全文数据:

权利要求:

百度查询: 北京理工大学 一种用于隐式篇章关系分析的显式数据筛选方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。