Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于语义理解的端到端文本匹配辅助标注方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:上交所技术有限责任公司

摘要:本发明涉及文本匹配辅助标注领域,具体来说是一种基于语义理解的端到端文本匹配辅助标注方法,包括S1.基于语义理解的PDF关键信息抽取;S2.基于非监督算法的多专家模型推荐,结合非监督学习算法和预训练语言模型,将多个专家模型的输出融合为一个集成模型进行大规模综合打分,对于每条文档数据,选取最终得分最高的若干条检索数据作为推荐,最终由人类专家进行标注。本发明同现有技术相比,其优点在于:提高文本匹配和标注的效率、准确性和实用价值,提高系统的易用性和一体性,减少人力标注成本,提高关键信息定位和抽取能力,极大减少文字转换的资源开销,并降低文字抽取结果的噪音。

主权项:1.一种基于语义理解的端到端文本匹配辅助标注方法,其特征在于所述方法包括S1.基于语义理解的PDF关键信息抽取,包括:S1.1根据PDF格式文件的元信息,获取输入PDF各级标题信息;S1.2选择其中备选标题T,判断其等级是否匹配目标等级,如果是,进行下一步,否则不匹配;S1.3给定关键词列表{ki|i∈[0,1,…,n]},如果存在一个关键词ki出现在备选标题T中,进行下一步,否则不匹配;S1.4:给定标准标题列表{ti|i∈[0,1,…,m]},如果存在一个标准标题ti满足以下模糊匹配标准之一,则进行下一步,否则不匹配;模糊匹配标准:1关键词相似度≥0.9,且关键词重合度≥0.5,且标题重合度≥0.5;或2关键词重合度≥0.9且标题重合度≥0.5;3关键词重合度≥0.5且标题重合度≥0.9;4关键词重合度≥0.75且标题重合度≥0.75;S1.5给定屏蔽词列表{bi|i∈[0,1,…,p]},如果备选标题T中包含屏蔽词,则不匹配;否则,备选标题T成功匹配,其对应普通文本内容所在区间为匹配区间;S1.6对其余备选标题进行循环,若不存在匹配标题,则返回结果为空;否则,若存在区间重叠,则将重叠区间取并集合并为一个区间,并进行下一步;S1.7将PDF文档按照匹配的区间进行截取,仅保留匹配内容所在的页面;S1.8对截取的页面进行文字提取,并将结果保存为文本文件;S2.基于非监督算法的多专家模型推荐,结合非监督学习算法和预训练语言模型,将多个专家模型的输出融合为一个集成模型进行大规模综合打分,对于每条文档数据,选取最终得分最高的若干条检索数据作为推荐,最终由人类专家进行标注。

全文数据:

权利要求:

百度查询: 上交所技术有限责任公司 一种基于语义理解的端到端文本匹配辅助标注方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。