首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种面向研发供需描述文本撮合的深层语义匹配方法和系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:吴俊

摘要:本发明实施例公开了一种面向研发供需描述文本撮合的深层语义匹配方法和系统。该深层语义匹配方法包括:利用改进的textrank算法将技术需求和技术成果长文本浓缩为不超过512字符的文本内容摘要;构建了双独立BERT预训练语言模型,针对技术需求和技术成果两类文本的标题和内容摘要分别训练;将训练后的结果进行线性拼合,使用考虑类别权重的Softmax函数加权值作为语义相似度系数对线性拼合后的结果进行处理。本发明提出的技术方案在不损失文本内容核心语义的同时,规避了BERT预训练语言模型512字符输入的限制,最大程度提取了表征技术需求和技术成果上下文的语义信息,较传统的粗粒度语义匹配分类更为精细化,实现技术需求与技术成果文本的自动高精度匹配。

主权项:1.一种面向研发供需描述文本撮合的深层语义匹配方法,其特征在于,包括:分别对技术需求和技术成果文本中的标题和内容进行预处理,获得文本标题和文本内容;使用摘要提取算法对预处理后的技术需求的文本内容进行提取,获得技术需求文本内容摘要;使用摘要提取算法对预处理后的技术成果的文本内容进行提取,获得技术成果文本内容摘要;将技术需求和技术成果的文本标题输入到第一BERT模型,获得第一相似类别结果;将技术需求和技术成果的文本内容摘要输入到第二BERT模型,获得第二相似类别结果;对所述第一相似类别结果和第二相似类别结果进行线性拼合,获得第三相似类别结果;对线性拼合后的第三相似类别结果通过逻辑回归算法进行处理,获得成果-需求语义相似度系数;将所述成果-需求语义相似度系数按照降序输出技术成果-技术需求语义匹配结果;在使用所述摘要提取算法对技术需求文本内容和技术成果文本内容进行摘要提取时,使用改进后的textrank算法将技术需求和技术成果的长文本内容分别浓缩为不超过512字符的技术需求文本内容摘要和技术成果文本内容摘要,具体包括:考虑文本内容句子与标题相似性特征的句子节点权重调整,首先计算标题句Po与内容句Pa的相似度ωao,公式如下: 其次,遍历各句子中的特征词,如果在标题中出现,提升词频权重;否则,维持词频权重不变;计算公式如下: 上式中标题句Po的特征词向量为Po=[ko1,…,koh']T,h'是扩展后包含标题及句子的特征词数量,得到调整矩阵Dn*h;然后根据式1及矩阵Dn*h计算句子之间的相似度,得到矩阵SDn*n,之后利用textrank算法进行迭代;在使用所述逻辑回归算法对线性拼合后的第三相似类别结果进行处理时,使用考虑类别权重的Softmax函数加权值作为成果-需求语义相似度系数,对应公式如下: 上式中,InterrelationScore为成果-需求语义相似度系数,i是相似度类别,为4类,“1”代表无关,“2”代表弱相关,“3”代表较强相关,“4”代表强相关,Si表示类别i的Softmax函数值。

全文数据:

权利要求:

百度查询: 吴俊 一种面向研发供需描述文本撮合的深层语义匹配方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术