买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:杭州未名信科科技有限公司;浙江省北大信息技术高等研究院
摘要:本申请提供一种基于医学研究文献的医学路径推荐方法和系统。该方法包括:基于多任务联合学习框架训练的结构化医学知识提取模型,从公开医学研究文献库中提取与拟研究的第一医学实体和第二医学实体的结构化医学知识三元组;基于结构化医学知识三元组发现第一医学实体和第二医学实体相关的新的医学路径集合,以及路径的中间医学实体;计算新的医学路径集合的可研究质量,作为客观评价医学路径的依据,包括研究独立性和研究特异性;根据预设筛选条件过滤新的医学路径集合,对过滤后的医学路径集合依据可研究质量进行排序,得到可研究医学路径推荐列表。本申请有效改善了医学路径发现的高门槛、低效率、标准主观的一系列问题,避免浪费研究资源,有助于促进在医学领域开展高质量路径研究的效率。
主权项:1.一种基于医学研究文献的医学路径推荐方法,其特征在于,包括:基于多任务联合学习框架训练的结构化医学知识提取模型,从公开医学研究文献库中提取与拟研究的第一医学实体和第二医学实体的结构化医学知识三元组;基于所述结构化医学知识三元组识别第一医学实体和第二医学实体相关的医学路径集合,以及路径的中间医学实体;计算所述医学路径集合的可研究质量,作为客观评价医学路径的依据,包括研究独立性和研究特异性,包括:基于以下公式计算医学路径的研究独立性: 其中,表示第一医学实体相关三元组的研究文献集合与第二医学实体相关三元组的研究文献集合的交集的文献数量,表示第一医学实体相关三元组的研究文献数量与第二医学实体相关三元组的研究文献数量的较大值;基于以下公式计算该医学路径的研究特异性: 其中,表示第一医学实体相关三元组的研究特异性,表示第二医学实体相关三元组的研究特异性,其计算公式如下: 其中,L为PubMed医学文献数据库的所有文献数量,和分别为用户给定的拟研究的医学实体X和Y相关研究文献数量,为可以提取到第一医学实体相关三元组的所有文献数量,为可以提取到第二医学实体相关三元组的所有文献数量,为X相关研究文献中可以提取到第一医学实体相关三元组的所有文献数量,为Y相关研究文献中可以提取到第二医学实体相关三元组的所有文献数量;根据预设筛选条件过滤所述医学路径集合,对过滤后的医学路径集合依据所述可研究质量进行排序,得到可研究医学路径推荐列表;所述多任务联合学习框架训练的结构化医学知识提取模型的构建过程如下:医学研究文献数据标注,基于PubMed医学文献数据库,以文献研究领域为分层依据,采用分层抽样法随机抽取多篇不同医学研究领域的文献;对随机抽取的多篇文献的标题与摘要以主谓宾结构化知识三元组格式进行标注,获取医学结构化知识提取模型训练集和测试集;构建结构化医学知识提取模型,所述结构化医学知识提取模型采用多任务联合学习框架进行训练,对命名实体识别任务和定义抽取任务两者进行联合建模;所述命名实体识别任务和定义抽取任务共享同一个共享层,共享层采用硬参数共享的方式,以bert预训练模型来获得句子的向量化表达;训练模型的输入为模型训练集中标注文献的标题或摘要,将已标注数据输入共享层进行训练;在共享层之后,定义抽取与命名实体识别两个任务连接不同的任务特定层,定义抽取任务接多层感知器层,命名实体识别任务接条件随机场层;采用多任务交替训练的方式,改变共享层的参数,提高模型的准确度;依据测试结果校正模型,对训练模型采用已标注测试集进行测试,依据测试结果对模型结构进行调整。
全文数据:
权利要求:
百度查询: 杭州未名信科科技有限公司 浙江省北大信息技术高等研究院 一种基于医学研究文献的医学路径推荐方法和系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。