买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国石油大学(华东)
摘要:本发明属于医药、计算机技术领域,特别涉及一种知识图谱驱动的神经退行性疾病药物推荐方法。该方法包括S1、数据准备:将使用的数据源分为两类,即非结构化科学出版物和结构化医疗知识数据库;S2、使用BERT+CRF进行命名实体识别;S3、使用BERT+Biaffine进行关系抽取;S4、使用TF‑IDF进行概念归一化和实体消歧;S5、以通路为核心的图定义:S6、使用DistMult+GNN进行知识结构重构:S7、使用MRR、HITS@k进行图谱准确性评价;S8、使用香农熵、联合熵、互信息进行潜在信息量评价。
主权项:1.一种知识图谱驱动的神经退行性疾病药物推荐方法,其特征在于,包括以下步骤:S1、数据准备:将使用的数据源分为两类,即非结构化科学出版物和结构化医疗知识数据库;S2、使用BERT+CRF进行命名实体识别;步骤S2中使用BERT+CRF进行命名实体识别的具体步骤如下:S21、在BioNER的两个通用数据集上微调模型,这两个数据集是NCBI-Disease和BC2GM,以及从PubMed手动注释的数据集;NCBI疾病语料库在提及和概念层面完全注释,作为生物医学自然语言处理社区的研究资源,BC2GM来自基因提及标记任务,作为BioCreativeII挑战的一部分,该挑战涉及文本中基因和基因产物提及的命名实体提取,手动标记了1000个包含脑部疾病的句子和500个包含PubMed天然产物的文件;S22、对于CRF,给定输入句子,标签序列的概率表示为: ;其中,表示输入的所有可能标签序列,fxi表示使用BERT对进行语义表示,表示对的发射权重,表示两个相邻标签的转移矩阵权重;S23、负对数似然函数用作损失函数,如下所示: ;S3、使用BERT+Biaffine进行关系抽取;步骤S3中,将头部和尾部实体输入到两个独立的FFNN层和中,之后,使用双仿射层来推断两个向量之间关系的类别: 其中,FFNNhead·和FFNNtail·分别代表针对头部实体和尾部实体单独训练的全连接层网络,两个网络的参数相互独立,U的维度为m*C*m,W的维度为C*2m,m是由FFNN层定义的输出向量的维度,C是关系类别的数量,b是随机取值进行初始化的神经网络偏置项;S4、使用TF-IDF进行概念归一化和实体消歧;步骤S4中,TF-IDF统计被用于实体消歧: ; ; ;其中,表示单词的词频,是单词在文献中出现的次数,分母是中所有单词出现的总次数,表示包含单词的文献逆文本频率指数,是语料库中文献的总数,表示包含单词的文献数量;S5、以通路为核心的图定义:步骤S5中,;其中,,n表示通路长度;S6、使用DistMult+GNN进行知识结构重构:步骤S6中,具体的步骤如下:S61、利用DistMult从构造的NDKG中学习三元组向量,差异通过实体之间的双线性变换来描述,实体由向量表示,关系由矩阵表示: ; ; ;其中,one-hot·是统计编码算法,编码后的向量长度为所有头实体的个数量,并且只在对应头实体位置取值为1,其他位置为0,表示头实体的向量,表示尾实体的向量,是线性层,是参数矩阵,是第r个关系的矩阵表示,是双线性评分函数,即头尾实体关于第r个关系的评分向量;S62、DistMult通过将限制为对角矩阵来减少参数的数量,最终的评分函数为: ;其中,表示第个三元组,取自表示依赖于头尾实体的第r个关系的向量,diag·表示将头尾实体的关系形成对角矩阵;S63、实现基本权重函数如下: ;其中,、是注意力的可训练权重,d是隐藏向量维度大小,针对每种关系,表示它的嵌入向量;S64、使用softmax函数按邻居数量对分数进行归一化: ;其中,表示头实体和其中一个邻居以及它们的关系,表示头实体和另一个邻居以及它们的关系,表示以头实体的为中心的一阶邻居子图,表示softmax激活,ω(h,r,t)表示归一化后的三元组得分;S7、使用MRR、HITS@k进行图谱准确性评价;S8、使用香农熵、联合熵、互信息进行潜在信息量评价。
全文数据:
权利要求:
百度查询: 中国石油大学(华东) 一种知识图谱驱动的神经退行性疾病药物推荐方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。