首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于词义加权TF-IDF疾病表征词提取方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:三峡大学

摘要:本发明公开了一种基于词义加权TF‑IDF疾病表征词提取方法,包括以下步骤:1数据预处理;2结合电子病历特点,构建本地任务词库;3计算文本词义特征加权权重值;4统计词频,计算逆文档频率,形成TF‑IDF计算模型,并将词义权重引入模型;5模型运行,获取疾病表征词。该基于词义加权TF‑IDF疾病表征词提取方法与传统的TF‑IDF模型相比,本发明提出的技术方案引入了词义加权以提升关键语义信息词的“重要性”,通过词义加权的方式对文本的词频信息进行扰动,提高了模型对电子病历文本中疾病表征词的提取性能。

主权项:1.一种基于词义加权TF-IDF疾病表征词提取方法,其特征在于,包括以下步骤:1数据预处理;去除文本中的特殊字符;使用分词工具对文本数据进行分词处理,并获取分词结果中词对应的词性;去除数据中词性非动词、名词、形容词和副词的其他词;2结合电子病历特点,构建本地任务词库;3计算文本词义特征加权权重值;词义加权权重值计算分三种情形:A、词在任务相关词库中,词义加权权重值pho的计算公式为:pho=c1;B、词在非任务相关词库中,词义加权权重值计算公式为:pho=c2;C、词不在本地词库中,对于未收录在本地词库中的词,从文档的语义相关性推算词义加权权重值;4统计词频,计算逆文档频率,形成TF-IDF计算模型,并将词义权重引入模型;引入词义加权的TF-IDF模型计算公式为:MW-TF-IDF=pho*TF-IDF;其中,MW-TF-IDF为引入词义加权的TF-IDF模型;5模型运行,获取疾病表征词;所述步骤3中C情况:语义相关性,即在同一文本中出现的词共同揭示了同一主题,具有较高的语义相似性;语义相关性的特点形成的非词库中词的词义加权权重值加权计算公式为:pho=n1*c1+n2*c2n1+n2;其中,n1,n2分别为在任务相关词库和非任务相关词库的词的个数,c1与c2的取值是根据提取任务的特点取值的,为c1c23;所述取值分别为c1=1.8、c2=0.2,则词义特征加权计算公式如下:

全文数据:

权利要求:

百度查询: 三峡大学 一种基于词义加权TF-IDF疾病表征词提取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。