首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

长尾实体的识别与消歧方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:广东工业大学

摘要:本发明公开了一种长尾实体的识别与消歧方法,其中所述长尾实体的消歧方法包括对识别出的长尾实体进行候选实体替换的过程。本发明可对长尾实体进行准确高效地消歧,可显著提升对文本中不同指称的理解,更好地进行信息跟踪及信息获取。

主权项:1.一种长尾实体的消歧方法,其特征在于:包括:对文本进行命名实体识别,并在识别出的实体中通过实体链接工具筛选出长尾实体,对筛选出的长尾实体通过候选实体替换,其中,所述筛选包括:若识别出的实体不出现在实体链接工具中,且无法在知识库中搜索到概要描述,且该实体在文本中出现的频率不超过频率阈值,则该实体为长尾实体;所述替换包括:获得由候选实体组成的候选实体集;获得所述候选实体对内部实体的先验概率;获得所述候选实体与内部实体的上下文之间的相似度;获得所述候选实体与文本内实体之间的一致性;基于所述先验概率,所述上下文之间的相似度,所述一致性,通过机器学习获得候选实体评分,将其中评分最高的候选实体替换所述内部实体;其中,所述内部实体为长尾实体中与所述候选实体对应的实体指称;所述上下文之间的相似度包括所述候选实体与上下文的实体间的加权向量余弦相似度;所述一致性包括所述候选实体与文本内全部实体的向量余弦相似度的均值;其中,所述内部实体的获得包括:通过依存句法分析对所述长尾实体进行词性和关系分析,并进行标注;若标注中存在复合词,则进行:对复合词实体进行裁剪;对复合词实体之外的部分依次进行裁剪;去除标注为格标记单词的部分;若标注不存在复合词,则进行:按标注为格标记的单词将所述长尾实体分段;将分段后的部分依次进行裁剪;去除标注为格标记单词的部分;由去除格标记单词后的裁剪实体,组成内部实体集;所述先验概率Pe|m为:Pe|m=|Ae,m||A*,m|,其中,m表示某一实体指称,e表示候选实体,|A*,m|表示在知识库或其转储后的知识库中与实体指称m具有相同表面的锚的个数,|Ae,m|表示候选实体e与实体指称具有相同表面的锚的个数。

全文数据:

权利要求:

百度查询: 广东工业大学 长尾实体的识别与消歧方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。