买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:百度(美国)有限责任公司
摘要:归因于现实生活中的高语言使用可变性,人工构建语义资源来覆盖所有同义词是极其昂贵的并且可以导致有限的覆盖率。本文描述了使同义资源开发自动化的系统和方法,同义资源开发包括来自终端用户的正式实体和嘈杂描述。呈现了具有分层任务关系的多任务模型的实施例,其学习更具代表性的实体术语嵌入并且将其应用于同义词预测。在模型实施例中,通过引入辅助任务“邻近词术语语义类型预测”并且基于任务复杂性而分层地组织它们来扩展跳字词嵌入模型。在一个或多个实施例中,将现有的术语‑术语同义词知识整合到词嵌入学习框架中。从多任务模型实施例训练的嵌入与基线相比对实体语义相关性评估、邻近词术语语义类型预测和同义词预测实现显著改进。
主权项:1.一种用于获得术语的代表嵌入的计算机实现的方法,包括:对于选自输入语料库的术语集合中的每个术语,对照术语语义类型知识库来查询所述术语以确定所述术语的一个或多个语义类型,如果有所述语义类型的话;将所述输入语料库的术语中的至少一些转换成术语嵌入;对于包括目标术语和邻近术语且目标术语具有至少一个语义类型的每个上下文窗口,将所述上下文窗口中的所述目标术语的嵌入和所述邻近术语的所述一个或多个语义类型的指示符输入到多标签分类器中,所述多标签分类器输出所述上下文窗口中的所述邻近术语的预测语义类型的概率分布;使用所述邻近术语的所述一个或多个语义类型作为相对于所述邻近术语的预测语义类型的所述概率分布的基础事实,以训练所述多标签分类器的术语嵌入参数集和语义类型预测参数集;对于每个目标术语,使用所述目标术语的嵌入、从所述多标签分类器获得的所述目标术语的所述邻近术语的预测语义类型的所述概率分布、以及所述目标术语的同义词的嵌入作为邻近术语分类器的输入,预测所述目标术语的所述邻近术语;以及使用所述邻近术语作为相对于由所述邻近术语分类器预测的所述邻近术语的基础事实,以训练术语预测参数集、所述术语嵌入参数集以及所述语义类型预测参数集。
全文数据:
权利要求:
百度查询: 百度(美国)有限责任公司 用于同义词预测的分层多任务术语嵌入学习
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。