买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:科大讯飞(北京)有限公司;河北省讯飞人工智能研究院;科大讯飞股份有限公司
摘要:本申请公开了一种文本补全方法以及电子设备、存储装置,其中文本补全方法包括:获取待补全文本,并确定待补全文本的缺失内容所源自的文本库;其中,待补全文本包括至少一个缺失位置;利用文本库对待补全文本进行补全预测,得到缺失位置的至少一个候选词语;利用各个缺失位置的候选词语,得到待补全文本的完整文本。上述方案,能够提高文本补全的效率并降低文本补全的成本。
主权项:1.一种文本补全方法,其特征在于,包括:获取待补全文本,并确定所述待补全文本的缺失内容所源自的文本库;其中,所述待补全文本中包括至少一个缺失位置,所述文本库包含至少一个参考文本,且所述参考文本包含至少一个参考词语;对所述待补全文本进行第一语义抽取,得到各个所述缺失位置的个体语义表示,以及,分别对所述至少一个参考文本进行分词及词性标注,得到标注有词性类别的若干词语;将所述词性类别为预设类别的词语逐字切分,并利用切分后的词语和未切分的词语,得到多种混合粒度的若干参考词语;分别对所述若干参考词语进行第二语义抽取,得到所述参考词语的词语语义表示;其中,所述第一语义抽取是利用预测网络执行的,所述预测网络是利用样本文本对预设神经网络训练得到的,且所述样本文本中包括至少一个样本缺失位置;所述样本文本的获取步骤包括:对原始文本进行分词及词性标注,得到标注有词性类别的若干词语;将所述词性类别为预设类别的词语逐字切分,并在切分后的词语和未切分的词语中,选择预设比例的词语进行缺省;将缺省后的原始文本作为所述样本文本,并将缺省的词语所在位置作为所述样本缺失位置;针对每一所述缺失位置,利用所述缺失位置的个体语义表示和各个所述参考词语的词语语义表示,得到所述缺失位置的至少一个候选词语;利用各个所述缺失位置的所述候选词语,得到所述待补全文本的完整文本,包括:在各个所述缺失位置补入一个对应的候选词语,得到所述待补全文本的若干候选文本;针对每一所述候选文本,将所述候选文本中的词语反向排序,得到所述候选文本的反向文本,并基于所述候选文本的第一分值和所述反向文本的第二分值,得到所述候选文本的最终分值;基于所述若干候选文本的最终分值,选择一个所述候选文本作为所述待补全文本的完整文本。
全文数据:
权利要求:
百度查询: 科大讯飞(北京)有限公司 河北省讯飞人工智能研究院 科大讯飞股份有限公司 文本补全方法以及电子设备、存储装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。