买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:武汉数据智能研究院
摘要:本发明公开了一种word表格快速录入方法、电子设备和存储介质,通过领域预训练的词向量获取与微调,在通用语料库上进行Word2Vec预训练,对特定领域数据微调;使用OCR技术对word表格进行文字识别,得到包含关键字段和对应的空白字段的字段集合;根据中文阅读顺序计算每个字段与最近空白字框的欧式距离,形成OCR识别结果字段+空白字框;利用预训练模型将word表格字段进行词向量化表示,得到字段对应的向量集合;计算word字段词向量与数据库记录字段词向量之间的余弦相似度;将具有最高余弦相似度的数据库记录字段对应的内容赋给相应的空白字框,然后将内容填入word表格,实现快速而准确的字段匹配和数据录入。
主权项:1.一种兼容表格字段变体的word表格快速录入方法,其特征在于,所述方法包括:步骤一、获取基于所述领域的预训练的词向量库V;步骤二、获得word表格中的关键字段与对应空白字段;步骤三、对于word表格中的每个字段,计算距离字段最近的空白;步骤四、用预训练的模型对word表格中的字段进行词向量化表示;步骤五、计算每个word表格字段词向量与数据库记录字段词向量之间的余弦相似度;步骤六、将余弦相似度最高的字段赋值给距离字段最近的空白,完成自动填充。
全文数据:
权利要求:
百度查询: 武汉数据智能研究院 一种word表格快速录入方法、电子设备和存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。