首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种公文自动格式化方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:山东政通科技发展有限公司

摘要:本发明公开了一种公文自动格式化方法及系统,涉及人工智能技术领域,包括以下步骤:输入用于识别和排版的公文;对输入的所述公文数据进行预处理;对输入的所述公文数据的要素进行识别;将所述训练库中的数据进行预处理后输入至HMM的分词模型进行分词,并输出分词标签;将所述训练库中每一个分词的所述分词标签、字和词转换为向量输入至语言大模型中,对其进行迭代训练;将bert模型输出向量输入至所述语言大模型中得到语义完整的分词向量,基于所述语义完整的分词向量以及合适的分割规则对不同要素的公文段落进行分割;根据每行的字数上限对所述分割后的公文数据进行划行,继而得到语义完整的公文排版,从而有利于工作效率的提高和政令的畅通。

主权项:1.一种公文自动格式化方法,其特征在于,包括以下步骤:步骤S10:输入用于识别和排版的公文;步骤S20:对输入的所述公文数据进行预处理;步骤S30:将所述预处理后的公文数据按照行顺序依次输入至Bert预训练模型中得到包含有整篇公文语义信息的二维向量,基于所述二维向量与公文要素之间的映射关系,对输入的所述公文数据的要素进行识别;步骤S40:采集用户历史公文数据以及基于开源的数据词典构建训练库,将所述训练库中的数据进行预处理后输入至HMM的分词模型进行分词,并输出分词标签;步骤S50:将所述训练库中每一个分词的所述分词标签、字和词转换为向量输入至语言大模型中,对其进行迭代训练;步骤S60:将bert模型输出向量输入至所述语言大模型中得到语义完整的分词向量,基于所述语义完整的分词向量以及合适的分割规则对不同要素的公文段落进行分割;步骤S70:根据每行的字数上限对所述分割后的公文数据进行划行,继而得到语义完整的公文排版。

全文数据:

权利要求:

百度查询: 山东政通科技发展有限公司 一种公文自动格式化方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。