买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:上海歆广数据科技有限公司
摘要:本发明提高全息档案提取效率及质量的方法及系统,S1、从案由模版库中匹配出目标案由模版;S2、判断待提取案件文书为格式化文书还是非格式化文书,若为格式化文书则进入S3,若为非格式化文书则进入S4;S3、先利用正则表达式和BERT模型提取该格式化文书中标准内容,从中抽取出实体信息填充至目标案由模版中对应节点处,再利用行业专用大模型提取该格式化文书中非标准内容,从中抽取出实体信息填充至目标案由模版中对应节点处,进入S5;S4、直接利用行业专用大模型提取该非格式化文书,从中抽取出实体信息填充至目标案由模版中对应节点处,进入S5;S5、填充好的目标案由模版构成该案件的个案图谱存储至全息档案中。
主权项:1.一种提高全息档案提取效率及质量的方法,其特征在于,案件的全息档案中案件文书包括格式化文书和非格式化文书,格式化文书包括标准内容和非标准内容,非格式化文书包括标准内容和非标准内容,所述方法包括以下步骤:S1、根据该案件的案件类型从案由模版库中匹配出目标案由模版,目标案由模版是基于知识图谱原理构建的;S2、判断待提取的案件文书为格式化文书还是非格式化文书,若为格式化文书则进入步骤S3,若为非格式化文书则进入步骤S4;S3、针对目标案由模版,先利用预先设定的正则表达式和预先训练的BERT模型提取该格式化文书中的标准内容,从中抽取出实体信息填充至目标案由模版中对应的节点处,再利用行业专用大模型提取该格式化文书中的非标准内容,从中抽取出实体信息填充至目标案由模版中对应的节点处,利用行业专用大模型提取过程中按照目标案由模版中节点广度优先策略进行一层一层提取,进入步骤S5;行业专用大模型为基于模型基座并使用行业专有的任务设计和相关数据集进行微调和强化学习得到的大语言模型;S4、针对目标案由模版,直接利用行业专用大模型提取该非格式化文书中的标准内容和非标准内容,从中抽取出实体信息填充至目标案由模版中对应的节点处,利用行业专用大模型提取过程中按照目标案由模版中节点广度优先策略进行一层一层提取,进入步骤S5;S5、填充好后的目标案由模版构成该案件的最新版本的个案图谱存储至全息档案中;步骤S3包括:S31、针对目标案由模版,利用预先设定的正则表达式和预先训练的BERT模型提取该格式化文书中的标准内容,从中抽取出实体信息填充至目标案由模版中对应的节点处;S32、判断目标案由模版中第i层的各个节点是否均已经被实体信息填充,若是则进入步骤S33,若否则进入步骤S34,其中1≤i≤N,N为目标案由模版层数,N为正整数;S33、i=i+1,重复执行步骤S32;S34、利用行业专用大模型提取该格式化文书中的非标准内容,从中抽取出实体信息填充至目标案由模版中该层未被填充且未被标注为无需进行提取填充操作标记的对应的节点处;利用行业专用大模型提取过程中按照目标案由模版中节点广度优先策略进行一层一层提取:遍历该层,其中针对该层未被填充且未被标注为无需进行提取填充操作标记的某一节点,当从该格式化文书中提取到实体内容则将其填充至该节点处,该节点为一个三元组的尾节点则需要进行反向提取验证,若一致则表明该节点的实体内容无问题,则需要对该节点所属的下一层节点进行提取填充操作,若不一致则表明该节点的实体内容有问题,无需对该节点所属的所有节点进行提取填充操作,将该节点所属的所有节点标注为无需进行提取填充操作标记,当从该格式化文书中未提取到该节点的实体内容,则无需对该节点所属的所有节点进行提取填充操作,将该节点所属的所有节点标注为无需进行提取填充操作标记;S35、判断目标案由模版中第i层的各个节点是否已经遍历完,若是则进入步骤S36,若否则重复步骤S34;S36、i=i+1,判断是否i≤N,若是则重复执行步骤S34,若否则结束流程。
全文数据:
权利要求:
百度查询: 上海歆广数据科技有限公司 一种提高全息档案提取效率及质量的方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。