买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:天津财经大学
摘要:本发明提出了一种伤害类犯罪讯问笔录中的知识抽取方法及系统,涉及自然语言处理、知识工程技术领域,针对执法监督与办案过程中,对于不规范笔录信息的处理仍需耗费大量人力、物力和时间的问题。本发明首先提取原始笔录数据中与知识本体相关的讯问问题对应的答话内容,得到的答话均为与案由相关的内容,减少了后续案件审核的信息量;再经过指代分析、句子拆分、句子去噪、句子补全、三元组提取,实现实体‑实体关系‑实体的三元组自动抽取;该方法覆盖完整笔录处理流程,各分步结果清晰明确,经过上述处理,形成了针对案由的三元组知识,可以支持机器处理语言表达不十分规范的电子笔录,大幅度提升执法监督的效能与客观性。
主权项:1.一种伤害类犯罪讯问笔录中的知识抽取方法,其特征在于,包括如下步骤:步骤S0,根据立案信息,获取待测伤害类犯罪案件的卷宗信息;所述卷宗信息包括:涉案人员的名称、涉案人员特征、案发时间、案发地点;步骤S1,获取待测伤害类犯罪案件的原始讯问笔录,将所述原始讯问笔录输入训练好的自然语言处理模型,输出有关类问话;所述有关类问话为包含伤害类犯罪知识本体的问话;所述伤害类犯罪知识本体包括:犯罪主体、施害对象、施害结果、犯罪行为、犯罪工具;所述自然语言处理模型为训练好的Bert预训练模型,训练步骤为:步骤S11,数据获取:获取伤害类犯罪历史讯问笔录,提取所述历史讯问笔录中的问话及其答话内容;步骤S12,数据分类:对包含伤害类犯罪知识本体的答话内容进行标记,作为有关类答话,将不包含知识本体的答话内容,作为无关类答话;步骤S13,将所述历史讯问笔录作为输入,将所述有关类答话对应的问话作为输出,对Bert预训练模型进行训练,获取训练好的Bert预训练模型;步骤S2,提取所述有关类问话对应的答话内容;获取所述答话内容中的指称代词,根据所述涉案人员的名称、涉案人员的特征确定每个指称代词对应的涉案人员,用涉案人员的名称替代每个所述指称代词,获得替代后的答话内容;步骤S3,根据所述替代后的答话内容中的逗号、分号、句号、感叹号和问号,将所述答话内容拆分为多个句子;步骤S4,对步骤S3拆分得到的每个句子进行数据去噪,保留包含伤害类犯罪知识本体的句子;步骤S5,对包含伤害类犯罪知识本体的句子中缺少主语、谓语或宾语的句子进行补充,使得每个句子均含有主语谓语宾语,得到补充后的句子;步骤S6,抽取每个所述补充后的句子的主语、谓语和宾语,得到包含伤害类犯罪知识本体的三元组短句;所述三元组短句为包含两个实体,以及两个所述实体的实体关系的短句;步骤S7,对抽取得到的结果进行实体检验,将不包含实体的三元组短句删除,保留包含实体和实体关系的三元组短句;所述实体包括人名、器械、财物和肢体,所述实体关系包括:犯罪行为、属于、持有。
全文数据:
权利要求:
百度查询: 天津财经大学 一种伤害类犯罪讯问笔录中的知识抽取方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。