买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京邮电大学
摘要:本发明公开了一种结合信息量和BERT‑BiLSTM‑CRF的NLP知识图谱构建方法,通过分析知网期刊论文数据的结构并结合自然语言处理的研究任务提出自然语言处理领域知识图谱的模式层结构;之后通过提出一种新词发现的算法获得论文数据中的关键术语实体类,提出一种特征融合多分类的算法获得论文细粒度的NLP研究任务实体类。进而完成知识抽取模块对三元组的获取,最终构建完成自然语言处理知识图谱。本发明的新词识别算法弥补了传统技术上仅仅使用信息量来获取新词的缺陷,极大地提高了新词发现的效果。使用XGBoost模型对论文细粒度研究任务的分类相比于其他机器学习模型准确率较高,此外经过特征融合,分类模型的准确率相比于未经特征融合模型的分类准确率提升了约五个百分点。
主权项:1.一种结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法,其特征在于,包括以下步骤:步骤1,定义NLP知识图谱模式层;定义模式层描述图谱中的实体、关系和属性;步骤2,数据集构建:NPL论文数据获取,通过爬虫的方法获取自然语言处理领域的数据并进行数据标注;步骤3,新词发现:通过使用新词发现算法找出摘要中的关键术语;新词算法包括以下步骤:通过统计信息量获取候选新词,通过BiLSTM-CRF模型识别出低频新词,通过在BILSTM前面加入BERT的使用,获取输入文本对应的向量,通过使用向量表示上下文信息获取更多的低频新词,通过模型测试与评估后,完成新词发现;步骤4,文本多分类;定义细粒度NLP的研究任务,通过基于特征融合的文本多分类模型得出细粒度NLP的研究任务;步骤5,知识图谱构建;将三元组数据通过Neo4j图数据库进行存储和可视化展示,最终完成了NLP知识图谱的构建。
全文数据:
权利要求:
百度查询: 北京邮电大学 一种结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。