买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:复旦大学
摘要:本发明提供了一种基于内部资源和外部资源的教材智能解析系统及平台,用于根据数字教材、外部互联网的开放数据和基于开放数据的类型标签构建得到教材知识图谱,具有这样的特征,包括教材预处理模块、教材结构解析模块、内部资源链接模块、外部资源链接模块和教材知识图谱模块。总之,本方法能够能够构建具有高质量内外部资源的教材知识图谱,构建提供更丰富的数字教材相关信息的平台。
主权项:1.一种基于内部资源和外部资源的教材智能解析系统,用于根据数字教材、外部互联网的开放数据和基于所述开放数据的类型标签构建得到教材知识图谱,其特征在于,包括:教材预处理模块、教材结构解析模块、内部资源链接模块、外部资源链接模块和教材知识图谱模块,其中,所述教材预处理模块,包括教材源文件转化子模块、教材页面编排子模块和教材文字识别子模块,所述教材源文件转化子模块,用于将不同文件形式的所述数字教材转化为可供搜索的统一格式的所述数字教材,作为统一格式教材,所述教材页面编排子模块,用于对所述统一格式教材的页面进行统一编排,得到格式化教材,所述教材文字识别子模块,用于通过OCR文字识别将所述格式化教材的内容进行识别,得到所述内容中的纯文本内容,作为教材解析文本,所述教材结构解析模块,包括术语挖掘子模块、关键关系与属性抽取子模块和内部要素挖掘子模块,所述术语挖掘子模块,用于对所述教材解析文本进行挖掘,得到所述教材解析文本中的多个术语作为领域术语,所述关键关系与属性抽取子模块,用于通过阅读理解方法从所述教材解析文本中抽取词语作为两个所述领域术语之间的关系或所述领域术语的属性,由所述领域术语与对应的所述关系构成关系三元组,由两个所述领域术语与对应的所述属性构成属性三元组,所述内部要素挖掘子模块,用于通过文档版面分析工具将所述格式化教材的内容划分为不同区域,并将所述不同区域分为仅包含文本内容的文本类资源和包含其他内容的复杂结构数据,所述内部资源链接模块,用于根据所述文本类资源在所述格式化教材中的位置信息,对所述文本类资源进行OCR文字识别处理,将所述文本类资源链接到相关的所述领域术语,作为文本类资源三元组,根据所述复杂结构数据在所述格式化教材中的位置信息,将所述复杂结构数据链接到相关的所述领域术语,作为复杂结构数据三元组,所述外部资源链接模块,包括术语和资源类型匹配子模块、外部资源发现子模块和外部资源挂载子模块,所述术语和资源类型匹配子模块,用于根据所述类型标签对所述领域术语进行分类,将各个所述领域术语匹配对应的所述类型标签,所述外部资源发现子模块,用于根据所述领域术语对应的所述类型标签,通过搜索引擎检索所述开放数据,得到与所述领域术语和所述类型标签相关的所述开放数据,作为相关开放数据,所述外部资源挂载子模块,用于对所述相关开放数据进一步过滤和筛选,将过滤筛选后的所述相关开放数据链接到所述领域术语,作为开放数据三元组,所述教材知识图谱模块,用于根据所述关系三元组、所述属性三元组、所述文本类资源三元组、所述复杂结构数据三元组和所述开放数据三元组构建得到所述教材知识图谱。
全文数据:
权利要求:
百度查询: 复旦大学 基于内部资源和外部资源的教材智能解析系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。