基于预训练语言模型的网页正文内容提取方法及系统

导航：龙图腾网> 最新专利技术> 基于预训练语言模型的网页正文内容提取方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：北京深言科技有限责任公司

摘要：本发明实施例公开了一种基于预训练语言模型的网页正文内容提取方法及系统，所述基于预训练语言模型的网页正文内容提取方法包括：对网页HTML进行预处理；对预处理后网页HTML中的文本信息和结构信息分别进行编码；将编码后的所述文本信息和结构信息输入预训练语言模型，得到网页正文内容的预测结果；基于所述预测结果提取网页正文内容。该基于预训练语言模型的网页正文内容提取方法解决现有技术中无法准确对复杂的HTML结构进行理解和判别的问题。

主权项：1.一种基于预训练语言模型的网页正文内容提取方法，其特征在于，所述方法具体包括：对网页HTML进行预处理；对预处理后网页HTML中的文本信息和结构信息分别进行编码；将编码后的所述文本信息和结构信息输入预训练语言模型，得到网页正文内容的预测结果；基于所述预测结果提取网页正文内容。

全文数据：

权利要求：

百度查询：北京深言科技有限责任公司基于预训练语言模型的网页正文内容提取方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种中压开关柜的保护装置及中压开关柜

下一篇：一种便于安装的声屏障

相关技术

一种中压开关柜的保护装置及中压开关柜

一种便于安装的声屏障

吹风装置

一种雾化装置

一种氛围灯

一种密炼机混炼室

一种可控流量的自动倒袋装置

一种具有防护功能的建筑结构加固连接装置

一种伊利司莫微针及其制备方法

一种轮式翻抛机的箱梁结构

一种用于金属化薄膜卷筒的堆放装置

一种畜牧用防疫架

网页相关技术

一种网页设计比对方法及装置_深圳前海微众银行股份有限公司_202411073342.6

基于序列标注的网页正文定位方法、装置和计算机设备_中国人民解放军国防科技大学_202411086021.X

网页数据采集方法、系统、计算机设备和可读存储介质_之江实验室_202411321148.5

基于大数据的中文网页个性化精准分类系统_高从明_202410710621.2

一种移动终端的网页跳转方法及装置_广州市诚毅科技软件开发有限公司_202011626932.9

一种网页缩放方法、装置、存储介质及电子设备_广州三七极耀网络科技有限公司_202410910581.6

自定义网页采集方法、系统、设备以及存储介质_深圳数阔信息技术有限公司_202410859272.0

一种WEB网页分布式测试方法、装置、设备及介质_成都米加游科技有限公司_202410791040.6

一种基于AI预测的网页数据设计模块故障无损恢复方法_上海星谷信息科技有限公司_202310603484.8

网页视图交互方法和装置、NAS设备的网页视图交互系统_深圳市绿联科技股份有限公司_202410953341.4

正文相关技术

自动提取网页正文的方法及系统_语联网(武汉)信息技术有限公司_202110081170.7

基于序列标注的网页正文定位方法、装置和计算机设备_中国人民解放军国防科技大学_202411086021.X

基于预训练语言模型的网页正文内容提取方法及系统_北京深言科技有限责任公司_202410503925.1

一种网页正文提取方法和装置_鼎富智能科技有限公司_202410363364.X

一种基于网页正文内容的问题式查询推荐方法_北京理工大学_202111074829.2

用于纠正文本的方法和装置_北京沃东天骏信息技术有限公司_202010723319.2

一种文档正文标注方法、装置、设备和存储介质_云知声智能科技股份有限公司_202410262882.2

网页正文的识别方法、装置、电子设备及存储介质_东莞盟大集团有限公司_202110823007.3

一种融合正文文本信息的自适应评论情感分析系统及方法_安徽商信政通信息技术股份有限公司_202011506610.0

一种基于网页xpath获取新闻正文的通用方法_北京国科众安科技有限公司_202311344752.5

模型相关技术

模型训练方法和基于模型的场景流估计方法_天津港(集团)有限公司_202411061324.6

推荐模型更新方法、推荐模型训练方法及计算设备_阿里巴巴(中国)有限公司_202210648557.0

复杂构造的地层层速度模型建立方法及地层层速度模型_中国石油大学(华东)_202310255427.5

高精度SiC MOSFET双脉冲仿真模型及模型构建方法_上海机电工程研究所_202410916585.5

基于紫东太初大模型的焊缝识别、训练方法、模型及系统_华工科技产业股份有限公司_202410988844.5

基于骨架模型的机床几何模型还原方法、系统及存储介质_武汉重型机床集团有限公司_202410757062.0

一种返修巷道模型试验衬砌模型预制装置及方法_中国地质科学院地质力学研究所_202411088973.5

一种泪道模型教具_武汉爱尔眼科医院有限公司_202420432991.X

一种油茶制作模型机_广西师范大学_202420394410.8

使用因果模型操作供应链_3M创新有限公司_201980094141.5

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于预训练语言模型的网页正文内容提取方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务