一种图片与html源码相结合的网页信息结构化提取方法

导航：龙图腾网> 最新专利技术> 一种图片与html源码相结合的网页信息结构化提取方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中科曙光南京研究院有限公司

摘要：本发明公开了一种图片与html源码相结合的网页信息结构化提取方法，跨模态信息处理技术领域。具体包括：html页面源码预处理，获取预处理数据；搭建html页面图片版面分析模型，获得标题、正文、作者、发布时间、图片在html图片中的像素位置；html图片OCR模型识别，得到相应的文本内容，并按顺序排序形成文本列表；搭建图片相似度模型PICsim；对比html源码解析数据与html图片解析数据，分别输出最终标题、作者、发布时间，最终图片，最终正文。本发明将图片版面信息与html源码内容结合起来，通过分析图片的版面信息，利用文字编辑距离相似度和图片相似度进行判断，提高了对信息的判断和抽取的准确性。

主权项：1.一种图片与html源码相结合的网页信息结构化提取方法，其特征在于，具体步骤包括：步骤S1，html页面源码预处理，获取预处理数据，具体包括：S11、根据html的标签划分html页面源码，按顺序形成列表；S12、采用正则匹配所述标签的内容，将其分为纯URL格式和非URL格式，并将其记为：和S13、将URL的非图片网址过滤，留下图片网址并下载图片，得到html页面源码图片列表，记为：步骤S2，搭建html页面图片版面分析模型，具体包括：S21、利用python库将html页面版面转换为html图片；S22、训练一个针对步骤S21获得的所述html图片的版面分析模型，用以实现输入所述html图片，输出标题、正文、作者、发布时间、图片在所述html图片中的像素位置；S23、训练步骤S22中所获得的所述版面分析模型；S24、将html图片送入到训练后的所述版面分析模型，用以推理，获得标题、正文、作者、发布时间、图片的相关位置；步骤S3，html图片OCR模型识别，采用OCR模型对步骤S2获得的标题、正文、作者、发布时间数据进行文本行的检测与文字识别，得到相应内容，并按顺序排序形成文本列表，记为：OCRtxt＝[Title,Publishtime,Author,Content]；步骤S4，搭建图片相似度模型PICsim，具体包括：S41、将html图片按照像素位置截取图片列表，记为：S42、将步骤S41获得的所述图片列表与html页面源码得到的原图进行标注，训练相似度模型；S43、对图片pic1和pic2，计算其相似度，获得图片列表，公式为：PICsimpic1,pic2＝Psim1,2；步骤S5，对比html源码解析数据与html图片解析数据，获取解析结果，具体包括：S51、将html源码图片列表和图片列表送入图片相似度网络得到相似度矩阵：针对矩阵列表，将每一列的最大值选取出来，当存在num个最大值对应的行一致时，则在这num个最大值中选择最大的值保留行不变，其余num-1则选择次大值对应的行，如果仍存在一致，则继续上述步骤，输出最终图片；S52、将html源码文本列表和html图片通过OCR模型识别得到的标题、作者、发布时间的文本列表OCRtxt＝[Title,Publishtime,Author]，计算编辑距离相似度矩阵，输出最终标题、作者、发布时间，具体公式为：其中Sthi表示Title和htmltxti的编辑距离相似度，Sphi表示Publishtime和htmltxti的编辑距离相似度，Sahi表示Author和htmltxti的编辑距离相似度，选取每一行的最大值对应的列下标记为[Tindex,Pindex,Aindex],则最终选择的标题为发布时间为作者为S53、将html源码文本列表HTMLtxt的剩余向量进行重新拼接，获得html源码拼接文本列表，记为：TogetherHtml，将图片通过OCR模型识别得到的正文列表OCRtxt＝[Content]与html源码拼接文本列表TogetherHtml，计算编辑距离相似度向量，输出最终文本，具体公式为：其中Si为Content和的编辑距离相似度，最终选择相似度最大的下标记为Cindex，则最终选择的正文内容为

全文数据：

权利要求：

百度查询：中科曙光南京研究院有限公司一种图片与html源码相结合的网页信息结构化提取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种精密铜铝铸件切割装置

下一篇：一种用于实现低速清扫车自动行驶系统的方法

相关技术

一种精密铜铝铸件切割装置

一种用于实现低速清扫车自动行驶系统的方法

一种1-溴乙基乙酸酯的制备方法

用于工业环境中对象的质量评估的方法和系统

App自测试系统、方法、电子设备及存储介质

一种放射性同位素碳-14标记的巴德卡鲁胺及其制备方法和应用

内走线鱼竿的摇柄隐藏结构

路径规划方法、系统、设备及计算机可读存储介质

一种稠油工况螺杆泵控制系统

一种沙门氏菌预富集培养基及其制备方法和在即食调味品中的应用

一种膨化食品加工用粉碎装置

ZnO/石墨烯复合材料、Zn杂化石墨烯阻燃环氧丙烯酸酯涂层及制备方法

信息相关技术

信息处理程序、信息处理方法和信息处理系统_CY游戏公司_202380030934.7

信息处理程序、信息处理方法和信息处理系统_CY游戏公司_202380030937.0

信息提供系统、信息提供方法以及信息提供程序_三菱电机株式会社_202280094451.9

信息处理程序、信息处理方法以及信息处理装置_富士通株式会社_202280094203.4

信息转换系统、信息处理装置、信息处理方法及程序_佳能株式会社_202380030249.4

信息提供装置、信息提供方法以及信息提供程序_NTT通信公司_202380029533.X

信息处理方法及信息处理装置_日产自动车株式会社_202280094468.4

信息收集系统、检查用基板以及信息收集方法_东京毅力科创株式会社_202410556494.5

信息处理设备，信息处理方法和程序_索尼公司_202410970547.8

信息处理装置、信息处理方法及程序_古河电气工业株式会社_202380032075.5

网页相关技术

基于快慢线程池的网页数据采集方法_安徽华云安科技有限公司_202410860699.2

基于机器学习的网页挖矿检测方法及系统_江苏省未来网络创新研究院_202410970699.8

基于网页端展示产品信息的方法、设备、介质及系统_蔚来汽车科技(安徽)有限公司_202411119126.0

一种基于网页应用交互定点跳转的方法及系统_南京凝一软件技术有限公司_202411227641.0

网页质量评估方法及装置、可读存储介质、程序产品_中国移动通信集团山东有限公司_202411024898.6

移动端网页表单配置和校验方法、装置、设备和存储介质_上海中通吉网络技术有限公司_202110188483.2

一种网页转换方法、装置、设备、介质及产品_中移物联网有限公司_202411084034.3

一种基于网页平台的企业年度研发费用预算评估方法及系统_杭州创新易软件有限公司_202411231284.5

网页访问方法、装置、设备、存储介质及程序产品_中国建设银行股份有限公司_202410932249.X

网页元素埋点方法、装置及电子设备_中移(苏州)软件技术有限公司_202410991999.4

相结合相关技术

圆弧与跑道相结合的外折同步转动机构_东莞市劲丰电子有限公司_201911158035.7

一种模块化与整体式相结合的海上升压站_中国能源建设集团广东省电力设计研究院有限公司_202010970945.1

一种盾构隧道连续与垂直皮带机相结合的智能出渣系统_中交一公局第三工程有限公司_202411022626.2

一种基于目标分割和目标匹配相结合的红外车辆识别方法_北京遥感设备研究所_202410280798.3

基于Transformer-卷积神经网络相结合的混合比特币去匿名化方法_合肥工业大学_202411440985.X

一种采用硬件和软件相结合的单片机开关机电路及方法_山东省计算中心(国家超级计算济南中心)_202010286243.1

基于实体语义相似性与聚类相结合负采样的地理知识图谱链接预测方法_三峡大学_202410872124.2

T细胞结合蛋白_阿斯利康(瑞典)有限公司_202380032014.9

一种刚挠结合板的制作方法、刚挠结合板及电子设备_深圳明阳电路科技股份有限公司_202410988521.6

PCB与FPC的结合绑定结构_浙江新力光电科技有限公司_202420253488.8

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种图片与html源码相结合的网页信息结构化提取方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务