一种基于NLP技术的大语言模型的多文档摘编方法

导航：龙图腾网> 最新专利技术> 一种基于NLP技术的大语言模型的多文档摘编方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：北京市计算中心有限公司

摘要：本发明提供了一种基于NLP技术的大语言模型的多文档摘编方法，包括如下步骤：将多篇文档存入数据库形成文档库；获取综述题目输入预训练大语言模型，预训练大语言模型生成第一综述小标题；使用NLP技术获取第二综述小标题，将整合后的第一综述小标题和第二综述小标题输入预训练大语言模型；将文档库中的文档进行归类和切片，形成单个小标题及其对应的文档段落的向量库，利用大语言模型与Langchain技术生成小标题段落输入预训练大语言模型生成综述文本，经过预训练大语言模型润色处理输出最终综述文本，最终综述文本为存入文档库中的多篇文档的综述，能够帮助用户快速处理和分析大量的文本数据，提高工作效率和质量，同时保证数据的安全性和可靠性。

主权项：1.一种基于NLP技术的大语言模型的多文档摘编方法，其特征在于，基于NLP技术的大语言模型的多文档摘编方法包括如下步骤：步骤一：将多篇文档存入数据库形成文档库；步骤二：获取综述题目，并将所述综述题目输入预训练大语言模型；步骤三：所述预训练大语言模型根据所述综述题目自动生成第一综述小标题；步骤四：使用NLP技术获取第二综述小标题，所述第二综述小标题的获取基于关键词匹配和主题建模，具体过程包括：收集并准备文档和综述题目，以确保文档中包含足够的信息以及与综述题目相关的关键词和短语；文本分词：使用分词库对文档和综述题目进行分词，将文本拆分成单词或短语的序列；特征提取：使用TF-IDF技术从文档中提取关键词和短语以识别文档中的信息；主题建模：使用主题建模技术来识别文档中的主题，以抓住文档的主要关注点；关键词匹配：使用NLP技术匹配文档中的关键词和短语与综述题目中的关键词以确定哪些部分的文档与综述题目直接相关；生成第二综述小标题：基于匹配的关键词和短语，结合文档中的信息，使用文本生成技术生成第二综述小标题；还包括矫正过程，所述矫正过程包括整合第一综述小标题和第二综述小标题，将整合后的第一综述小标题和第二综述小标题输入预训练大语言模型，预训练大语言模型生成修正后的综述小标题称为第三综述小标题；步骤五：使用向量相似性将所述文档库中的文档进行归类和切片，归类和切片具体包括：获取小标题向量表示：使用分词库方法，将每个小标题转换成向量表示；文档向量构建：对于每个文档，将其所有文档段落向量表示进行平均或加权平均，得到文档的段落向量表示；相似性计算：使用余弦相似度或其他相似性度量来比较文档的段落与小标题之间的相似性；文档归类：将文档的段落按照与小标题的相似性归类到小标题之下，形成单个小标题及其对应的文档段落的向量库；步骤六：利用大语言模型与Langchain技术基于单个小标题及其对应的文档段落的向量库生成小标题段落；步骤七：将所述小标题段落输入所述预训练大语言模型生成综述文本；步骤八：所述综述文本经过所述预训练大语言模型润色处理输出最终综述文本，所述最终综述文本为存入文档库中由综述题目提取多篇文档相关内容生成的综述文章。

全文数据：

权利要求：

百度查询：北京市计算中心有限公司一种基于NLP技术的大语言模型的多文档摘编方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：使用双像素阵列的像素传感器

下一篇：激光线光源检测方法、系统及计算机可读存储装置

相关技术

使用双像素阵列的像素传感器

激光线光源检测方法、系统及计算机可读存储装置

卡接式注射器固定装置

一种喷油器总成压紧机构

逆变器

空调的控制方法、装置、设备存储介质及车辆

抽拉式转动结构及卡扣装置

退役电池包上盖搬移方法及系统

一种换热器结构及冷却系统

一种小型开槽机

用于生产3-羟基己二酸和/或α-氢化己二烯二酸的基因修饰微生物以及该化学品的制造方法

一种塑胶制品分类放置货架

文档相关技术

多维数据驱动文档搜索系统_潍坊工程职业学院_202410755038.3

一种文档图像篡改定位方法_嵩山实验室_202410209341.3

文档问答方法、装置、设备、存储介质和程序产品_中国银联股份有限公司_202410621795.1

文档改进建议生成方法、设备及存储介质_中兴通讯股份有限公司_202310216441.4

生成接口文档的方法、装置、电子设备和存储介质_深圳市酷开网络科技股份有限公司_202410664641.0

基于文档图像的问答方法、装置、设备、存储介质及程序产品_中国建设银行股份有限公司_202410763359.8

一种基于改进的Transformer的文档伪影去除方法_山东浪潮科学研究院有限公司_202311076341.2

一种保护Office电子文档印章图像的装置和方法_江西金格科技有限公司_202111166375.1

基于文档的会话方法、装置、电子设备及存储介质_珠海金山办公软件有限公司_202310204676.1

一种文档模糊去重方法、装置、设备及介质_云知声智能科技股份有限公司_202410634136.1

模型相关技术

车辆驱动系统的模型_上海科梁信息科技股份有限公司_202410735998.3

基于上下文模型的Instant-NGP模型压缩方法_上海交通大学_202410704702.1

一种基于NARX模型的大模型训练慢节点检测方法_天翼云科技有限公司_202410864138.X

增强多模态大语言模型视觉感知能力的方法、模型和装置_华中科技大学_202410716799.8

模型训练方法和基于模型的场景流估计方法_天津港(集团)有限公司_202411061324.6

电机轴承剩余寿命预测方法、系统、模型及模型训练方法_成都赛力斯科技有限公司_202411052755.6

牙齿模型套具及复层根管治疗术练习模型_北京大学口腔医学院_202410865138.1

模型训练方法、模型推理方法、电子设备及存储介质_上海壁仞科技股份有限公司_202410912446.5

用于分割的双级别模型_脸萌有限公司_202380018666.7

用于模型解释的方法及装置_支付宝(杭州)信息技术有限公司_202210369552.4

语言相关技术

一种即时互动型多媒体语言实验室及语言识别系统_东华理工大学_202410757841.0

利用视觉语言模型的实例级场景识别_谷歌有限责任公司_202410631660.3

大语言模型自我提升方法及装置_北京邮电大学_202410287285.5

基于预训练大语言模型的信道预测方法_北京大学_202410790833.6

大型语言模型推理加速方法及相关装置_中昊芯英(杭州)科技有限公司_202410751527.1

基于联邦知识蒸馏的跨语言社交媒体事件检测方法_昆明理工大学_202410639047.6

一种从文件中提取数据微调大语言模型的方法_河钢数字技术股份有限公司_202410740264.4

基于自然语言处理的情绪分析方法、装置以及存储介质_首都经济贸易大学_202311812513.8

基于大语言模型的文案生成方法、存储介质及电子设备_青岛海尔科技有限公司_202410626109.X

基于动态注意力的视觉语言行人重识别网络方法与系统_江西财经大学_202410874053.X

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于NLP技术的大语言模型的多文档摘编方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务