首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于多模态大语言模型的邮件分类方法和系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:合肥高维数据技术有限公司

摘要:本发明涉及一种基于多模态大语言模型的邮件分类方法和系统,其中邮件分类方法包括:对待分类邮件数据进行预处理,得到待分类邮件的多模态数据的文本内容,从预设邮件类别中随机采样已标注邮件类别的邮件作为样本,通过多模态大语言模型对样本数据进行分析得到已标注邮件类别的类别特征文本,再根据待分类邮件的多模态数据的文本内容和已标注邮件类别的类别特征文本,通过构建的提示词模版将得到的提示词输入多模态大语言模型,进而判定待分类邮件的邮件类别。本发明能够对邮件进行垃圾邮件检测且对邮件按照不同行业类别或学科类别进行分类,可满足邮件数据治理的需求、提高邮件分类准确率、减少邮件分类所需成本。

主权项:1.一种基于多模态大语言模型的邮件分类方法,其特征在于,包括:S1.将待分类邮件Y进行预处理,得到所述待分类邮件Y的多模态数据的文本内容(yt,yi,ytb,ya),其中yt是所述待分类邮件Y原本已有的文本内容,yi是所述待分类邮件Y图像的文本化内容,ytb是所述待分类邮件Y表格的文本化内容,ya是所述待分类邮件Y文本化内容的摘要文本内容;S2.预设邮件类别C={C1,C2},C2={C21,C22,……,C2i,……,C2n},其中C1是垃圾邮件,C2是正常邮件,所述邮件类别C1、C2包含少量已标注分类标签的邮件,i=1,2,……,n,n是类别总数;S3.预设已标注分类标签的邮件数据集合为M1,所述邮件数据集合M1的邮件类别Md1={C_1,C_2},p次邮件分类结果的预测邮件类别列表为C_m1,p次邮件分类结果的邮件类别描述列表为Em1,其中m=1,2,……,p;S4.清空所述邮件类别描述列表Em1;S5.从所述邮件类别Md1={C_1,C_2}每个类别C_r分别随机采样k封邮件得到数据M_k1,其中r=1,2,将所述数据M_k1写入构建的提示词模板Tm1中得到提示词tm1,将所述提示词tm1输入多模态大语言模型A,得到所述邮件类别Md1={C_1,C_2}每个类别C_r的类别特征文本emr,将所述类别特征文本emr追加到所述邮件描述列表Em1中,进而得到所述邮件类别Md1={C_1,C_2}每个类别C_r的类别特征文本列表Em1={em1,em2};S6.将所述类别特征文本列表Em1={em1,em2}和待分类邮件Y的多模态数据的文本内容(yt,yi,ytb,ya)写入构建的提示词模版Tm2得到提示词tm2,将所述提示词tm2输入所述多模态大语言模型A,得到待分类邮件Y的邮件类别C_r1,将所述邮件类别C_r1追加到所述预测邮件类别列表C_m1中;S7.执行S4-S6步骤p次,得到所述待分类邮件Y的p次预测邮件类别列表C_m1={C_1,C_2,……,C_p};S8.从预测邮件类别列表C_m1中选出最符合的类别作为待分类邮件Y的最终邮件类别,并把所述待分类邮件Y的最终邮件类别和待分类邮件Y的多模态数据的文本内容(yt,yi,ytb,ya)保存到已标注分类标签的邮件数据集合M1中,用于后续邮件分类时的随机采样;S9.若所述待分类邮件Y的最终邮件类别属于C1,则停止对所述待分类邮件Y的邮件分类任务;S10.若所述待分类邮件Y的最终邮件类别属于C2,则继续对所述待分类邮件Y进行类别分类,得到q次分类结果,从q次分类结果中选出最符合的类别作为所述待分类邮件Y的最终邮件类别。

全文数据:

权利要求:

百度查询: 合肥高维数据技术有限公司 基于多模态大语言模型的邮件分类方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。