买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:华东师范大学
摘要:本发明公开了一种基于知识蒸馏的低成本养老照护问答对构建方法,其特点是该方法调用先进闭源大语言模型ChatGPT作为教师模型,针对养老照护书籍生成一部分问答对并进行不合格数据过滤;然后将教师模型生成问答对的过程作为训练集训练学生模型Qwen1.5‑7B‑Chat,使用学生模型完成余下数据的问答对生成,并对学生模型生成的问答对再次过滤;最后,将学生模型和教师模型生成的问答对合并,指示Qwen1.5‑14B‑Chat模型在不改变问答对原意的情况下将问答对重建优化,得到最终的高质量养老照护问答对集合。本发明相与现有技术相比具有压缩了构建养老照护问答对所需要的人力成本和金钱成本,且构建出的问答对质量较高,可用于微调语言模型以提升模型的养老照护知识水平。
主权项:1.一种基于知识蒸馏的低成本养老照护问答对构建方法,其特征在于,该方法具体包括以下步骤:步骤1:数据集的预处理1.1:使用EasyOCR将用于生成问答对的原始数据经OCR处理成可编辑文字形式,并划分为固定长度的段的集合,所述原始数据来自于养老照护书籍;1.2:按养老照护书籍的类型,批量标注5000条原始数据的文段类型,并使用标注后的数据训练一个基于Bert-base-Chinese模型的文本多分类模型,所述文段类型包括:老年护理、老年医学、老年养生和老年心理学;1.3:使用训练后的文本多分类模型将余下的所有数据分类;步骤2:生成教师模型的问答对2.1:将步骤1.1集合中的每一类文本分别设计Prompt;2.2:将步骤1.1集合中的前20%数据送入教师模型ChatGPT,生成问答对,并将此过程完整记录,所述教师模型为闭源大语言模型;步骤3:不合格数据的一次过滤3.1:人工标注少量由教师模型ChatGPT生成的问答对,使用标注后的数据训练一个基于Bert-base-Chinese模型的二分类过滤器,所述标注后的数据中正样本和负样本的数量各为一半;所述负样本为无法独立存在的不合格问答对;3.2:将训练后的二分类过滤器应用于剩下所有未标注合格情况的数据,并根据过滤情况改写步骤2.2中的记录,得到教师模型的问答对生成记录;步骤4:生成学生模型的问答对使用K-Means聚类方法对教师模型的问答对生成记录聚类,选取距离类中心点最近的20%数据作为最有代表性的数据,以此数据训练学生模型Qwen1.5-7B-Chat,并将生成问答对的能力蒸馏到学生模型上,随后使用学生模型对步骤1.1集合中的的后80%数据生成问答对;步骤5:不合格数据的二次过滤使用步骤3.1中训练后的过二分类过滤器应用于步骤4中学生模型生成的问答对,并将教师模型和学生模型生成的问答对合并成一个原始问答对集;步骤6:问答对重建设计Prompt指示Qwen1.5-14B-Chat模型在不改变问答对原意的情况下,将步骤5中得到的原始问答对集重建优化,得到最终的养老照护问答对集合。
全文数据:
权利要求:
百度查询: 华东师范大学 一种基于知识蒸馏的低成本养老照护问答对构建方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。