一种基于Bert语言模型的中文写作短语推荐方法

导航：龙图腾网> 最新专利技术> 一种基于Bert语言模型的中文写作短语推荐方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：华东师范大学

摘要：本发明公开了一种基于Bert语言模型的中文写作短语推荐方法，该方法包括：获取网络上的现代文长短文语料；根据类别获取写作中常用的短语及成语；构造基于短语的Bert掩蔽文本预测任务数据；基于现有的中文预训练Bert模型进行基于表征的短语预测任务训练；将存在空缺等待填入短语的句子输入到短语预测模型中，得到模型推断的短语词性类别及对应类别下推荐出的短语结果。本发明与现有技术相比充分利用了语言模型的知识，基于上下文对待填写的短语进行推荐，同时结合文本的中文句法结构，以及前后文所蕴含的语义语境信息，构建短语的表征，提高短语预测模型的精度，推荐更加准确且合适的短语，对中文写作辅助训练和中文语言学习具有很高的价值。

主权项：1.一种基于Bert语言模型的中文写作短语推荐方法，其特征在于，该方法包括以下具体步骤：步骤1：获取网络上的现代文长短文语料在网络上爬取长短小说文本及新闻文本，对爬取到的文本进行分句，并进行基础的数据清洗，整理成为整洁规范的句子级别的文本数据；步骤2：获取常用的短语及成语同时在网络上搜集常用的中文短语及成语，按照词性类别进行爬取，保存并按照词性类别进行归档，得到常用短语集；步骤3：构建短语遮蔽文本预测任务的数据集将步骤2中得到的短语集与步骤1中处理得到的句子级别文本数据进行匹配，提取出包含短语集中短语的句子；基于匹配提取得到的句子，构建短语遮蔽文本预测任务的数据集，并按照8:1:1的比例，划分出训练集、验证集和测试集；步骤4：对短语字典和类别字典进行向量化对步骤2的短语集，构建一个向量化的字典；每个短语对应一个向量化的表征；对步骤2的短语集中的每一个类别，构建一个向量化的字典，每个类别同时对应一个向量化的表征，对所述两个向量化字典进行随机初始化；步骤5：训练基于Bert的遮蔽短语预测模型构建一个基于Bert的遮蔽短语预测模型，使用步骤3中构建的训练集对模型进行训练，通过Adam优化器反向传播更新模型的参数,每次更新参数后计算模型在步骤3的验证集上计算模型的预测损失，重复上述过程直到验证集上模型的预测损失不再下降，保存此时的模型；步骤6：使用短语预测模型对用户进行短语推荐在步骤5保存的模型中，增加接受用户输入和格式化输出模型预测结果的功能，得到模型预测的类别概率和概率值前k的类别下的每个短语的预测概率，并按照短语预测概率值排序，取前o个短语作为该类别下的预测短语推荐给用户；其中：步骤5所述构建一个基于Bert的遮蔽短语预测模型，其模型包含：Bert文本编码器，步骤3中构建的短语向量化字典和类别向量化字典，基于上下文的信息整合单元，以及基于前向连接网络的类别分类器和候选短语分类器；具体按照如下步骤构建：6-1：模型中的Bert文本编码器由基于自注意力机制的Transformer序列编码器Encoder构成，Encoder包括Multi-HeadAttention模块和Feed-ForwardNetworks模块；Multi-HeadAttention模块：设输入为X＝x1,x2,…,xn，输出用MultiHeadX表示，公式如下： MultiHeadX＝Concathead1,head2,…,headhWo 为权重矩阵，d,o#-.,dX，分别为输入向量维度和子空间维度；Attention，表示self-Attention机制，headi表示第i个子空间，Concat表示合并操作；所述self-Attention机制，公式如下：其中，d8为输入维度，为尺度因子，Q,K,V分别Attention机制的query、key和value，在Multi-HeadAttention模块中，Q,K,V的值与相同；Feed-ForwardNetworks模块：该模块的输入为Multi-HeadAttention部分的输出加上输入原始输入X，设为x，输出为FFNx，公式如下：x＝NultiHeadX+XFFNx＝max0,xW1+b1W2+b2上述Wi,bii＝1,2分别表示第i层神经网络权重项和偏移项；基于上述Encoder构建层级神经网络，层级指词级别和句级别，构建步骤为：设第i句的词组成的序列长度为n，用Xi＝[xi1,xi2,…,xin]表示，将X作为上述的Encoder的输入，得到Xi′＝[xi1′,xi2′,…,xin′]；使用softAttention对X′进行降维，得到句向量si，公式如下：uij＝tanhWwxij′+bw 其中，WK，bK为权重矩阵和偏移项，tanh为激活函数，uij为输xij′经过一层神经网络的输出，uw为权重向量,αij为xij′的权重，xij′为Xi′中第j个向量,uijT为uij转置；6-2：Bert模型在句子开始和末尾分别加上“[CLS]”以及“[SEP]”字符，此时输入表征序列{xCLS,x0,x1,…,xT,xSEP}经上述Bert模型后获得与语句长度相同的隐层状态序列{hCLS,h0,h1,…,hn-1,hSEP}，对应“[MASK]”位置的隐层状态序列为hm；6-3：信息整合单元为一个前向传播网络，对于“[MASK]”位置的隐层状态序列，构建信息整合单元的输入hi，输入信息整合单元后得到对应的输出ho： FFNaggrhi＝max0,hiW1+b1W2+b2hi＝FFNaggrhi上述Wi,bii＝1,2表示信息整合单元FFNaggr中的权重项和偏移项；6-4：针对类别信息整合单元的输出ho，将其输入到类别分类器中，取得类别概率最大的类别对应的向量化表示：FFNclsho＝max0,hoW1+b1W2+b2Ec＝argmaxsoftmaxFFNclsho上述Wi,bii＝1,2表示类别分类器FFNcls中的权重项和偏移项；6-5：基于6-4得到的最大判断概率得到的类别表征，将其与原始信息整合单元的输出进行拼接，输入到短语分类器中，与候选集G中的每个短语向量化表征进行点积，并概率化每个候选输入短语的概率值： FFNwhc＝max0,hvW1+b1W2+b2 其中，Wi,bii＝1,2表示短语分类器FFNw中的权重项和偏移项,v表示候选集G中的某一个短语；步骤6中所述增加接受用户输入和格式化输出模型预测结果的功能，具体实现方式如下：7-1：模型将输入的语句中的“*”转换为“[MASK]”，输入到短语预测模型中；7-2：模型对输入的语句进行计算处理，依次预测对应位置的类别和概率，根据空缺位置词性类别的概率值排序，选取排序前k的类别进行引导式的短语预测，分别预测对应类别分布下的短语，并按短语预测概率值排序，取排序前o的短语作为该类别下推荐的短语；7-3：模型将7-2中的类别概率及该类别下对应的短语，按照概率值排序，输出给用户作为模型对于该句输入的空缺位置的短语推荐结果。

全文数据：

权利要求：

百度查询：华东师范大学一种基于Bert语言模型的中文写作短语推荐方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种太阳能LED投光灯

下一篇：一种撕膜机构及炒菜机

相关技术

一种太阳能LED投光灯

一种撕膜机构及炒菜机

油烟处理设备

伸缩式具有限位结构的修剪装置

一种空调柜机接线结构及空调器

一种食品罐装线的理瓶装置

一种液压破碎锤的缸体吊运工具

一种用于沥青混凝土生产的烘干装置

主板组件、机器人头部组件及机器人

一种便于安装的全封闭公路声屏障

一种建筑施工支架

一种多管道固定的抗震支架

中文相关技术

基于中文提示的代码生成模型训练方法_北京理工大学唐山研究院_202410894400.5

一种基于知识图谱的中文医药问答系统及方法_浙江工业大学_202110763704.4

一种基于预训练语言模型的中文事件抽取方法_郑州大学_202410972062.2

一种基于预训练的字音字形知识增强的中文拼写纠正方法_哈尔滨工业大学_202210598799.3

一种融合多粒度特征的中文医疗文本命名实体识别方法_安徽师范大学_202410856056.0

基于中文表达式的计算方法、装置、设备及存储介质_北京宏景世纪软件股份有限公司_202011352143.0

一种中文命名实体识别方法、设备、介质及产品_广东石油化工学院_202410910692.7

一种基于伪孪生去噪网络的中文实体关系联合抽取方法_北京工业大学_202410798676.3

基于大数据的中文网页个性化精准分类系统_高从明_202410710621.2

一种基于嵌套编-解码网络的中文字体生成方法及系统_湘潭大学_202111664197.5

写作相关技术

文档写作智能召回方法、装置及文档生成方法、装置_北京深度制耀科技有限公司_202410619691.7

写作练习方法、装置、设备及存储介质_国家开放大学_202410592495.5

一种基于Bert语言模型的中文写作短语推荐方法_华东师范大学_202210565638.4

一种基于记忆自然语言大模型的长文本写作方法和装置_浙江大学_202410341701.5

基于认知诊断的写作大模型能力评测方法_中国科学技术大学_202410755434.6

写作提示方法、大语言模型的微调方法和相关设备_深圳市三六零智慧生活科技有限公司_202410612313.6

智能写作方法及装置、电子设备、介质及系统_第四范式(北京)技术有限公司_202311816396.2

一种引导用户写作的方法和装置_北京字节跳动网络技术有限公司_202010157471.9

一种基于写作风格的生成文本来源检测方法_北京理工大学_202410558437.0

一种基于深度学习的智能写作辅助系统及方法_运筹帷幄(北京)大数据科技有限公司_202410445407.9

模型相关技术

渲染牙模型_义获嘉伟瓦登特公司_201910709552.2

一种面具模型_上饶市润丰装饰工程有限公司_201810616221.X

基于算法模型对公共安全进行动态风险评估的模型系统_中国矿业大学(北京)_202410840671.2

基于大模型的对话方法、模型训练方法、装置和电子设备_北京百度网讯科技有限公司_202410907343.X

乳腺癌免疫基因预后模型_中国医学科学院北京协和医院_202410920894.X

模型评估方法、装置、设备及介质_中电数据产业集团有限公司_202411369927.2

确定用于控制环境的因果模型_3M创新有限公司_201980094142.X

确定用于控制环境的因果模型_3M创新有限公司_201980094032.3

车辆运行安全模型测试系统_移动眼视力科技有限公司_202410913476.8

确定用于控制环境的因果模型_3M创新有限公司_201980094196.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于Bert语言模型的中文写作短语推荐方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务