买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:华东师范大学
摘要:本发明公开了一种基于Bert语言模型的中文写作短语推荐方法,该方法包括:获取网络上的现代文长短文语料;根据类别获取写作中常用的短语及成语;构造基于短语的Bert掩蔽文本预测任务数据;基于现有的中文预训练Bert模型进行基于表征的短语预测任务训练;将存在空缺等待填入短语的句子输入到短语预测模型中,得到模型推断的短语词性类别及对应类别下推荐出的短语结果。本发明与现有技术相比充分利用了语言模型的知识,基于上下文对待填写的短语进行推荐,同时结合文本的中文句法结构,以及前后文所蕴含的语义语境信息,构建短语的表征,提高短语预测模型的精度,推荐更加准确且合适的短语,对中文写作辅助训练和中文语言学习具有很高的价值。
主权项:1.一种基于Bert语言模型的中文写作短语推荐方法,其特征在于,该方法包括以下具体步骤:步骤1:获取网络上的现代文长短文语料在网络上爬取长短小说文本及新闻文本,对爬取到的文本进行分句,并进行基础的数据清洗,整理成为整洁规范的句子级别的文本数据;步骤2:获取常用的短语及成语同时在网络上搜集常用的中文短语及成语,按照词性类别进行爬取,保存并按照词性类别进行归档,得到常用短语集;步骤3:构建短语遮蔽文本预测任务的数据集将步骤2中得到的短语集与步骤1中处理得到的句子级别文本数据进行匹配,提取出包含短语集中短语的句子;基于匹配提取得到的句子,构建短语遮蔽文本预测任务的数据集,并按照8:1:1的比例,划分出训练集、验证集和测试集;步骤4:对短语字典和类别字典进行向量化对步骤2的短语集,构建一个向量化的字典;每个短语对应一个向量化的表征;对步骤2的短语集中的每一个类别,构建一个向量化的字典,每个类别同时对应一个向量化的表征,对所述两个向量化字典进行随机初始化;步骤5:训练基于Bert的遮蔽短语预测模型构建一个基于Bert的遮蔽短语预测模型,使用步骤3中构建的训练集对模型进行训练,通过Adam优化器反向传播更新模型的参数,每次更新参数后计算模型在步骤3的验证集上计算模型的预测损失,重复上述过程直到验证集上模型的预测损失不再下降,保存此时的模型;步骤6:使用短语预测模型对用户进行短语推荐在步骤5保存的模型中,增加接受用户输入和格式化输出模型预测结果的功能,得到模型预测的类别概率和概率值前k的类别下的每个短语的预测概率,并按照短语预测概率值排序,取前o个短语作为该类别下的预测短语推荐给用户;其中:步骤5所述构建一个基于Bert的遮蔽短语预测模型,其模型包含:Bert文本编码器,步骤3中构建的短语向量化字典和类别向量化字典,基于上下文的信息整合单元,以及基于前向连接网络的类别分类器和候选短语分类器;具体按照如下步骤构建:6-1:模型中的Bert文本编码器由基于自注意力机制的Transformer序列编码器Encoder构成,Encoder包括Multi-HeadAttention模块和Feed-ForwardNetworks模块;Multi-HeadAttention模块:设输入为X=x1,x2,…,xn,输出用MultiHeadX表示,公式如下: MultiHeadX=Concathead1,head2,…,headhWo 为权重矩阵,d,o#-.,dX,分别为输入向量维度和子空间维度;Attention,表示self-Attention机制,headi表示第i个子空间,Concat表示合并操作;所述self-Attention机制,公式如下: 其中,d8为输入维度,为尺度因子,Q,K,V分别Attention机制的query、key和value,在Multi-HeadAttention模块中,Q,K,V的值与相同;Feed-ForwardNetworks模块:该模块的输入为Multi-HeadAttention部分的输出加上输入原始输入X,设为x,输出为FFNx,公式如下:x=NultiHeadX+XFFNx=max0,xW1+b1W2+b2上述Wi,bii=1,2分别表示第i层神经网络权重项和偏移项;基于上述Encoder构建层级神经网络,层级指词级别和句级别,构建步骤为:设第i句的词组成的序列长度为n,用Xi=[xi1,xi2,…,xin]表示,将X作为上述的Encoder的输入,得到Xi′=[xi1′,xi2′,…,xin′];使用softAttention对X′进行降维,得到句向量si,公式如下:uij=tanhWwxij′+bw 其中,WK,bK为权重矩阵和偏移项,tanh为激活函数,uij为输xij′经过一层神经网络的输出,uw为权重向量,αij为xij′的权重,xij′为Xi′中第j个向量,uijT为uij转置;6-2:Bert模型在句子开始和末尾分别加上“[CLS]”以及“[SEP]”字符,此时输入表征序列{xCLS,x0,x1,…,xT,xSEP}经上述Bert模型后获得与语句长度相同的隐层状态序列{hCLS,h0,h1,…,hn-1,hSEP},对应“[MASK]”位置的隐层状态序列为hm;6-3:信息整合单元为一个前向传播网络,对于“[MASK]”位置的隐层状态序列,构建信息整合单元的输入hi,输入信息整合单元后得到对应的输出ho: FFNaggrhi=max0,hiW1+b1W2+b2hi=FFNaggrhi上述Wi,bii=1,2表示信息整合单元FFNaggr中的权重项和偏移项;6-4:针对类别信息整合单元的输出ho,将其输入到类别分类器中,取得类别概率最大的类别对应的向量化表示:FFNclsho=max0,hoW1+b1W2+b2Ec=argmaxsoftmaxFFNclsho上述Wi,bii=1,2表示类别分类器FFNcls中的权重项和偏移项;6-5:基于6-4得到的最大判断概率得到的类别表征,将其与原始信息整合单元的输出进行拼接,输入到短语分类器中,与候选集G中的每个短语向量化表征进行点积,并概率化每个候选输入短语的概率值: FFNwhc=max0,hvW1+b1W2+b2 其中,Wi,bii=1,2表示短语分类器FFNw中的权重项和偏移项,v表示候选集G中的某一个短语;步骤6中所述增加接受用户输入和格式化输出模型预测结果的功能,具体实现方式如下:7-1:模型将输入的语句中的“*”转换为“[MASK]”,输入到短语预测模型中;7-2:模型对输入的语句进行计算处理,依次预测对应位置的类别和概率,根据空缺位置词性类别的概率值排序,选取排序前k的类别进行引导式的短语预测,分别预测对应类别分布下的短语,并按短语预测概率值排序,取排序前o的短语作为该类别下推荐的短语;7-3:模型将7-2中的类别概率及该类别下对应的短语,按照概率值排序,输出给用户作为模型对于该句输入的空缺位置的短语推荐结果。
全文数据:
权利要求:
百度查询: 华东师范大学 一种基于Bert语言模型的中文写作短语推荐方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。