首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于Ising模型的无监督词嵌入表示学习方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南通大学;南通先进通信技术研究院有限公司

摘要:本发明公开了一种基于Ising模型的无监督词嵌入表示学习方法,包含以下步骤S1.将输入的文本数据实体依照IsingModel构建稀疏矩阵WISM;S2.将WISM经过SLEP得到全局关系矩阵WWCM;S3.构建批次文本数据实体集Batchi;S4.依次将n个Batchi输入至Word2vec模型,利用Skip‑Gram框架结合负采样的方法得到各实体Vmij的梯度及步骤S5.利用局部关系矩阵Wscm结合梯度更新辅助向量θu,利用负关系矩阵WNCM结合梯度更新Vmij的词嵌入Veij,本发明通过利用引入由Ising模型获取的带有全局信息的矩阵结合梯度不断更新辅助向量θu及词嵌入Veij,在Word2vec训练过程中引入全局关系得分,本发明的词嵌入表示学习方法准确性高。

主权项:1.一种基于Ising模型的无监督词嵌入表示学习方法,其特征在于,包含以下步骤:步骤S1.将输入的文本数据实体依照IsingModel的数据结构构建稀疏矩阵WISM;步骤S2.将WISM经过SLEP的大规模稀疏数据处理得到全局关系矩阵WWCM;步骤S3.将输入的文本数据实体划分批次,构建批次文本数据实体集Batchi=Vmi1,Vmi2,…,VmijT,i=1,…,n;步骤S4.依次将n个批次文本数据实体集Batchi输入至Word2vec模型,利用Skip-Gram框架结合负采样的方法得到各实体Vmij的梯度及其中,u∈{Vmij}∪NEGVmij,ConVmij表示窗口中心实体Vmij的上下实体空间,NEG表示窗口中心实体Vmij的负采样实体空间;Veij为实体Vmij的词嵌入,表示u对应的辅助向量;步骤S5.利用局部关系矩阵Wscm结合梯度更新辅助向量θu,利用负关系矩阵WNCM结合梯度更新Vmij的词嵌入Veij,所述局部关系矩阵Wscm通过实体Vmij及其对应的从全局关系矩阵WWCM中获得,所述负关系矩阵WNCM通过实体Vmij及其对应的负采样空间实体从全局关系矩阵WWCM中获得;步骤S2中将采取LogisticR的方式来获取WISM的关系得分从而构建全局关系矩阵WWCM,具体公式如下: WWCM=X1X2,...,Xall+X1X2,...,XallT2公式1中,wt是所有文本数据实体中第t个实体的权值,zt是WISM的第t列,zkt是WISM的第k行、第t列实体,Xk是zkt对应的相关度的解,λ是l1规范正则化参数,ρ是平方2范数的正则化参数;步骤S4包含以下步骤:步骤S41.依次将n个批次文本数据实体集Batchi输入至Word2vec模型,初始化得到批次文本数据实体集Batchi的词嵌入向量Vei1,Vei2,…,VeijT,对应关系如下所示:Vei1,Vei2,...,VeijT=Vmi1,Vmi2,...,VmijT·WVe3公式3中,Veij为第j个实体Vmij对应的词嵌入,WVe则是向量生成过程中的权重矩阵;步骤S42.将批次文本数据实体集Batchi经过配对生成Skip-Gram关系,同时采用负采样的方法得到窗口中心实体Vmij的上下实体空间ConVmij以及窗口中心实体Vmij的负采样实体空间NEGVmij,从而得出中心实体Vmij的预测概率 公式4中,u∈{Vmij}∪NEGVmij,σ为sigmoid激活函数,表示u对应的辅助向量;步骤S43.依据Batchi中Veij对上下实体空间ConVmij以及负采样实体空间NEGVmij中各实体配对之间的预测概率计算总损失函数Loss; 步骤S44.根据总损失函数Loss得到各实体Vmij的梯度及 步骤S5中更新后的辅助向量及词嵌入分别为:

全文数据:

权利要求:

百度查询: 南通大学 南通先进通信技术研究院有限公司 一种基于Ising模型的无监督词嵌入表示学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。