首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

面向网络反馈信息监测的短文本微博共指消解模型 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:李波

摘要:本申请的面向网络反馈信息监测的短文本微博共指消解模型,根据短文本中出现的敏感主题词的衍生词的识别,设计了短文本实体消解模型架构、短文本微博共指消解流程,提出了提取关键词、短文本特征提取、基于搜索引擎的文本特征扩展、训练噪声稀疏自适应编码器、训练分类器等一系列方法,通过设计加入符合敏感信息及敏感主题词特征的命名实体和名词短语筛选及针对短文本的特征提取方法,然后联接噪声稀疏自适应编码器对敏感主题词共指消解,实现了面向网络反馈信息监测的短文本微博共指消解,在特征提取及特征向量算法方面,性能提升了11.8%,与浅层机器学习算法SVM对比,性能提升了16.2%,且在不同的数据集下,本申请模型稳定高效。

主权项:1.面向网络反馈信息监测的短文本微博共指消解模型,其特征在于,根据短文本中出现的敏感主题词的衍生词的识别,构建基于噪声稀疏自适应编码器的短文本实体共指消解模型,包括:短文本实体消解模型架构、短文本微博共指消解流程、提取关键词、短文本特征提取、基于搜索引擎的文本特征扩展方法、训练噪声稀疏自适应编码器、训练分类器;1改进CRF完成命名实体识别和名词短语提取:采用ICTC1AS分词系统,对经过分词和词性标注处理后的文本,使用有监督训练的CRF进行NE识别和NP提取,基于文本中的命名实体和名词短语对文本信息有较好的表达能力,特征选择时识别NE和NP;2短文本关键词提取:基于微博等短文本特征非常稀疏不能完整的表达某一事件,在进行共指消解之前,对短文本进行特征扩展,采用基于搜索引擎的方式进行特征扩展,提取出文本的关键词,以关键词的组合作为搜索引擎的输入条件,保证返回的文本中噪声较少;3计算特征向量:根据短文本的特征,构建基于搜索引擎的全局特征以及敏感词的上下文特征,全局特征是从搜索结果中提取的相关新闻或者事件的人名、地名、机构名、时间以及文本中出现的高频词,这些信息弥补短文本的缺点,上下文特征通过设计窗口大小从短文本中提取出来,最后将两者特征向量进行融合,融合的结果构成共指消解模型最终的输入条件;4噪声稀疏自适应编码器网络训练及共指消解:使用前面步骤产生的特征向量作为噪声稀疏自适应编码器的输入,依次训练噪声稀疏自适应编码器网络的构成部分,噪声稀疏自编码器和最终用于分类的softmax,噪声稀疏自适应编码器的训练为无监督过程,各层训练独立,而分类器的训练无有监督过程,并利用标注语料对分类器微调,特征向量在经过整个噪声稀疏自适应编码器网络的多层变换,得到一个与原始输入表达信息相同,但表达更稀疏的矩阵,表达方式是原始表达的压缩,信息融合更好,训练好的噪声稀疏自适应编码器网络,联接前面的敏感备选提取及特征选择步骤后,即可用来解决短文本中敏感主题词的共指消解问题。

全文数据:

权利要求:

百度查询: 李波 面向网络反馈信息监测的短文本微博共指消解模型

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。