买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:昆明理工大学
摘要:本发明涉及基于关键词结构编码的涉案微博评价对象抽取方法,属自然语言处理领域。先将微博评论句的字符嵌入和词嵌入送入Bi‑LSTM进行编码,并将得到的编码表示进行拼接,输入双层高速网络,同时将案件关键词嵌入送入Bi‑LSTM编码,再通过结构编码机制StructuredEncoding进一步提取结构编码表征;然后通过交互注意力CrossAttention机制将评论句子表征和案件关键词结构表征进行融合;最后将该特征表示送入CRF,抽取评价对象词项。本发明解决了现有方法通常将评价对象抽取视为一个序列标注任务,并未考虑涉案微博的领域特点,即评论通常围绕正文中出现的案件关键词展开讨论的问题。
主权项:1.基于关键词结构编码的涉案微博评价对象抽取方法,其特征在于:所述基于关键词结构编码的涉案微博评价对象抽取方法的具体步骤如下:Step1、收集用于涉案微博评价对象抽取的微博正文和微博评论文本,对微博正文和微博评论文本进行去重与筛选,并从微博正文中获取多个案件关键词;Step2、定制涉案微博评价对象抽取的标注体系,标记微博评论文本,将标记好的微博评论语料分为训练语料、验证语料和测试语料;Step3、获取评论语句对应的字符向量和词向量,训练数据经过预处理后作为BiLSTM的输入,然后送入双层高速网络;Step4、获取案件关键词对应的词向量,训练数据经过预处理后作为BiLSTM的输入,然后经过结构编码操作,得到关键词的结构化表征;Step5、采用交互注意力机制融合评论表征与关键词的结构化表征,训练涉案微博评价对象抽取模型;Step6、将融合之后的表征输入CRF,用于进行涉案微博评价对象抽取;所述步骤Step3的具体步骤为:Step3.1、将评论语句中的字符与词输入到embedding层中得到评论语句对应的字符向量和词向量其中t表示句子中字符的总个数,表示句子中第j个位置的字符,表示第j个位置的字符对应的词;Step3.2、将词嵌入和字符嵌入分别输入Bi-LSTM进行编码,并将编码得到的隐表示进行拼接;Step3.3、将拼接之后的表示输入双层高速网络,以此平衡字符向量和词向量的贡献比,得到具有上下文语义特征的评论多粒度向量表示;所述步骤Step4的具体步骤:Step4.1、给定一个评论句对应的一组案件关键词,将其输入到embedding层中得到的词向量序列表示为U={u1,u2,…,uf},其中f表示关键词的总个数;Step4.2、将词向量送入Bi-LSTM,得到具有上下文语义特征的案件关键词向量表示;Step4.3、利用结构编码操作将具有上下文语义特征的案件关键词的向量表示转化为结构化表示;所述步骤Step5包括:Step5.1、将具有上下文语义特征的评论多粒度向量表示与关键词的结构化表示做交互注意力,由此得到的关键词表征用来表示评论句;Step5.2、将融合之后的信息与评论句字符嵌入通过Bi-LSTM得到的隐表示进行点乘,再和评论句词嵌入通过Bi-LSTM得到的隐表示进行简单拼接,得到最终的表征。
全文数据:
权利要求:
百度查询: 昆明理工大学 基于关键词结构编码的涉案微博评价对象抽取方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。