买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京国瑞数智技术有限公司
摘要:本发明提供一种基于面向数据流的自然语言分析方法和系统,通过对数据流进行适当处理,转换为更加适合自然语言的形式,并按照树状结构赋予成结构化后的向量序列,输入句法模型中进行断句,得到第一词分量,将所述第一词分量逐个输入语义分析模型,得到第二词分量,按照预先设置的词组类型与权重值的映射关系,组成新的语句,从而可以识别出该新的语句的含义。
主权项:1.一种基于面向数据流的自然语言分析方法,其特征在于,所述方法包括:获取网络数据流,从中提取出携带的语句和附加元素信息,所述附加元素信息是指用于区分不同语句、不同来源的标识,将所述语句和附加元素信息分别映射成字符串类型属性的数据,并向量化得到第一向量序列;将所述第一向量序列按照首尾相连的顺序,依次赋予在树状结构中,附加元素信息对应的向量序列位于同一来源的语句对应的向量序列的子树叶处,得到树状结构化的第二向量序列;将所述第二向量序列输入句法模型中,进行初步断句,得到第一词分量,所述句法模型根据每个单词类型设置不同宽度的提取窗口,以该提取窗口为断句依据,窗口宽度内的单词组成所述第一词分量;将所述第一词分量逐个输入语义分析模型,如果还能够识别成短句的话,则认定该第一词分量的初步断句没有成功,需要将该第一词分量再次输入所述句法模型,再次进行断句,得到第二词分量;如果无法识别成短句、被识别成词组的话,则认定该第一词分量的初步断句成功,所述第一词分量直接标识为第二词分量;所述词组由若干个单词组成,不具有句法结构;重复将所述第二词分量逐个输入语义分析模型,直到每一个第二词分量都被认定初步断句成功为止;按照预先设置的词组类型与权重值的映射关系,分析所有初步断句后的第二词分量,将权重值大于阈值的第二词分量进行聚类,组成新的语句,识别出该新的语句的含义。
全文数据:
权利要求:
百度查询: 北京国瑞数智技术有限公司 基于面向数据流的自然语言分析方法和系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。