首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于行为数据统计的中文拼写纠错方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:东方财富信息股份有限公司

摘要:本发明涉及一种基于行为数据统计的中文拼写纠错方法,通过离线挖掘模块从用户日志中挖掘语言模型、概率转换矩阵、用户输入权重,利用概率转移矩阵对现有的公开混淆集进行过滤,获取面对用户的有效混淆集;实时计算模块基于离线挖掘模块实现拼写纠错,实时将用户输入给定的文本在挖掘语言模型的条件概率,与根据用户输入给定文本依据用户的有效混淆集形成的候选文本在挖掘语言模型的条件概率进行高低对比,实现拼写纠错。考虑应用的检索场景,利用带有输入类型的概率转移矩阵,解决了不同输入法的拼写纠错问题;利用概率矩阵提升了拼写纠错的准确率;利用有效混淆集和beamsearch,降低候选集的大小,从而提升了纠错的性能。

主权项:1.一种基于行为数据统计的中文拼写纠错方法,其特征在于,通过离线挖掘模块从用户日志中挖掘语言模型、概率转移矩阵、用户输入权重,利用概率转移矩阵对现有的公开混淆集进行过滤,获取面对用户的有效混淆集;实时计算模块基于离线挖掘模块实现拼写纠错,实时将用户输入给定的文本在挖掘语言模型的条件概率,与根据用户输入给定文本依据用户的有效混淆集形成的候选文本在挖掘语言模型的条件概率进行高低对比,使用超出用户给定的文本的条件概率的候选文本进行拼写纠错;同时将此次用户搜索行为放入用户日志,作为离线挖掘模块新的挖掘数据;所述离线挖掘模块中概率转移矩阵获得方法如下:首先、挖掘用户纠错对数据:对用户搜索日志中的查询词进行筛选,如果两次查询时间间隔不超过n秒,且两次查询词内容长度相等,编辑距离小于k,且后一次查询结果存在用户点击行为,则认为后一次的查询词为正确输入,之前的内容为错误输入,构成一个纠错对;若存在连续多次查询都满足间隔时间不超过n秒,前后两次查询词内容长度相等,其中多次查询词可以调整顺序,以达到前后两个查询词的编辑距离小于k,则将其中存在最多点击结果行为的查询词视为正确输入,其他内容视为错误输入,形成一正确多错误的多对纠错对;然后、计算出概率转移矩阵:每个纠错对的长度均相等,统计出字符级别的概率转移矩阵,概率转移矩阵由一个字符改写为另一个字符的条件概率构成,已知用户所有纠错对的转移量,即可计算出概率转移矩阵;所述用户输入权重获取方法:从纠错对筛选判断中,对每个纠错对中正确输入和错误输入的区别来进行输入法判断,统计出用户的所有纠错对的输入类型,通过统计数据获得当前用户选择不同输入法的权重;所述挖掘语言模型为利用正确文本得到N-gram语言模型,N-gram语言模型即统计当前字符在前N个字符出现情况下的条件概率;所述实时计算模块对给定的文本进行拼写纠错的具体步骤如下:1用户在搜索输入栏输入的文字时,对比离线挖掘模块中的有效混淆集,发现有效混淆集中的字符,对此字符进行替换,并根据可替换字符生成所有可能的候选文本;2计算前i个字符串的概率,同时记录下每个候选文本生成时对应的输入法类型; pij是第i个字符m替换成字符j时,前i个字符串的概率,pi-1是前i-1个字符串的概率值,通过N-gram语言模型计算得到;是从字符m替换成字符j的转移概率,可从直接从概率转移矩阵中获取;是字符j的条件概率,也是通过N-gram语言模型得到;3从实际使用角度来看,用户在一次输入过程中,不会切换输入法,因此剔除不属于步骤2确认的输入法中存在的不同转移类型的结果;再利用beamsearch算法,选择其中最高的q个候选文本;4如果未遍历到用户在搜索输入栏输入的最后一个字符,则继续从步骤1开始,直到所有均遍历完成;5计算最终最高的q个候选句子的条件概率,与用户输入句子的条件概率进行比较,保留高于用户输入句子概率值的候选句子作为最终拼写纠错的句子。

全文数据:

权利要求:

百度查询: 东方财富信息股份有限公司 基于行为数据统计的中文拼写纠错方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。