基于行为数据统计的中文拼写纠错方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：东方财富信息股份有限公司

摘要：本发明涉及一种基于行为数据统计的中文拼写纠错方法，通过离线挖掘模块从用户日志中挖掘语言模型、概率转换矩阵、用户输入权重，利用概率转移矩阵对现有的公开混淆集进行过滤，获取面对用户的有效混淆集；实时计算模块基于离线挖掘模块实现拼写纠错，实时将用户输入给定的文本在挖掘语言模型的条件概率，与根据用户输入给定文本依据用户的有效混淆集形成的候选文本在挖掘语言模型的条件概率进行高低对比，实现拼写纠错。考虑应用的检索场景，利用带有输入类型的概率转移矩阵，解决了不同输入法的拼写纠错问题；利用概率矩阵提升了拼写纠错的准确率；利用有效混淆集和beamsearch，降低候选集的大小，从而提升了纠错的性能。

主权项：1.一种基于行为数据统计的中文拼写纠错方法，其特征在于，通过离线挖掘模块从用户日志中挖掘语言模型、概率转移矩阵、用户输入权重，利用概率转移矩阵对现有的公开混淆集进行过滤，获取面对用户的有效混淆集；实时计算模块基于离线挖掘模块实现拼写纠错，实时将用户输入给定的文本在挖掘语言模型的条件概率，与根据用户输入给定文本依据用户的有效混淆集形成的候选文本在挖掘语言模型的条件概率进行高低对比，使用超出用户给定的文本的条件概率的候选文本进行拼写纠错；同时将此次用户搜索行为放入用户日志，作为离线挖掘模块新的挖掘数据；所述离线挖掘模块中概率转移矩阵获得方法如下：首先、挖掘用户纠错对数据：对用户搜索日志中的查询词进行筛选，如果两次查询时间间隔不超过n秒，且两次查询词内容长度相等，编辑距离小于k，且后一次查询结果存在用户点击行为，则认为后一次的查询词为正确输入，之前的内容为错误输入，构成一个纠错对；若存在连续多次查询都满足间隔时间不超过n秒，前后两次查询词内容长度相等，其中多次查询词可以调整顺序，以达到前后两个查询词的编辑距离小于k，则将其中存在最多点击结果行为的查询词视为正确输入，其他内容视为错误输入，形成一正确多错误的多对纠错对；然后、计算出概率转移矩阵：每个纠错对的长度均相等，统计出字符级别的概率转移矩阵，概率转移矩阵由一个字符改写为另一个字符的条件概率构成，已知用户所有纠错对的转移量，即可计算出概率转移矩阵；所述用户输入权重获取方法：从纠错对筛选判断中，对每个纠错对中正确输入和错误输入的区别来进行输入法判断，统计出用户的所有纠错对的输入类型，通过统计数据获得当前用户选择不同输入法的权重；所述挖掘语言模型为利用正确文本得到N-gram语言模型，N-gram语言模型即统计当前字符在前N个字符出现情况下的条件概率；所述实时计算模块对给定的文本进行拼写纠错的具体步骤如下：1用户在搜索输入栏输入的文字时，对比离线挖掘模块中的有效混淆集，发现有效混淆集中的字符，对此字符进行替换，并根据可替换字符生成所有可能的候选文本；2计算前i个字符串的概率，同时记录下每个候选文本生成时对应的输入法类型； pij是第i个字符m替换成字符j时，前i个字符串的概率，pi-1是前i-1个字符串的概率值，通过N-gram语言模型计算得到；是从字符m替换成字符j的转移概率，可从直接从概率转移矩阵中获取；是字符j的条件概率，也是通过N-gram语言模型得到；3从实际使用角度来看，用户在一次输入过程中，不会切换输入法，因此剔除不属于步骤2确认的输入法中存在的不同转移类型的结果；再利用beamsearch算法，选择其中最高的q个候选文本；4如果未遍历到用户在搜索输入栏输入的最后一个字符，则继续从步骤1开始，直到所有均遍历完成；5计算最终最高的q个候选句子的条件概率，与用户输入句子的条件概率进行比较，保留高于用户输入句子概率值的候选句子作为最终拼写纠错的句子。

全文数据：

权利要求：

百度查询：东方财富信息股份有限公司基于行为数据统计的中文拼写纠错方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种市政道路铺砖装置

下一篇：一种硅胶产品检测及分选装置

相关技术

一种市政道路铺砖装置

一种硅胶产品检测及分选装置

一种防脱组件及球磨机衬板安装结构

一种移动医疗推车

用于装置气溶胶生成系统的传感器

一种船舶激振装置及船体振动试验分析方法

信息处理系统以及信息处理方法

一种基于物联网的燃气罐阀门控制系统

一种大数据支持的交通碳排放监测方法及监测系统

一种提高战场综合态势信息处理效率的方法

一种电炉铁液随流孕育装置

一种适用于垂直起降无人机的可折叠起落架

拼写相关技术

一种基于多种模态信息的中文拼写纠错方法_福州大学_202410725181.8

基于检索增强生成的语言模型中文拼写检查方法及系统_华中师范大学_202410832719.5

一种中文拼写纠错方法_华东交通大学_202410669266.9

一种英语单词拼写装置_光山县中等职业学校_202322952792.X

中文拼写纠错模型的训练方法以及存储介质_北京澜舟科技有限公司_202410559611.3

拼写检查模型生成方法、装置、计算设备及存储介质_人民网股份有限公司_202410648420.4

基于行为数据统计的中文拼写纠错方法_东方财富信息股份有限公司_202111182052.1

一种基于脑控拼写的中文输入辅助系统_华东理工大学_202410525996.1

一种中文拼写纠错方法_华东交通大学_202410669266.9

一种基于深度学习的中文拼写纠错方法及系统_云海时空(北京)科技有限公司_202410477020.1

中文相关技术

一种基于情感感知和强化学习的中文观点摘要抽取方法_中国电子科技集团公司第三十研究所_202410824581.4

一种基于深度学习的中文拼写纠错方法及系统_云海时空(北京)科技有限公司_202410477020.1

一种基于边界检测的中文命名实体识别方法_安徽理工大学_202210532724.5

一种中文文本语法错误定位方法、系统、设备及介质_西安交通大学_202210536619.9

一种用于中文医疗嵌套命名的实体识别方法_重庆邮电大学_202410332692.3

一种图片中文字抽取识别处理方法及系统_山东声通信息科技有限公司_202410874316.7

一种针对中文语料非正常换行修正的方法及系统_上海岩芯数智人工智能科技有限公司_202410300933.6

基于检索增强生成的语言模型中文拼写检查方法及系统_华中师范大学_202410832719.5

基于AI PaaS平台的中文文本向量化模型的交互数据管理系统_知学云(北京)科技股份有限公司_202410070601.3

一种碳中和领域中文文本的实体关系联合抽取方法及系统_浙江工业大学_202410548218.4

统计相关技术

一种财务收支分析统计系统_四川融科智联科技有限公司_202411110867.2

可精确分析光影数据的智能统计冰箱_苏州零距云控人工智能科技有限公司_202410579239.2

一种畜牧业统计监测系统_呼和浩特市艾思网络技术有限公司_202411081557.2

一种教学使用的统计板_广西城市职业大学_202322478288.0

一种基于统计放大模型的药品信息追踪方法及系统_北京法伯宏业科技发展有限公司_202410748734.1

一种自动驾驶路线分类统计评分的方法及系统_南斗六星系统集成有限公司_202110948037.7

机器人任务统计方法、电子设备及存储介质_深圳优地科技有限公司_202410624510.X

基于共同实验数据的物料检测统计控制方法及系统_山东中烟工业有限责任公司_202410664827.6

一种电力工程质量指数数理统计方法和系统_中国电力企业联合会_202410070786.8

一种直方图统计方法、装置、设备及存储介质_腾讯科技(深圳)有限公司_202310254690.2

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于行为数据统计的中文拼写纠错方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务