Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

组词方法和装置、用于组词的装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京搜狗科技发展有限公司

摘要:本发明实施例提供了一种组词方法和装置、用于组词的装置,其中的方法具体包括:接收用户的输入串;若所述输入串在预置数据集的命中情况符合预置条件,则根据所述输入串获取符合组合规则的组词路径,作为组词候选;其中,所述预置数据集包括:字集和所述字集对应的编码单元集。本发明实施例可以提高组词的成功率,且可以提高组词候选的合理性和质量,进而可以提高用户的输入效率。

主权项:1.一种组词方法,其特征在于,包括:接收用户的输入串;若所述输入串在预置数据集的命中情况符合预置条件,则根据所述输入串获取符合组合规则的组词路径,作为组词候选;其中,所述预置数据集包括:字集和所述字集对应的编码单元集;所述字集包括:数字单字集和单位字集;所述组合规则用于表征数字单字和或单位单字对应的组合规则,用于对同音单字所在的组词路径进行筛选;所述根据所述输入串获取符合组合规则的组词路径,包括:步骤A、判断所述组词路径中是否包含“亿”,若是,则执行步骤B,否则执行步骤C;步骤B、判断“亿”、“亿”之前、“亿”与“万”之间、“万”与“亿”之间、以及作为最后一个第一数字单位单字的“亿”之后的单字是否符合组合规则,若是,则执行步骤F,否则丢弃所述组词路径;步骤C、判断所述组词路径中是否包含“万”,若是,则执行步骤D,否则执行步骤E;步骤D、判断“万”、“万”之前、“万”之后的单字是否符合组合规则,若是,则执行步骤F,否则丢弃所述组词路径;步骤E、判断第二数字单位单字、数字单字和货币单位单字是否符合组合规则,若是,则执行步骤F,否则丢弃所述组词路径;步骤F、将符合组合规则的组词路径作为组词候选。

全文数据:组词方法和装置、用于组词的装置技术领域本发明涉及计算机信息输入技术领域,特别是涉及一种组词方法和装置、以及一种用于组词的装置。背景技术目前,涉及交互的设备,通常需要用户通过输入法程序将自己的操作意图与设备交互识别。例如,用户可以输入输入串,然后由输入法程序依据其预置的标准映射规则将该输入串转换为相应语言的候选项并展示,进而将用户选择的候选项上屏。当词库中不存在输入串直接命中的词条时,输入法程序可以触发组词功能。现有的组词过程具体为:查找多元库中的多元关系,该依据该多元关系的命中情况计算每个组词方案中词汇串的路径概率,并将具有最大路径概率的组词方案作为首选项返回给用户。其中,该多元关系是指词汇与词汇之间的搭配关系,如“天气-好热”、“我-知道”、“喜欢-你”、“十万-八千”等可以具有二元关系。组词功能非常重要,组词结果的好坏可以影响输入法程序的质量,也将影响到用户的体验。在实际应用中,由于数字和单位对应的组合为无限集,故对于包含数字和单位的组词,往往需要非常多的多元关系。然而,一方面,受限于存储空间,存储的多元关系有限;另一方面,多元库中存储的多元关系往往是通过统计学习的方式得到,通常存储的多元关系很难保证能够覆盖所有的情况。这样,在组词过程中若无法命中多元库中的多元关系,将导致组词失败。例如,若多元库中未存储“一亿零八万九千”,则输入串“yiyilingbawanjiuqian”对应的词汇“一亿”、“零”、“八万”、“九千”等将无法命中多元库中的多元关系,进而导致组词失败。发明内容鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的组词方法、组词装置、用于组词的装置,本发明实施例可以提高组词的成功率,且可以提高组词候选的合理性和质量,进而可以提高用户的输入效率。为了解决上述问题,本发明实施例公开了一种组词方法,包括:接收用户的输入串;若所述输入串在预置数据集的命中情况符合预置条件,则根据所述输入串获取符合组合规则的组词路径,作为组词候选;其中,所述预置数据集包括:字集和所述字集对应的编码单元集。另一方面,本发明实施例公开了一种组词装置,包括:输入串接收模块,用于接收用户的输入串;以及组词候选获取模块,用于若所述输入串在预置数据集的命中情况符合预置条件,则根据所述输入串获取符合组合规则的组词路径,作为组词候选;其中,所述预置数据集包括:字集和所述字集对应的编码单元集。可选地,所述装置还包括:判断模块,用于判断所述输入串在预置数据集的命中情况是否符合预置条件:所述判断模块,包括:切分子模块,用于对所述输入串进行切分,得到对应的切分结果;判断子模块,用于判断所述输入串对应的切分结果是否命中所述预置数据集。可选地,所述组词候选获取模块包括:查找子模块,用于依据所述切分结果,在编码单元集与字集之间的映射关系中进行查找,以得到与所述切分结果相匹配的单字,作为所述输入串对应的待组单字;路径确定子模块,用于依据所述输入串对应的待组单字,确定组词路径;路径获取子模块,用于获取符合组合规则的组词路径。可选地,所述装置还包括:单字确定模块,用于依据所述输入串对应的上下文,确定所述切分结果对应的单字。可选地,所述字集包括:数字单字集和单位字集,所述组合规则用于表征数字单字和或单位字对应的组合规则。可选地,所述组合规则包括:所述组词路径包括第一数字单位字,所述组词路径在所述首个第一数字单位字之前、相邻的第一数字单位字之间、或者尾个第一数字单位字之后包括的第二数字单位组的数量不超过1;和或第一数字单位字不位于所述组词路径的首位;和或若第一数字单位字与第二数字单位字相邻,或者,两个第一数字单位字相邻,则在前的数字单位小于在后的数字单位;和或所述组词路径的第二数字单位组包括的第二数字单位字呈现从大数字单位到小数字单位的顺序;和或所述组词路径的第二数字单位组包括的任意两个第二数字单位字不相邻;和或当所述组词路径的第二数字单位组包括的第二数字单位字出现数字单位间断时,对应的数字单位间断位置出现1个零;和或当所述组词路径在相邻的第一数字单位字之间不存在第二数字单位组和数字时,在后的第一数字单位字省略;和或所述组词路径包括的零位于非末尾位置;和或所述组词路径包括的零对应的前一个单字不为数字单字,或者,所述待组单字对应的组词路径包括的零对应的后一个单字为数字单字或者货币单位字;和或所述组词路径的首位为拾或者十,第二位不为拾、十、百、佰、仟、千、整或者零;和或所述组词路径的货币单位组在所述组词路径中的出现次数不超过1;和或数字单位字位于所述组词路径中货币单位组的前面;和或所述组词路径的货币单位组包括的货币单位字呈现从大到小的顺序;和或所述组词路径的货币单位组包括的货币单位字不相邻;和或所述组词路径的货币单位组包括第一货币单位字,所述第一货币单位字的前一个单字为数字单字;和或所述组词路径包括的数字单字不相邻;和或所述组词路径包括的整位于末尾位置,整的前一个单字为元。可选地,所述组词路径的第二数字单位组包括的第二数字单位字出现数字单位间断时,对应的数字单位间断位置出现1个零,包括:所述组词路径中首个第一数字单位字之前的第二数字单位组中大数字单位存在、且小数字单位存在间断时,对应的数字单位间断位置出现1个零;和或所述组词路径的第二数字单位组中存在数字单位、且多个连续数字单位不存在时,对应的数字单位间断位置出现1个零。可选地,第一数字单位字包括:亿或者万,所述组合规则包括:所述组词路径包括亿和万,万位于亿之前,万和亿之间包括的第二数字单位组的数量不超过1;当万和亿之间存在第二数字单位组时,万和亿之间的第二数字单位组所包括的第二数字单位字呈现从大数字单位到小数字单位的顺序,万和亿之间的第二数字单位组所包括的任意两个第二数字单位字不相邻,万和亿之间的第二数字单位组所包括的第二数字单位字出现数字单位间断时,对应的数字单位间断位置出现1个零;或者当万和亿之间不存在第二数字单位组和数字时,万和亿之间不出现零。可选地,第一数字单位字包括:亿或者万,所述组合规则包括:所述组词路径包括亿和万,亿位于万之前,亿和万之间不存在第二数字单位组和数字时,万省略。可选地,第一数字单位字包括:亿或者万,所述组合规则包括:所述组词路径不包括亿,所述组词路径中万的出现次数不超过1。可选地,所述装置还包括:排序模块,用于依据组词路径中同音出现的位置,对所述输入串对应的多个组词路径进行排序。再一方面,本发明实施例公开了一种用于组词的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:接收用户的输入串;若所述输入串在预置数据集的命中情况符合预置条件,则根据所述输入串获取符合组合规则的组词路径,作为组词候选;其中,所述预置数据集包括:字集和所述字集对应的编码单元集。又一方面,本发明实施例公开了一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行前述的组词方法。本发明实施例包括以下优点:本发明实施例在所述输入串在预置数据集的命中情况符合预置条件的情况下,根据所述输入串获取符合组合规则的组词路径,作为组词候选。由于该组合规则用于表征数字单字和或单位字对应的组合规则,该组合规则可以适用于任意的数字单字和或单位字,因此,本发明实施例可以提高组词的成功率。并且,该组合规则可以反映数字单字和或单位字对应的组合规律,从所述待组单字对应的组词路径中获取合法的组词路径作为组词候选,可以提高组词候选的合理性和质量,进而可以提高用户的输入效率。附图说明图1是本发明的一种组词方法实施例的步骤流程图;图2是本发明实施例的一种输入界面的示意;图3是本发明的一种组词方法实施例的步骤流程图;图4是本发明的一种组词装置实施例的结构框图;图5是根据一示例性实施例示出的一种用于组词的装置作为终端时的框图;及图6是根据一示例性实施例示出的一种用于组词的装置作为服务器时的框图。具体实施方式为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。本发明实施例可以应用于各种输入方式的输入法程序,例如上述输入方式具体可以包括键盘符号、手写信息、语音输入等输入方式,即用户可以通过编码单元、手写属性特征等输入上屏内容。以语音输入方式为例,输入法程序可以采集用户输入的语音信号,将该语音信号转换为文本信息,对该文本信息切分为待组单字进行组词。下面主要以编码单元对应的输入方式为例进行说明,其它输入方式相互参见即可。现有的输入法程序,可以针对每一个字词设定相应的编码单元,用户输入正确的编码单元可以获得所需的字词。其中,编码单元可以对应有编码规则,拼音输入法对应的编码规则为音节规则,五笔输入法对应的编码规则为五笔规则,这样,本发明实施例的编码单元可以包括:音节、五笔单元等,例如,单字“仟”对应的音节为“qian”,单字“仟”对应的五笔单元为“wtfh”。可以理解,本领域技术人员可以根据编码规则,采用对应的编码单元,本发明实施例对于具体的编码单元不加以限制。可选地,输入法程序可以运行在终端上,上述终端具体包括但不限:智能手机、平板电脑、电子阅读器、MP3动态影像专家压缩标准音频层面3,MovingPictureExpertsGroupAudioLayerIII播放器、MP4动态影像专家压缩标准音频层面4,MovingPictureExpertsGroupAudioLayerIV播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。在输入法技术领域,无论是中文、日文、韩文还是其它语言的输入法程序,通常可以将用户的用于表征编码单元的输入串转换成相应语言的候选项,然后由用户来选择输出至应用程序的内容,这里通过上屏操作输出至应用程序的内容也即上屏内容。其中,在把用户的输入串转换成相应语言的候选项的过程中,可以直接从词库中查找输入串对应的词条,若查找命中,则可以将查找得到的词条作为候选项,例如,直接在词库中查找得到输入串“nihao”或者“tianqihenhao”对应的“你好”或者“天气很好”等词条。可选地,本发明实施例的词库具体可以包括:系统词库、用户词库、细胞词库、云词库等等,本发明实施例对于具体的词库不加以限制。然而,在实际应用中,很多原因将会导致词库中不存在输入串直接命中的词条,可选地,在用户欲输入的词汇数量较多例如短语或者长句、或者欲输入之前未输入过的内容时,可能存在词库中不存在输入串直接命中的词条的情况,此种情况下输入法程序可以触发组词功能。例如,用户欲要通过输入串“yiyilingbawanjiuqian”输入“一亿零八万九千”,或者,欲要通过输入串“jiuwanliangqian”输入“九万八千”时,词库中可能不存在这些输入串直接命中的词条。现有的组词方案利用多元库中的多元关系词汇与词汇之间的搭配关系,针对输入串进行组词。然而,对于包含数字和单位的组词,其往往需要非常多的多元关系,这不仅对于多元库的尺寸和存储空间存在较高的要求,而且往往会因为多元关系的覆盖率不足而导致组词失败。以数字的组词为例,多元库中需要存储所有数字之间的搭配关系,若存储的覆盖率不够,将会导致组词失败。针对数字和单位的组词存在的上述问题,本发明实施例针对数字单字和或单位字提出组合规则,该组合规则用于表征数字单字和或单位字对应的组合规则,例如,该组合规则可以包括:单位字之间的组合规则、数字单字和单位字之间的组合规则等;并在所述输入串在预置数据集的命中情况符合预置条件的情况下,根据所述输入串获取符合组合规则的组词路径,作为组词候选。其中,所述预置数据集可以包括:字集和所述字集对应的编码单元集,上述字集可用于存储单字,所述输入串在预置数据集的命中情况符合预置条件,一方面,说明所述输入串对应的待组单字包括数字单字和或单位字,使得所述待组单字作为数字单字和或单位字对应的组合;另一方面,所述输入串在预置数据集的命中情况符合预置条件的情况下触发本发明实施例的组词,可以提高所述输入串对应的待组单字的获取效率。进一步,通过组合规则,可以从所述待组单字对应的组词路径中获取合理的组词路径作为组词候选,由此可以提高组词候选的合理性。由于该组合规则用于表征数字单字和或单位字对应的组合规则,该组合规则可以适用于任意的数字单字和或单位字,因此,本发明实施例可以提高组词的成功率。并且,该组合规则可以反映数字单字和或单位字对应的组合规律,从所述待组单字对应的组词路径中获取合法的组词路径作为组词候选,可以提高组词候选的合理性和质量,进而可以提高用户的输入效率。本发明实施例中,上述字集可用于存储单字,可选地,上述字集可以包括:数字单字集、和或单位字集。其中,数字单字集可以包括:数字单字,该数字单字可以为阿拉伯数字对应的某种语言的单字,例如,阿拉伯数字“1”对应的中文单字可以为“一”、“壹”等。作为一种示例,本发明实施例的数字单字集可以包括:“零”、“一”、“二”、“三”、“四”、“五”、“六”、“八”、“九”、“壹”、“贰”、“叁”、“肆”、“伍”、“陆”、“柒”、“捌”、“玖”等。单位字集的例子可以包括:数字单位字集和货币单位字集。其中,数字单位字集可以包括:数字单位字,该数字单位字可用于对数字进行计数。例如,数字单位字可以包括:“个”、“十”、“百”、“千”、“万”、“亿”、“兆”、“京”等。货币单位字集可以包括:货币单位字,该货币单位字可用于对国家规定的货币进行计量。例如,对于中国现代规定的货币而言,货币单位字可以包括:“佰”、“仟”、“万”、“亿”、“圆”、“元”、“角”、“分”、“块”、“毛”、“厘”、“美元”、“英镑”等;对于中国古代规定的货币而言,货币单位字可以包括:“钱”、“贯”、“文”、“两”、“斤”等。可以理解,上述货币单位字集只是作为单位字集的可选实施例,实际上,本领域技术人员可以根据实际应用需求,采用其他单位字集,如体积单位字集包括立方米等、容积单位字集包括升等、土地面积单位包括亩等。需要说明的是,本发明实施例主要以中文为例,对字集进行说明,日文、韩文等其他语言对应的字集,相互参照即可。方法实施例参照图1,示出了本发明的一种组词方法实施例的步骤流程图,具体可以包括如下步骤:步骤101、接收用户的输入串;步骤102、若所述输入串在预置数据集的命中情况符合预置条件,则根据所述输入串获取符合组合规则的组词路径,作为组词候选;其中,所述预置数据集可以包括:字集和所述字集对应的编码单元集。本发明实施例可通过数字相关的组词,实现数字表达的输入。该数字表达可以包括:单位、或者数字和单位的组合。其中,在数字表达包括单位时,数字表达的例子可以包括:“十元”、“百元”等,在数字表达包括数字和单位的组合时,数字表达的例子可以包括:“一亿零八万九千”等。在本发明的一种可选实施例中所述预置条件可以包括:所述输入串对应的切分结果命中所述预置数据集。相应地,判断所述输入串在预置数据集的命中情况是否符合预置条件的过程,可以包括:对所述输入串进行切分,得到对应的切分结果;判断所述输入串对应的切分结果是否命中所述预置数据集。在实际应用中,可以按照输入串的规则,对输入串进行切分。若该输入串为拼音串,则可以按照音节规则进行切分。一个输入串可能具有一种或者多种切分方案,其中的每种切分方案均可以包括一个或多个子串,每个子串可以对应有编码单元。例如,输入串“yiyilingbawanjiuqian”可被切分为“yi’yi’ling’ba’wan’jiu’qian”。根据一种实施例,该输入串的输入意图可以包括:数字表达;如用户欲要通过输入串“yiyilingbawanjiuqian”输入数字表达“一亿零八万九千”。此种情况下,所述输入串对应的切分结果命中所述预置数据集可以包括:每个切分结果分别命中所述预置数据集。根据另一种实施例,在该输入串的输入意图除了包括数字表达之外,还可以包括其他表达。如用户欲要通过输入串“sanshiwuwanba”输入“三十五万吧”,或者,用户欲要输入“总共是七千八百九十一元”,或者,用户欲要通过“wozhonglesanqianwubaiwanrenminbi”输入“我中了叁仟伍佰万人民币”,也即输入串的输入意图除了数字表达外还可以包括其他表达。此种情况下,所述输入串对应的切分结果命中所述预置数据集可以包括:连续的多个切分结果分别命中所述预置数据集。对于全拼输入串而言,本发明实施例可以直接将该全拼输入串中子串与预置数据集中的编码单元进行匹配,若匹配成功,则说明子串命中所述预置数据集;对于简拼输入串而言,本发明实施例可以获取该简拼字符串中子串对应的全拼字符串,然后将该全拼字符串与预置数据集中的编码单元进行匹配,若匹配成功,则说明全拼字符串命中所述预置数据集。本发明实施例中,所述预置数据集可以包括:数字单字和或单位字对应的编码单元,编码单元可由输入法程序对应的编码规则得到,编码单元集可以包括:音节集、五笔单元集等,本发明实施例对于具体的编码单元集不加以限制。以编码单元集为音节集为例,参照表1,示出了本发明实施例的一种音节集与字集之间的映射关系的示例。可以理解,本领域技术人员可以根据实际应用需求,建立音节集与字集之间的映射关系,本发明实施例对于具体的映射关系不加以限制。表1需要说明的是,对于简拼输入串而言,本发明实施例可以获取该简拼字符串中子串对应的全拼音节,具体地,可以按照上述全拼音节集合,获取子串对应的全拼音节。例如子串“y”对应的全拼音节可以包括:“yi”、“yuan”等,又如,子串“s”对应的全拼音节可以包括:“si”、“san”、“shi”等,再如,子串“w”对应的全拼音节可以包括:“wan”、“wu”等,或者,子串“b”对应的全拼音节可以包括:“bai”、“ba”等,或者,子串“j”对应的全拼音节可以包括:“jiu”、“jiao”等,或者,子串“q”对应的全拼音节可以包括:“qi”、“qian”等。如上所述,对所述输入串进行切分,得到对应的切分结果后,依据所述切分结果中包含的子串对应的音节,在编码单元集合如音节集与字集之间的映射关系中进行查找,以得到与所述切分结果相匹配的单字,作为所述输入串对应的待组单字;依据所述输入串对应的待组单字,确定组词路径;获取符合组合规则的组词路径。通过编码单元集合与字集之间的映射关系,获取输入串对应的待组单字,可以缩小待组单字的范围,因此可以在一定程度上降低组词过程中的运算量。在查找与切分结果相匹配的单字的过程中,可能会出现一个子串对应多个单字的情况,该多个单字可以包括:大写数字单字和小写数字单字,小写数字单字可以包括:“一”、“二”、“三”、“四”、“五”、“六”、“八”、“九”等,大写数字单字可以包括:“壹”、“贰”、“叁”、“肆”、“伍”、“陆”、“柒”、“捌”、“玖”等。例如“yi”对应了“一”和“壹”,在本发明的一种可选实施例中,还可以依据输入串对应的上下文确定切分结果对应的单字。具体地,若输入串对应的上下文包括“钱”、“账”等关键词、或者大写数字单字如“壹”至“玖”中的数字单字,则可以认为切分结果对应的单字为大写数字单字。反之,若输入串对应的上下文不包括“钱”、“账”等关键词、或者大写数字单字如“壹”至“玖”中的数字单字,则可以认为切分结果对应的单字为小写数字。需要说明的是,上述待组单字可以包括:单字或者词汇。输入串对应的待组单字可以包括:若干个字词元素,具体地,若干个字词元素可以包括:若干个单字、若干个词汇或者若干个单字和若干个词汇,本发明实施例对于具体的待组单字不加以限制。可选地,上述待组单字可以为:单字序列,该单字序列对应的顺序可以依据输入时间确定,其中,输入时间在先的单字排在输入时间在后的单字之前,例如,输入串“yiyilingbawanjiuqian”对应的单字序列可以包括:“一”、“一”、“零”、“八”、“万”、“九”、“千”。本发明实施例中,所述待组单字可以为单字序列,连续多个单字可以对应单字序列的全部或部分。在连续多个单字对应单字序列的全部的情况下,该输入串的输入意图可以包括:数字表达;如用户欲要通过输入串“yiyilingbawanjiuqian”输入数字表达“一亿零八万九千”,则用户的输入串“yiyilingbawanjiuqian”对应的单字序列可以包括:“一”、“一”、“零”、“八”、“万”、“九”、“千”,该单字序列包括的连续多个单字均命中数字单字集或者单位字集。在连续多个单字对应单字序列的部分的情况下,该输入串的输入意图除了包括数字表达之外,还可以包括其他表达。如用户欲要通过输入串“sanshiwuwanba”输入“三十五万吧”,则用户的输入串“sanshiwuwanba”对应的单字序列可以包括:“三”、“十”、“五”、“万”、“吧”,该单字序列包括的部分连续多个单字命中数字单字集或者单位字集。或者,用户欲要输入“总共是七千八百九十一元”,则其除了数字表达外还可以包括其他表达。在实际应用中,可以按照待组单字对应的单字序列中单字所在的位置、或者单词所在的位置,对不同位置对应的单字或者单词进行组合,以得到待组单字对应的组词路径。具体地,可以将位置1、位置2、位置3…位置nn为正整数对应的多个字词进行组合,以得到待组单字对应的组词路径,如位置1的字词1、位置2的字词1、位置3的字词1…位置n的字词1,或者,位置1的字词2、位置2的字词1、位置3的字词1…位置n的字词1等。本发明实施例对于待组单字对应的组词路径的具体获取过程不加以限制。本发明实施例中,该字集可以包括:数字单字集和单位字集,该组合规则用于表征数字单字和或单位字对应的组合规则,其可以反映数字单字和或单位字对应的组合规律,例如,该组合规则可以包括:单位字之间的组合规则、数字单字和单位字之间的组合规则等。可以理解,本领域技术人员可以根据某种语言的数字表达需求,采用对应的组合规则。本发明实施例可以提供如下组合规则,本领域技术人员可以根据实际应用需求,采用如下组合规则中的任一或者多个进行组合:规则1、所述组词路径包括第一数字单位字,所述组词路径在所述首个第一数字单位字之前、相邻的第一数字单位字之间、或者尾个第一数字单位字之后包括的第二数字单位组的数量不超过1。规则2、第一数字单位字不位于所述组词路径的首位。规则3、若第一数字单位字与第二数字单位字相邻,或者,两个第一数字单位字相邻,则在前的数字单位小于在后的数字单位。规则4、所述组词路径的第二数字单位组包括的第二数字单位字呈现从大数字单位到小数字单位的顺序。规则5、所述组词路径的第二数字单位组包括的任意两个第二数字单位字不相邻。规则6、当所述组词路径的第二数字单位组包括的第二数字单位字出现数字单位间断时,对应的数字单位间断位置出现1个零。规则7、当所述组词路径在相邻的第一数字单位字之间不存在第二数字单位组和数字时,在后的第一数字单位字省略。规则8、所述组词路径包括的零位于非末尾位置。规则9、所述组词路径包括的零对应的前一个单字不为数字单字,所述待组单字对应的组词路径包括的零对应的后一个单字为数字单字或者货币单位字。规则10、所述组词路径的首位为拾或者十,第二位不为拾、十、百、佰、仟、千、整或者零。规则11、所述组词路径的货币单位组在所述组词路径中的出现次数不超过1。规则12、数字单位字位于所述组词路径中货币单位组的前面。规则13、所述组词路径的货币单位组包括的货币单位字呈现从大到小的顺序。规则14、所述组词路径的货币单位组包括的货币单位字不相邻。规则15、所述组词路径的货币单位组包括第一货币单位字,所述第一货币单位字的前一个单字为数字单字。规则16、所述组词路径包括的数字单字不相邻。规则17、所述组词路径包括的整位于末尾位置,整的前一个单字为元。在实际应用中,可以对组词路径进行遍历,以得到组词路径包括的各个单字、以及单字在组词路径中的位置。进一步,可以针对组词路径包括的各个单字,判断其是否符合上述规则1至规则16中的任一或者组合。本发明实施例的单字可以包括:数字单字、数字单位字、或者货币单位字。为了方便描述,本发明实施例的数字单位字可以包括:第一数字单位字和第二数字单位字。其中,第二数字单位字可以包括:拾十、佰百、仟千等数字单位较小的数字单位字,第二数字单位字可以对应有第二数字单位组,该第二数字单位组可以包括:至少一个第二数字单位字,该第二数字单位组包括的第二数字单位字呈现从大数字单位到小数字单位的顺序,如仟千、佰百、拾十对应的顺序,或者,仟千、拾十对应的顺序,或者,佰百、拾十对应的顺序等。第一数字单位字可以包括:亿、万、京、兆等数字单位较大的数字单位字。规则1适用于所述组词路径包括第一数字单位字的情形,在此情形下,所述组词路径在所述首个第一数字单位字之前、相邻的第一数字单位字之间、或者尾个第一数字单位字之后包括的第二数字单位组的数量不超过1,本发明实施例中,数量不超过1可以包括:数量为0或者1。对于亿、万、京、兆等数字单位较大的数字单位而言,其前面通常包括数字,因此规则2可以对应第一数字单位字不位于所述组词路径的首位。对于规则3,若第一数字单位字与第二数字单位字相邻,或者,两个第一数字单位字相邻,则说明在前的数字单位用于限定在后的数字单位,故在前的数字单位小于在后的数字单位,对应的示例可以包括:“一万亿”、“一千亿”、“一千万”等。规则4至规则7为第二数字单位组对应的规则。其中,规则4具体为,所述组词路径的第二数字单位组包括的第二数字单位字呈现从大数字单位到小数字单位的顺序。规则5具体为,所述组词路径的第二数字单位组包括的任意两个第二数字单位字不相邻,如拾十、佰百、仟千中的任意两个不相邻。规则6具体为,当所述组词路径的第二数字单位组包括的第二数字单位字出现数字单位间断时,对应的数字单位间断位置出现1个零。其中,数字单位间断是指第二数字单位组存在,但第二数字单位组包括的第二数字单位字不完整或者包括的第二数字单位字存在缺失。其中,完整的第二数字单位组可以包括:x佰x佰x拾,其中,不完整的第二数字单位组可以包括:x千x百、x仟x拾、x佰x拾、x仟、x佰、x拾等,其中,“x”表示与第二数字单位字搭配的数字单位字。本发明实施例在组词路径的第二数字单位组包括的第二数字单位字出现数字单位间断的情况下,规定对应的数字单位间断位置出现1个零,尤其可以提高数字表达的合理性。如在“亿”和“万”之间,“仟”存在缺失,故可以在对应的位置出现零,如“一亿零两佰二十五万”。在实际应用中,第二数字单位组中任意一个数字单位不存在,对应的数字单位间断位置可以出现1个零。在本发明的一种可选实施例中,所述组词路径的第二数字单位组包括的第二数字单位字出现数字单位间断时,对应的数字单位间断位置出现1个零,具体可以包括:所述组词路径中首个第一数字单位字之前的第二数字单位组中大数字单位存在、且小数字单位存在间断时,对应的数字单位间断位置出现1个零;例如,首个第一数字单位字为“亿”,相应的示例可以包括:“一千零一十一亿”、“一千零一亿”、“一千零一万”等。所述组词路径的第二数字单位组中存在数字单位、且多个连续数字单位不存在时,对应的数字单位间断位置出现1个零。需要说明的是,当所述组词路径的第二数字单位组中不存在数字单位时,说明第二数字单位组不存在,对应的数字单位间断位置可以不出现零。如“一亿元整”,在“亿”之后出现0个第二数字单位组,故可以不出现零。需要说明的是,但所述组词路径的第二数字单位组中多个不连续数字单位不存在时,对应的数字单位间断位置均出现1个零。规则7可用于约束省略第一数字单位字的情况,当所述组词路径在相邻的第一数字单位字之间不存在第二数字单位组和数字时,在后的第一数字单位字省略。例如,“亿”和“万”之间不存在第二数字单位组和数字,“万”字可以省略。例如,对于300020000“三亿零二万”,“亿”和“万”之间不存在但数字存在,“万”不省略。而对于300002000“三亿零二千”或“三亿两千”,“亿”和“万”之间不存在第二数字单位组和数字,需省略“万”,零可省略或者不省略。对于规则8,零右侧再无内容时,零省略。对于规则9,所述组词路径包括的零对应的前一个单字不为数字单字,如“一零”在数字表达中是不合法的。或者,所述待组单字对应的组词路径包括的零对应的后一个单字为数字单字或者货币单位字。例如,“一万零一元”、“零元四角一分”是合法的。对于规则10,当所述组词路径的首位为拾或者十时,第二位不为拾、十、百、佰、仟、千、整或者零。规则11至规则15用于约束货币单位组。对于规则11,所述组词路径的货币单位组在所述组词路径中的出现次数不超过1。对于人民币而言,完整的货币单位组可以包括:x元x角x分,该货币单位组可以不完整。对于规则12,数字单位字位于所述组词路径中货币单位组的前面,额预计,无论对于拾十、佰百、仟千等数字单位较小的数字单位字,还是对于亿、万、京、兆等数字单位较大的数字单位字,其均位于所述组词路径中货币单位组的前面。对于规则13,所述组词路径的货币单位组包括的货币单位字呈现从大到小的顺序。对于规则14,所述组词路径的货币单位组包括的货币单位字不相邻。对于规则15,所述组词路径的货币单位组包括第一货币单位字,所述第一货币单位字的前一个单字为数字单字。如角、分之前有且仅有一个数字单字。在此通过人民币对货币单位组对应的组合规则进行说明。1货币单位组元、角、分在组词路径中仅可存在一次;2数字单位必须在货币单位组之前即货币单位组后面不可以在出现任何数字单位;3货币单位组内部排序需从大到小;4货币单位组内部不可相邻;5角、分之前有且仅有一个数字单字。对于规则16,所述组词路径包括的数字单字不相邻,如“一”至“九”中的任意两个数字单字不相邻。在此提供符合组合规则的数字表达的示例:数字单位字数字单字组合+元+数字单字+角+数字单字非零+分数字单位字数字单字组合+元+数字单字非零+角数字单位字数字单字组合+元+数字单字非零+分数字单位字数字单字组合+元或“元整”数字单字或“拾”+角+数字单字非零+分组词完全匹配数字单字或“拾”+角数字单字或“拾”+分在本发明的一种实施例中,第一数字单位字包括:亿或者万,其中,第一个第一数字单位字之前,可出现0组或1组第二数字单位组,出现的1组第二数字单位组呈现从大数字单位到小数字单位的顺序,第二数字单位组内部大数字单位存在、且小数字单位存在间断时,对应的数字单位间断位置出现1个零;例如,首个第一数字单位字为“亿”,相应的示例可以包括:“一千零一十一亿”、“一千零一亿”、“一千零一万”等。在本发明的一种实施例中,第一数字单位字包括:亿或者万,其中,最后一个数字单位字之后,可出现0组或1组第二数字单位组,出现的1组第二数字单位组呈现从大数字单位到小数字单位的顺序,第二数字单位组内部任意一个数字单位不存在时,对应的数字单位间断位置出现1个零;多个连续数字单位不存在时,对应的数字单位间断位置出现1个零;“零”右侧再无内容时,“零”省略;多个不连续数字单位不存在时,采用多个“零”代替。相应的示例可以包括:“三亿零二百”、或者“三万零二百”等。在本发明的一种实施例中,第一数字单位字包括:亿或者万,所述组合规则可以包括:所述组词路径包括亿和万,万位于亿之前,万和亿之间包括的第二数字单位组的数量不超过1;当万和亿之间存在第二数字单位组时,万和亿之间的第二数字单位组所包括的第二数字单位字呈现从大数字单位到小数字单位的顺序,万和亿之间的第二数字单位组所包括的任意两个第二数字单位字不相邻,万和亿之间的第二数字单位组所包括的第二数字单位字出现数字单位间断时,对应的数字单位间断位置出现1个零;或者当万和亿之间不存在第二数字单位组和数字时,万和亿之间不出现零,如“一万亿两千元”。其中,第二数字单位组所包括的第二数字单位字出现数字单位间断的情况可以包括:第二数字单位组内部任意一个数字单位不存在时,对应的数字单位间断位置出现1个零;多个连续数字单位不存在时,对应的数字单位间断位置出现1个零;多个不连续数字单位不存在时,采用多个“零”代替。在本发明的一种实施例中,第一数字单位字包括:亿或者万,所述组合规则可以包括:所述组词路径包括亿和万,亿位于万之前,亿和万之间不存在第二数字单位组和数字时,万省略。进一步,所述组词路径包括亿和万,亿位于万之前,亿和万之间存在第二数字单位组时,万和亿之间的第二数字单位组所包括的第二数字单位字呈现从大数字单位到小数字单位的顺序,万和亿之间的第二数字单位组所包括的任意两个第二数字单位字不相邻,万和亿之间的第二数字单位组所包括的第二数字单位字出现数字单位间断时,对应的数字单位间断位置出现1个零。在本发明的一种实施例中,第一数字单位字包括:亿或者万,所述组合规则包括:所述组词路径不包括亿,所述组词路径中万的出现次数不超过1。也即,在组词路径不包括“亿”时,最多只能有一个“万”。具体地,在“万”之前,可出现0组或1组第二数字单位组,出现的1组第二数字单位组呈现从大数字单位到小数字单位的顺序,第二数字单位组内部大数字单位存在、且小数字单位存在间断时,对应的数字单位间断位置出现1个零;例如,首个第一数字单位字为“万”,相应的示例可以包括:“一千零一十一万”、“一千零一万”等。在“万”之后,可出现0组或1组第二数字单位组,出现的1组第二数字单位组呈现从大数字单位到小数字单位的顺序,第二数字单位组内部任意一个数字单位不存在时,对应的数字单位间断位置出现1个零;多个连续数字单位不存在时,对应的数字单位间断位置出现1个零;“零”右侧再无内容时,“零”省略;多个不连续数字单位不存在时,采用多个“零”代替。在所述组词路径不包括“万”的情况下,可出现0组或1组第二数字单位组,出现的1组第二数字单位组呈现从大数字单位到小数字单位的顺序,第二数字单位组内部任意一个数字单位不存在时,对应的数字单位间断位置出现1个零;多个连续数字单位不存在时,对应的数字单位间断位置出现1个零;“零”右侧再无内容时,“零”省略;多个不连续数字单位不存在时,采用多个“零”代替。在实际应用中,本领域技术人员可以根据实际应用需求,采用上述组合规则中的任一或者组合,对组词路径进行筛选,并将符合上述组合规则的组词路径作为组词候选。其中,在采用上述组合规则中的组合的情况下,本发明实施例对于多个组合规则的使用顺序不加以限制。通过上述上述组合规则可以对同音单字所在的组词路径进行筛选,以同音字“壹”和“亿”为例,如果同音字位于首位,可以通过规则2过滤掉“亿”,保留“壹”;或者,如果同音字位于非首位,可以通过规则16任何数字单字壹-玖均不可与“壹”相邻对“壹”进行筛选。在本发明的其他实施例中,如果同音字对应的音节“yi”在末尾或后面的相邻音节是“yuan”,且满足上面两个条件,则可保留“壹”和“亿”。在实际应用中,可以将步骤103得到的组词候选与输入串对应的其他候选项如直接从词库中得到的候选项、或者从多元库中得到的候选项等进行展现。可选地,可以对该组词候选进行标记展示,以标识某个候选为组词候选,例如可以对该组词候选进行高亮展示,或者,可以在该组词候选的右上角添加对应的图标等。在将组词候选与输入串对应的其他候选项进行展现之前,还可以对组词候选与输入串对应的其他候选项进行排序和或去重处理。参照图2,示出了本发明实施例的一种输入界面的示意,其中,输入法程序可以针对输入串“sanshiwuwanba”提供候选项,其中,组词候选“三十五万吧”符合组合规则,“三拾五万八”和“叁拾五万捌”不符合组合规则。综上,本发明实施例的组词方法,在待组单字包括的单字对于字集的命中情况符合预置条件的情况下,从所述待组单字对应的组词路径中获取符合组合规则的组词路径,作为组词候选。由于该组合规则用于表征数字单字和或单位字对应的组合规则,该组合规则可以适用于任意的数字单字和或单位字,因此,本发明实施例可以提高组词的成功率。并且,该组合规则可以反映数字单字和或单位字对应的组合规律,从所述待组单字对应的组词路径中获取合法的组词路径作为组词候选,可以提高组词候选的合理性和质量,进而可以提高用户的输入效率。并且,相对于传统技术通过多元库存储多元关系,本发明实施例可以通过字集实现,故可以节省存储空间。另外,本发明实施例可以得到所有符合组合规则的组词候选,可以提高组词候选的覆盖率。进一步,本发明实施例可以适用于任意长度的数字表达,即使用户欲要输入的数字表达的长度较大如大于10的“五百零八亿一千二百万九千六百一十八元五角”,也可以成功地组词。参照图3,示出了本发明的一种组词方法实施例的步骤流程图,具体可以包括如下步骤:步骤301、接收用户的输入串;步骤302、若所述输入串在预置数据集的命中情况符合预置条件,则根据所述输入串获取符合组合规则的组词路径,作为组词候选;其中,所述预置数据集可以包括:字集和所述字集对应的编码单元集;相对于图1所示方法实施例,本发明实施例的方法实施例还可以包括:步骤303、依据组词路径中同音出现的位置,对所述输入串对应的多个组词路径进行排序。在实际应用中,输入串对应的待组单字可能包括同音单字,其中,同音单字可以为全拼输入串对应的同音单字,或者,同音单字可以为简拼输入串对应的同音单字。本发明实施例可以依据组词路径中同音出现的位置,对所述输入串对应的多个组词路径进行排序。在同音出现的位置为首位的情况下,以同音字“壹”和“亿”为例,如果同音字位于首位,可以通过前述的规则2过滤掉“亿”,保留“壹”。在同音出现的位置为非首位的情况下,可以通过前述的规则16任何数字单字壹-玖均不可与“壹”相邻对“壹”进行筛选。在本发明的其他实施例中,如果同音字对应的音节“yi”在末尾或后面的相邻音节是“yuan”,且满足上述规则2和规则16,则可保留“壹”和“亿”。在同音出现的位置为末尾的情况下,相应的排序规则具体可以包括:元的优先级高于亿,亿的优先级高于壹或一;或者拾或十的优先级高于叁或三,叁或三的优先级高于肆或四;或者角的优先级高于玖或九;或者仟或千的优先级高于柒或者七;或者佰或百的优先级高于捌或八;或者万的优先级高于伍或五。在实际应用中,输入串的末尾可能包括简拼的子串,参照表2,示出了简拼的子串、全拼音节与单字优先级之间的映射关系的示意。表2简拼的子串全拼音节单字优先级yyi,yuan元亿壹ssi,san,shi拾叁肆jjiao,jiu角玖qqian,qi仟柒bba,bai佰捌wwan,wu万伍通过上述同音规则,可以将优先级较高的单字所在的组词路径排在优先级较低的单字所在的组词路径的前面,由此可以优先将排在前面的组词路径作为组词候选。需要说明的是,本发明实施例对于步骤302和步骤303的执行顺序不加以限制,二者先后、后先或者并列执行。在此提供实施例本发明的一种组词方法示例的步骤流程图,具体可以包括如下步骤:步骤S1、接收用户的输入串;步骤S2、对所述输入串进行切分,得到对应的切分结果;判断所述输入串对应的切分结果是否命中所述预置数据集;步骤S3、若所述输入串对应的切分结果命中所述预置数据集所述包括的单字对于的命中情况符合预置条件,则依据所述切分结果,在编码单元集与字集之间的映射关系中进行查找,以得到与所述切分结果相匹配的单字,作为所述输入串对应的待组单字;依据所述输入串对应的待组单字,确定组词路径,并判断所述组词路径中是否包含“亿”,若是,则执行步骤S4,否则执行步骤S5;步骤S4、判断“亿”、“亿”之前、“亿”与“万”之间、“万”与“亿”之间、以及作为最后一个第一数字单位字的“亿”之后的单字包括第二数字单位字、数字单字和货币单位字是否符合组合规则,若是,则执行步骤S8,否则丢弃该组词路径;步骤S5、判断所述待组单字对应的组词路径中是否包含“万”,若是,则执行步骤S6,否则执行步骤S7;步骤S6、判断“万”、“万”之前、“万”之后的单字包括第二数字单位字、数字单字和货币单位字是否符合组合规则,若是,则执行步骤S8,否则丢弃该组词路径;步骤S7、判断第二数字单位字、数字单字和货币单位字是否符合组合规则,若是,则执行步骤S8,否则丢弃该组词路径;步骤S8、将符合组合规则作为组词候选。需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的运动动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的运动动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的运动动作并不一定是本发明实施例所必须的。装置实施例参照图4,示出了本发明的一种组词装置实施例的结构框图,具体可以包括:输入串接收模块401,用于接收用户的输入串;以及组词候选获取模块402,用于若所述输入串在预置数据集的命中情况符合预置条件,则根据所述输入串获取符合组合规则的组词路径,作为组词候选;其中,所述预置数据集包括:字集和所述字集对应的编码单元集。可选地,所述装置还可以包括:判断模块,用于判断所述输入串在预置数据集的命中情况是否符合预置条件:所述判断模块,可以包括:切分子模块,用于对所述输入串进行切分,得到对应的切分结果;判断子模块,用于判断所述输入串对应的切分结果是否命中所述预置数据集。可选地,所述组词候选获取模块402可以包括:查找子模块,用于依据所述切分结果,在编码单元集与字集之间的映射关系中进行查找,以得到与所述切分结果相匹配的单字,作为所述输入串对应的待组单字;路径确定子模块,用于依据所述输入串对应的待组单字,确定组词路径;路径获取子模块,用于获取符合组合规则的组词路径。可选地,所述装置还可以包括:单字确定模块,用于依据所述输入串对应的上下文,确定所述切分结果对应的单字。可选地,所述字集可以包括:数字单字集和单位字集,所述组合规则用于表征数字单字和或单位字对应的组合规则。可选地,所述组合规则可以包括:所述组词路径包括第一数字单位字,所述组词路径在所述首个第一数字单位字之前、相邻的第一数字单位字之间、或者尾个第一数字单位字之后包括的第二数字单位组的数量不超过1;和或第一数字单位字不位于所述组词路径的首位;和或若第一数字单位字与第二数字单位字相邻,或者,两个第一数字单位字相邻,则在前的数字单位小于在后的数字单位;和或所述组词路径的第二数字单位组包括的第二数字单位字呈现从大数字单位到小数字单位的顺序;和或所述组词路径的第二数字单位组包括的任意两个第二数字单位字不相邻;和或当所述组词路径的第二数字单位组包括的第二数字单位字出现数字单位间断时,对应的数字单位间断位置出现1个零;和或当所述组词路径在相邻的第一数字单位字之间不存在第二数字单位组和数字时,在后的第一数字单位字省略;和或所述组词路径包括的零位于非末尾位置;和或所述组词路径包括的零对应的前一个单字不为数字单字,或者,所述待组单字对应的组词路径包括的零对应的后一个单字为数字单字或者货币单位字;和或所述组词路径的首位为拾或者十,第二位不为拾、十、百、佰、仟、千、整或者零;和或所述组词路径的货币单位组在所述组词路径中的出现次数不超过1;和或数字单位字位于所述组词路径中货币单位组的前面;和或所述组词路径的货币单位组包括的货币单位字呈现从大到小的顺序;和或所述组词路径的货币单位组包括的货币单位字不相邻;和或所述组词路径的货币单位组包括第一货币单位字,所述第一货币单位字的前一个单字为数字单字;和或所述组词路径包括的数字单字不相邻;和或所述组词路径包括的整位于末尾位置,整的前一个单字为元。可选地,所述组词路径的第二数字单位组包括的第二数字单位字出现数字单位间断时,对应的数字单位间断位置出现1个零,包括:所述组词路径中首个第一数字单位字之前的第二数字单位组中大数字单位存在、且小数字单位存在间断时,对应的数字单位间断位置出现1个零;和或所述组词路径的第二数字单位组中存在数字单位、且多个连续数字单位不存在时,对应的数字单位间断位置出现1个零。可选地,第一数字单位字可以包括:亿或者万,所述组合规则可以包括:所述组词路径包括亿和万,万位于亿之前,万和亿之间包括的第二数字单位组的数量不超过1;当万和亿之间存在第二数字单位组时,万和亿之间的第二数字单位组所包括的第二数字单位字呈现从大数字单位到小数字单位的顺序,万和亿之间的第二数字单位组所包括的任意两个第二数字单位字不相邻,万和亿之间的第二数字单位组所包括的第二数字单位字出现数字单位间断时,对应的数字单位间断位置出现1个零;或者当万和亿之间不存在第二数字单位组和数字时,万和亿之间不出现零。可选地,第一数字单位字可以包括:亿或者万,所述组合规则可以包括:所述组词路径包括亿和万,亿位于万之前,亿和万之间不存在第二数字单位组和数字时,万省略。可选地,第一数字单位字可以包括:亿或者万,所述组合规则可以包括:所述组词路径不包括亿,所述组词路径中万的出现次数不超过1。可选地,所述装置还可以包括:排序模块,用于依据组词路径中同音出现的位置,对所述输入串对应的多个组词路径进行排序。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。本发明实施例还提供了一种用于组词的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:接收用户的输入串;若所述输入串在预置数据集的命中情况符合预置条件,则根据所述输入串获取符合组合规则的组词路径,作为组词候选;其中,所述预置数据集包括:字集和所述字集对应的编码单元集。可选地,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:对所述输入串进行切分,得到对应的切分结果;判断所述输入串对应的切分结果是否命中所述预置数据集。可选地,所述根据所述输入串获取符合组合规则的组词路径,包括:依据所述切分结果,在编码单元集与字集之间的映射关系中进行查找,以得到与所述切分结果相匹配的单字,作为所述输入串对应的待组单字;依据所述输入串对应的待组单字,确定组词路径;获取符合组合规则的组词路径。可选地,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:依据所述输入串对应的上下文,确定所述切分结果对应的单字。可选地,所述字集包括:数字单字集和单位字集,所述组合规则用于表征数字单字和或单位字对应的组合规则。可选地,所述组合规则包括:所述组词路径在所述首个第一数字单位字之前、相邻的第一数字单位字之间、或者尾个第一数字单位字之后包括的第二数字单位组的数量不超过1;和或第一数字单位字不位于所述组词路径的首位;和或若第一数字单位字与第二数字单位字相邻,或者,两个第一数字单位字相邻,则在前的数字单位小于在后的数字单位;和或所述组词路径的第二数字单位组包括的第二数字单位字呈现从大数字单位到小数字单位的顺序;和或所述组词路径的第二数字单位组包括的任意两个第二数字单位字不相邻;和或当所述组词路径的第二数字单位组包括的第二数字单位字出现数字单位间断时,对应的数字单位间断位置出现1个零;和或当所述组词路径在相邻的第一数字单位字之间不存在第二数字单位组和数字时,在后的第一数字单位字省略;和或所述组词路径包括的零位于非末尾位置;和或所述组词路径包括的零对应的前一个单字不为数字单字,或者,所述待组单字对应的组词路径包括的零对应的后一个单字为数字单字或者货币单位字;和或所述组词路径的首位为拾或者十,第二位不为拾、十、百、佰、仟、千、整或者零;和或所述组词路径的货币单位组在所述组词路径中的出现次数不超过1;和或数字单位字位于所述组词路径中货币单位组的前面;和或所述组词路径的货币单位组包括的货币单位字呈现从大到小的顺序;和或所述组词路径的货币单位组包括的货币单位字不相邻;和或所述组词路径的货币单位组包括第一货币单位字,所述第一货币单位字的前一个单字为数字单字;和或所述组词路径包括的数字单字不相邻;和或所述组词路径包括的整位于末尾位置,整的前一个单字为元。可选地,所述组词路径的第二数字单位组包括的第二数字单位字出现数字单位间断时,对应的数字单位间断位置出现1个零,包括:所述组词路径中首个第一数字单位字之前的第二数字单位组中大数字单位存在、且小数字单位存在间断时,对应的数字单位间断位置出现1个零;和或所述组词路径的第二数字单位组中存在数字单位、且多个连续数字单位不存在时,对应的数字单位间断位置出现1个零。可选地,第一数字单位字包括:亿或者万,所述组合规则包括:所述组词路径包括亿和万,万位于亿之前,万和亿之间包括的第二数字单位组的数量不超过1;当万和亿之间存在第二数字单位组时,万和亿之间的第二数字单位组所包括的第二数字单位字呈现从大数字单位到小数字单位的顺序,万和亿之间的第二数字单位组所包括的任意两个第二数字单位字不相邻,万和亿之间的第二数字单位组所包括的第二数字单位字出现数字单位间断时,对应的数字单位间断位置出现1个零;或者当万和亿之间不存在第二数字单位组和数字时,万和亿之间不出现零。可选地,第一数字单位字包括:亿或者万,所述组合规则包括:所述组词路径包括亿和万,亿位于万之前,亿和万之间不存在第二数字单位组和数字时,万省略。可选地,第一数字单位字包括:亿或者万,所述组合规则包括:所述组词路径不包括亿,所述组词路径中万的出现次数不超过1。可选地,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:依据组词路径中同音出现的位置,对所述输入串对应的多个组词路径进行排序。图5是根据一示例性实施例示出的一种用于组词的装置作为终端时的框图。例如,终端900可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。参照图5,终端900可以包括以下一个或多个组件:处理组件902,存储器904,电源组件906,多媒体组件908,音频组件910,输入输出IO的接口912,传感器组件914,以及通信组件916。处理组件902通常控制终端900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理组件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。存储器904被配置为存储各种类型的数据以支持在终端900的操作。这些数据的示例包括用于在终端900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器SRAM,电可擦除可编程只读存储器EEPROM,可擦除可编程只读存储器EPROM,可编程只读存储器PROM,只读存储器ROM,磁存储器,快闪存储器,磁盘或光盘。电源组件906为终端900的各种组件提供电力。电源组件906可以包括电源管理系统,一个或多个电源,及其他与为终端900生成、管理和分配电力相关联的组件。多媒体组件908包括在所述终端900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器LCD和触摸面板TP。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动运动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和或后置摄像头。当终端900处于操作模式,如拍摄模式或视频模式时,前置摄像头和或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。音频组件910被配置为输出和或输入音频信号。例如,音频组件910包括一个麦克风MIC,当终端900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。IO接口912为处理组件902和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。传感器组件914包括一个或多个传感器,用于为终端900提供各个方面的状态评估。例如,传感器组件914可以检测到终端900的打开关闭状态,组件的相对定位,例如所述组件为终端900的显示器和小键盘,传感器组件914还可以检测终端900或终端900一个组件的位置改变,用户与终端900接触的存在或不存在,终端900方位或加速减速和终端900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。通信组件916被配置为便于终端900和其他设备之间有线或无线方式的通信。终端900可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件916还包括近场通信NFC模块,以促进短程通信。例如,在NFC模块可基于射频识别RFID技术,红外数据协会IrDA技术,超宽带UWB技术,蓝牙BT技术和其他技术来实现。在示例性实施例中,终端900可以被一个或多个应用专用集成电路ASIC、数字信号处理器DSP、数字信号处理设备DSPD、可编程逻辑器件PLD、现场可编程门阵列FPGA、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器904,上述指令可由终端900的处理器920执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器RAM、CD-ROM、磁带、软盘和光数据存储设备等。图6是根据一示例性实施例示出的一种用于组词的装置作为服务器时的框图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器centralprocessingunits,CPU1922例如,一个或一个以上处理器和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930例如一个或一个以上海量存储设备。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块图示没标出,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和或,一个或一个以上操作系统1941,例如WindowsServerTM,MacOSXTM,UnixTM,LinuxTM,FreeBSDTM等等。在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1932,上述指令可由服务器1900的处理器执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器RAM、CD-ROM、磁带、软盘和光数据存储设备等。一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置终端或者服务器的处理器执行时,使得装置能够执行一种组词方法,所述方法包括:接收用户的输入串;若所述输入串在预置数据集的命中情况符合预置条件,则根据所述输入串获取符合组合规则的组词路径,作为组词候选;其中,所述预置数据集包括:字集和所述字集对应的编码单元集。本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。以上对本发明所提供的一种组词方法、一种组词装置、一种用于组词的装置、以及一种机器可读介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

权利要求:1.一种组词方法,其特征在于,包括:接收用户的输入串;若所述输入串在预置数据集的命中情况符合预置条件,则根据所述输入串获取符合组合规则的组词路径,作为组词候选;其中,所述预置数据集包括:字集和所述字集对应的编码单元集。2.根据权利要求1所述的方法,其特征在于,通过如下步骤判断所述输入串在预置数据集的命中情况是否符合预置条件:对所述输入串进行切分,得到对应的切分结果;判断所述输入串对应的切分结果是否命中所述预置数据集。3.根据权利要求2所述的方法,其特征在于,所述根据所述输入串获取符合组合规则的组词路径,包括:依据所述切分结果,在编码单元集与字集之间的映射关系中进行查找,以得到与所述切分结果相匹配的单字,作为所述输入串对应的待组单字;依据所述输入串对应的待组单字,确定组词路径;获取符合组合规则的组词路径。4.根据权利要求2所述的方法,其特征在于,所述方法还包括:依据所述输入串对应的上下文,确定所述切分结果对应的单字。5.根据权利要求1所述的方法,其特征在于,所述字集包括:数字单字集和单位字集,所述组合规则用于表征数字单字和或单位字对应的组合规则。6.根据权利要求1至5中任一所述的方法,其特征在于,所述组合规则包括:所述组词路径在所述首个第一数字单位字之前、相邻的第一数字单位字之间、或者尾个第一数字单位字之后包括的第二数字单位组的数量不超过1;和或第一数字单位字不位于所述组词路径的首位;和或若第一数字单位字与第二数字单位字相邻,或者,两个第一数字单位字相邻,则在前的数字单位小于在后的数字单位;和或所述组词路径的第二数字单位组包括的第二数字单位字呈现从大数字单位到小数字单位的顺序;和或所述组词路径的第二数字单位组包括的任意两个第二数字单位字不相邻;和或当所述组词路径的第二数字单位组包括的第二数字单位字出现数字单位间断时,对应的数字单位间断位置出现1个零;和或当所述组词路径在相邻的第一数字单位字之间不存在第二数字单位组和数字时,在后的第一数字单位字省略;和或所述组词路径包括的零位于非末尾位置;和或所述组词路径包括的零对应的前一个单字不为数字单字,或者,所述待组单字对应的组词路径包括的零对应的后一个单字为数字单字或者货币单位字;和或所述组词路径的首位为拾或者十,第二位不为拾、十、百、佰、仟、千、整或者零;和或所述组词路径的货币单位组在所述组词路径中的出现次数不超过1;和或数字单位字位于所述组词路径中货币单位组的前面;和或所述组词路径的货币单位组包括的货币单位字呈现从大到小的顺序;和或所述组词路径的货币单位组包括的货币单位字不相邻;和或所述组词路径的货币单位组包括第一货币单位字,所述第一货币单位字的前一个单字为数字单字;和或所述组词路径包括的数字单字不相邻;和或所述组词路径包括的整位于末尾位置,整的前一个单字为元。7.根据权利要求6所述的方法,其特征在于,所述组词路径的第二数字单位组包括的第二数字单位字出现数字单位间断时,对应的数字单位间断位置出现1个零,包括:所述组词路径中首个第一数字单位字之前的第二数字单位组中大数字单位存在、且小数字单位存在间断时,对应的数字单位间断位置出现1个零;和或所述组词路径的第二数字单位组中存在数字单位、且多个连续数字单位不存在时,对应的数字单位间断位置出现1个零。8.根据权利要求6所述的方法,其特征在于,第一数字单位字包括:亿或者万,所述组合规则包括:所述组词路径包括亿和万,万位于亿之前,万和亿之间包括的第二数字单位组的数量不超过1;当万和亿之间存在第二数字单位组时,万和亿之间的第二数字单位组所包括的第二数字单位字呈现从大数字单位到小数字单位的顺序,万和亿之间的第二数字单位组所包括的任意两个第二数字单位字不相邻,万和亿之间的第二数字单位组所包括的第二数字单位字出现数字单位间断时,对应的数字单位间断位置出现1个零;或者当万和亿之间不存在第二数字单位组和数字时,万和亿之间不出现零。9.根据权利要求6所述的方法,其特征在于,第一数字单位字包括:亿或者万,所述组合规则包括:所述组词路径包括亿和万,亿位于万之前,亿和万之间不存在第二数字单位组和数字时,万省略。10.根据权利要求6所述的方法,其特征在于,第一数字单位字包括:亿或者万,所述组合规则包括:所述组词路径不包括亿,所述组词路径中万的出现次数不超过1。11.根据权利要求1至5中任一所述的方法,其特征在于,所述方法还包括:依据组词路径中同音出现的位置,对所述输入串对应的多个组词路径进行排序。12.一种组词装置,其特征在于,包括:输入串接收模块,用于接收用户的输入串;以及组词候选获取模块,用于若所述输入串在预置数据集的命中情况符合预置条件,则根据所述输入串获取符合组合规则的组词路径,作为组词候选;其中,所述预置数据集包括:字集和所述字集对应的编码单元集。13.一种用于组词的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:接收用户的输入串;若所述输入串在预置数据集的命中情况符合预置条件,则根据所述输入串获取符合组合规则的组词路径,作为组词候选;其中,所述预置数据集包括:字集和所述字集对应的编码单元集。14.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至11中一个或多个所述的组词方法。

百度查询: 北京搜狗科技发展有限公司 组词方法和装置、用于组词的装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。