首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于结构属性的乌金体藏文古籍字符切分方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西北民族大学

摘要:本发明公开了一种基于结构属性的乌金体藏文古籍字符切分方法及系统,涉及民族语言信息化处理技术领域,包括对获取的乌金体藏文文本行进行粗切分处理,得到多个字符区块;确定每个字符区块的宽度;采用连通域分析算法对满足第一要求的字符区块进行字符切分;对满足第二要求的字符区块内的各笔画进行归属处理以完成字符切分;对满足第三要求的字符区块进行多字符切分;第一要求为字符区块的宽度小于第一宽度;第二要求为字符区块的宽度大于等于第一宽度且字符区块的宽度小于第二宽度;第三要求为字符区块的宽度大于等于第二宽度。本发明能够对乌金体藏文古籍字符进行精确切分。

主权项:1.一种基于结构属性的乌金体藏文古籍字符切分方法,其特征在于,包括:获取乌金体藏文文本行;对所述乌金体藏文文本行进行粗切分处理,得到多个字符区块;确定每个所述字符区块的宽度;当所述字符区块满足第一要求时,采用连通域分析算法对满足所述第一要求的字符区块进行字符切分;所述第一要求为所述字符区块的宽度小于第一宽度;当所述字符区块满足第二要求时,对满足所述第二要求的字符区块内的各笔画进行归属处理以完成字符切分;所述第二要求为所述字符区块的宽度大于等于所述第一宽度且所述字符区块的宽度小于第二宽度;当所述字符区块满足第三要求时,对满足所述第三要求的字符区块进行多字符切分;所述第三要求为所述字符区块的宽度大于等于所述第二宽度;所述当所述字符区块满足第三要求时,对满足所述第三要求的字符区块进行多字符切分,具体包括:确定满足所述第三要求的字符区块的局部基线位置,并在所述局部基线位置上将满足所述第三要求的字符区块水平切分为基线上方部和基线下方部;确定所述基线上方部内各笔画的粘连类型、粘连数量以及粘连位置;基于满足所述第三要求的字符区块的局部基线位置、所述基线上方部内各笔画以及各所述笔画的粘连类型、粘连数量和粘连位置,采用多方向、多路径粘连切分算法,对所述基线上方内部的各粘连笔画进行切分;多方向、多路径粘连切分算法:输入:基线上方粘连的笔画、粘连数量、粘连位置、粘连类型以及字符区块基线位置信息;步骤1:对基线上方粘连的笔画做形态学骨架化处理,得到骨架图;在骨架图的一定范围内查找分支点;若不存在分支点,则进入步骤2,否则进入步骤3;步骤2:结合粘连类型,在90度方向对粘连笔画进行切分;步骤3:记录分支点坐标信息;若在笔画分支处检测出多个候选分支点,则取X坐标最小的分支点作为该笔画的分支点branchPoint;步骤4:结合粘连类型和分支点branchPoint,确定切分起点segStartPoint;步骤5:以骨架图的分支点branchPoint为起点,在一定范围内计算骨架向左延伸和向右延伸的像素量leftExtPixel和rightExtPixel;步骤6:根据斜率计算公式计算切分起点segStartPoint分别与左右延伸像素端点leftEndPoint和rightEndPoint构成的直线斜率K;步骤7:根据步骤6的直线斜率K,选择相应方向作为切分方向;arctanK为切分起点segStartPoint与左右延伸笔画端点leftEndPoint和rightEndPoint构成的直线斜率对应的度数;根据arctanK值和界线boundary,选择最邻近的方向作为切分方向;步骤8:结合粘连类型与leftExtPixel和rightExtPixel与延伸阈值extThreshold的大小以及它们的不同组合,并从切分起始点segStartPoint出发以不同切分路径对粘连笔画进行切分;步骤9:若笔画存在多处粘连,则重复步骤3至步骤8;输出:粘连切分后的笔画;基于基线上方笔画类型及其几何特征表,确定切分后笔画的笔画类型;确定所述基线下方部内的断裂笔画;根据所述断裂笔画以及所述切分后笔画的笔画类型,采用连通域质心和乌金体藏文结构知识对所述断裂笔画和所述切分后笔画进行归属以完成字符切分;笔画归属算法:输入:字符区块的各个连通域;步骤1:获取输入字符区块的宽度width;步骤2:比较字符宽度width与平均字符宽Avgwidth的大小;若width小于0.5*Avgwidth,字符区块内的连通域为音节点或标点符号;若width大于等于0.5*Avgwidth,且width小于1.5*Avgwidth,将各笔画归属为一个完整字符;若width大于等于1.5*Avgwidth,字符区块内有多个字符,进入步骤3的多字符归属;步骤3:判断字符区块是否满足基线上方无笔画并且基线下方无笔画断裂;若满足,则各连通域均为字符,否则进入步骤4;步骤4:比较字符区块所有笔画的质心水平距离distCentroidX;若质心水平距离distCentroidX小于距离阈值distThreshold的笔画存入待归属数组mergeArray中,否则连通域为字符;步骤5:根据藏文古籍字符的特点,对mergeArray数组进行修正;步骤6:对mergeArray数组中的笔画逐一进行归属;先从mergeArray数组中查找是否存在基线上方笔画,若存在,则以该笔画为基础根据质心水平距离阈值distThreshold在基线上方和下方查找同属于一个字符的笔画,完成归属;否则只需要对基线下方的断裂笔画进行归属。

全文数据:

权利要求:

百度查询: 西北民族大学 基于结构属性的乌金体藏文古籍字符切分方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。