买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:富士通株式会社
申请日:2009-10-02
公开(公告)日:2013-05-15
公开(公告)号:CN102165443B
专利技术分类:
专利摘要:本发明涉及一种类似文章的抽取方法,能够自动制作可根据分析人员以特定的信息源为基础采样得到的目标文本来高精度地进行文本收集分类的关键词的组合即分类规则。在多个采样文章组211和抽取对象文章组212之间,关于从采样文章组211抽取出的多个词素组,在103~105中按照这些出现文章数接近的类似度大顺序来缩小抽取对象文章组使得只包含各词素,该处理在106的控制下被重复执行,从抽取对象文章组212高效地抽取与采样文章组211类似的文章。
专利权项:一种文章抽取方法,包括:多词素出现采样文章存储步骤,使所述文章标识符与由文章标识符识别的多个采样文章组的文章中共同出现的多个词素的每个词素对应地存储在存储部中;多词素出现抽取对象文章存储步骤,对由文章标识符识别的多个抽取对象文章组,按所述多个词素的每个词素来抽取该多个词素共同出现的文章标识符并对应地存储在所述存储部中;件数类似度算出步骤,按所述多个词素的每个词素,来算出与该多个词素对应地存储在所述存储部中的所述采样文章组的文章标识符数、和所述抽取对象文章组的文章标识符数的类似度;抽取步骤,按照所述类似度从高到底的顺序,抽取与所述多个词素对应地存储在所述存储部中的所述抽取对象文章组的文章标识符;排除步骤,从所述抽取对象文章组排除与所述抽取出的文章标识符以外的文章标识符对应的文章组;以及目标文章决定步骤,重复所述多词素出现抽取对象文章存储步骤、所述件数类似度算出步骤、所述抽取步骤、以及所述排除步骤的各步骤直到由所述抽取步骤抽取出的文章标识符数与上次的由所述抽取步骤抽取出的文章标识符数变成预先规定的差为止,将由剩余的文章标识符识别的抽取对象文章组决定为目标文章组。
百度查询: 富士通株式会社 文章抽取方法、文章抽取装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。