买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:南京审计大学
摘要:本发明涉及一种财务报告舞弊检测方法及系统,属于数据处理技术领域,解决了现有因无法有效区分MDA语义及语义丢失导致舞弊检测不精确的问题。包括获取历史财务报告构建文本数据集;对文本数据集中每条文本数据进行分词得到分词结果,根据重要性阈值筛选分词结果并转换为词向量,得到词向量矩阵;从字、词、句和段四个维度构建中文可读性指标向量,根据中文可读性指标向量,获取每条文本数据的可读性向量,得到可读性向量矩阵;基于词向量矩阵和可读性向量矩阵,得到样本集;根据样本集训练分类模型,得到舞弊检测模型;预处理待预测的财务报告,将得到的词向量和可读性向量拼接后传入舞弊检测模型,得到检测结果。实现了财务报告舞弊的精确检测。
主权项:1.一种财务报告舞弊检测方法,其特征在于,包括如下步骤:获取历史财务报告,构建文本数据集;对文本数据集中每条文本数据进行分词,得到分词结果,根据重要性阈值,筛选分词结果并转换为词向量,得到文本数据集的词向量矩阵;从字、词、句和段四个维度构建中文可读性指标向量,根据中文可读性指标向量,获取文本数据集中每条文本数据的可读性向量,得到文本数据集的可读性向量矩阵;基于词向量矩阵和可读性向量矩阵,对每条文本数据对应的词向量和可读性向量进行拼接,作为一条样本,得到样本集;根据样本集训练分类模型,得到舞弊检测模型;预处理待预测的财务报告,将得到的词向量和可读性向量拼接后传入舞弊检测模型,得到检测结果;所述根据重要性阈值,筛选分词结果并转换为词向量,包括:将每条文本数据的分词结果作为特征,分类标签作为响应变量,采用随机森林模型构建多棵决策树;按分词结果中各词汇的重要性从高到低排序分词结果;根据重要性阈值,从每条文本数据的排序后的分词结果中按顺序选取相同数量的词汇,并且所有文本数据的平均累加重要性大于等于重要性阈值;采用HashTrick方法,将每条文本数据选取的词汇转换为词向量;所述从字、词、句和段四个维度构建中文可读性指标向量,包括:基于中文文本语言结构特征,根据常用字比率构建字的中文可读性指标;根据常用词比率、成语比率、专业词汇比率、逆接关系连接词比率和否定词比率构建词的中文可读性指标;将句号、问号、感叹号和分号的数量作为句子数,根据平均句长和陈述句比率构建句的中文可读性指标;根据段落平均数字数量构建段的中文可读性指标;将字的中文可读性指标、词的中文可读性指标、句的中文可读性指标和段的中文可读性指标组合为中文可读性指标向量;按照中文阅读难度的大小对中文可读性指标的各指标项设置了不同等级的权重;所述根据中文可读性指标向量,获取文本数据集中每条文本数据的可读性向量,包括:对文本数据集中每条文本数据,按中文可读性指标向量,分别将同一维度的指标项按照其权重计算得分并相加计算出字、词、句和段的中文可读性指标值,得到四维向量;对四维向量进行L2范数的正则化处理后,得到当前文本数据对应的可读性向量。
全文数据:
权利要求:
百度查询: 南京审计大学 一种财务报告舞弊检测方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。