买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国烟草总公司四川省公司
摘要:本发明公开了一种烟草专卖市场监管大数据E‑R模型的构建方法,包括如下步骤:步骤一:以烟草专卖市场历史涉烟数据为对象,构建用于涉烟数据元聚类的涉烟数据样本集;步骤二:利用基于涉烟关键词的信息熵,从样本数据集中抽取并生成涉烟数据元;步骤三:通过烟草专卖领域的内容结构视图,为数据元代入涉烟语义;步骤四:通过涉烟数据元,构建烟草专卖市场监管大数据E‑R模型;步骤五:通过大数据E‑R模型指导并生成对应的涉烟大数据数据管理系统,为市场监管和涉烟案件信息化研判提供数据支持。通过本发明,可以为烟草市场监管和公安部门涉烟违法犯罪的数据分析、各级烟草专卖行政执法部门的信息化监管,提供数据。
主权项:1.一种烟草专卖市场监管大数据E-R模型的构建方法,其特征在于,包括如下步骤:步骤一:以烟草专卖市场历史涉烟数据为对象,构建用于涉烟数据元聚类的涉烟数据样本集;步骤二:利用基于涉烟关键词的信息熵,从样本数据集中抽取并生成涉烟数据元;步骤三:通过烟草专卖领域的内容结构视图,为数据元代入涉烟语义;步骤四:通过涉烟数据元,构建烟草专卖市场监管大数据E-R模型;步骤五:通过大数据E-R模型指导并生成对应的涉烟大数据数据管理系统,为市场监管和涉烟案件信息化研判提供数据支持;所述的涉烟数据样本集构建包括如下步骤:采集涉烟数据,对数据进行清洗,将数据中的空白数据进行去除,得到清洗后的数据;判断清洗后的数据的时间戳是否有效,若有效,则按照时间先后进行排序;对排序后的数据进行噪声数据修正,对修正后的数据进行格式转换并对齐,得到涉烟数据集;建模方法包括如下步骤:Step1:以涉烟样本数据集为对象,通过Elasticsearch引擎的涉烟敏感词结构化检索库,进行关键字检索和统计,构建涉烟词云;Step2:将词云中的关键词聚合为涉烟数据元,通过ANSJ中文分词算法对关键词进行提取和聚类;Step3:计算涉烟关键词的信息熵,采用的信息熵计算公式如下所示:Hw=-∑plogp其中w代表关键词;Hw为关键词的信息熵;p代表关键词左侧或右侧出现不同词的统计数;Step4:Hw表征ANSJ算法抽取出的关键词的信息熵,不同的关键词所构成的信息熵值序列,通过熵值序列的泛函空间距离对不同的涉烟数据进行聚类,得到涉烟大数据模型中的基本数据元,熵值聚类算法如下所示: 其中Xt,Yt为关键词集合中的两个同类关键词序列的熵值;t为同一类型中不同的关键词序号;P为关键词出现频数;a,b为同类关键词序列的下确界和上确界;dpxt,Yt为两个涉烟关键词在样本空间中的泛函空间距离;Step5:选取临界值r=0.5,对Step4中的熵值序列进行聚类,抽取出涉烟数据元;Step6:采用delphi法,将涉烟数据中具有某一共同特性的信息集合,构建内容结构视图;Step7:按照完整性和合理性约束,内容结构视图中的语义代入到step5中抽取出的数据元中,并利用E-R建模技术,生成数据元体系对应的逻辑模型和物理模型,得到涉烟大数据模型。
全文数据:
权利要求:
百度查询: 中国烟草总公司四川省公司 一种烟草专卖市场监管大数据E-R模型的构建方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。