主办单位:重庆市信息产业投资促进中心
重庆市云计算和大数据产业协会
重庆市工业云推进联盟
中关村(重庆)大数据产业联盟
分享时间:2016年7月7日晚20:30-21:30
近年来,大数据已成为国家层面的基础性战略资源,正日益对全球生产、流通、分配、消费活动以及经济运行机制、社会生活方式和国家治理能力产生重要影响。推动大数据发展已成为国际社会的行动共识。
随着全球大数据产业的蓬勃发展,大数据在我国也快速兴起普及,引领着第三次信息技术革命的浪潮。大数据带来的巨大价值和创新思维,成为各行业稳增长、促转型的重要支撑和部署。
我国政府部门掌控着大量价值密度高的数据资源,大部分均已建立多个数据平台或系统,但问题是,这些平台相互不连通,只是一个一个的“信息孤岛”,除“割裂”之外,部分还处于“沉睡”状态。数据利用率仍然很低,各部门数据资源协同共享、业务系统互联互通已成为阻碍政务大数据发展是关键和难点。
云基华海信息技术有限公司作为国内领先的政务大数据软件供应商、大数据资产运营商。公司本着共享、开放、共赢的理念,以各级政府电子政务云平台为依托,为政府提供大数据平台系列产品,管理政府在依法行政过程中产生的数据,为政府各部门、企业、公众等提供垂直应用和数据开放服务应用。
目前公司已基于先进成熟的大数据主流技术和工具,建设了一套适合于政务领域的大数据管理平台(云派大数据管理平台),平台能整合及加工内外部数据,形成权威的政务信息统一视图,为政府决策、公共服务、市场监管、社会管理、自然与环境保护等提供数据应用支撑。
云派大数据管理平台集成了大数据采集系统、大数据清洗系统、大数据交换系统、大数据挖掘系统、大数据可视化系统、大数据脱敏系统、大数据开放门户等产品,可满足数据从采集、存储与计算、分析挖掘处理到应用的全流程服务。
数据采集系统:系统实现了一个开放的、可扩展的、适应性强的、高效稳定的数据采集功能。可支持多种异构数据源,能根据不同数据源进行快速可视化配置。系统提供了多种数据采集策略,实现对采集频率、采集范围、采集方式等采集任务的灵活自定义。
大数据清洗系统:大数据清洗系统包含了数据清洗、加工、对比、关联等功能,系统通过自定义清洗规则,对各渠道汇集数据进行关联、抽取、加工、融合,实现数据存储平台的源数据和清洗数据按照指定规则处理,并产生新的标准结果及进行存储。最终形成按照一定规则,统一的,可以对内服务、对外输出数据信息服务。
大数据交换系统:大数据交换系统通过对现有的系统进行数据整合,实现各种信息系统的互通互连和数据共享,形成统一的数据服务层,为上层应用提供数据服务,为综合信息服务的便利、完善和高效提供可靠的数据基础。大数据交换包含了目录服务、交换服务和共享服务等功能,并对数据交换提供监控管理、权限管理、加密管理、认证管理等基础支撑。通过数据交换实现各应用系统间的互联互通及业务协同,消除了“信息孤岛”。
大数据挖掘系统:大数据挖掘系统将复杂的统计方法和机器学习技术应用到数据当中,帮助用户揭示隐藏数据的价值,让用户真正认识事物发展变化规律和它们之间依赖或关联。系统具有完备的数据准备、数据处理、模型构建、模型评估、模型管理和结果展现功能,具有大数据平台分析建模、模型运行、模型发布等能力,同时增加了对大数据分布式计算的支持,满足实时、离线应用的分析挖掘需求,可以帮助各级决策者从数据中分析规律,并对关键问题做出预测,提高决策效率和执行力。为行业分析决策应用构建提供基础平台支撑。
大数据可视化系统:以海量的数据资源为依托,相对于传统可视化,可以对大规模、多维度、关系复杂的数据,以直观形象的图形表现数据之间的关系,快速发现事物的特征和本质,准确深刻地展现出数据背后的价值。本系统能创建坐标系,图例,提示,工具箱等基础组件,并在此上构建出折线图、柱状图、散点图、K线图、饼图、雷达图、地图、和弦图、力导向布局图、仪表盘以及漏斗图等多种图形展示方式,同时支持任意维度的堆积和多图表混合展现。系统的可视化拖拽重计算特性带来了数据统计图表的有效提取、整合,甚至在多个图表间交换数据,赋予了用户对数据可视化挖掘、整合的能力,提供直观,生动,可交互,可高度个性化定制的数据可视化图表。
大数据脱敏系统主要涵盖了从数据申请、数据审核、数据源创建、规则制定、规则审核、数据转换、版本管理、数据分发、数据停用、数据监控的一个完整生命周期的管理过程,能有效地混淆、加密或屏蔽测试数据库中的敏感数据,为用户提供了一个数据的闭环管理模式。
同时实现了数据的规范应用,并且为政府数据在开放过程的使用的数据安全提供了方便的监控功能。本系统能有效确保数据隐私,保护敏感数据。
大数据开放门户采用大数据整体设计架构,基于搜索、推荐、服务框架、框计算、开放服务等基础核心的技术,对数据进行编目、展现、管理,统一对外提供数据服务和数据展现,提供对数据服务API的描述,提供APP应用开发的支撑,为公众提供更高质量的数据和服务。
大数据开放门户能保证政府开放数据的可机读、原始性、及时性、开放性、真实性、完整性和安全性,通过对外提供数据的检索、展现与下载,提供数据访问的Open API供开发者使用。通过政府大数据开放,可以促进社会的数据创新型利用,起到大众创新、万众创业的目标。
随着观测技术、通讯技术、网络技术等不断进步与完善,地震数据采样频率也在不断提高,由月值、日值采样发展到分钟值、秒值甚至毫秒级数据采样。采样率和数据精度的提高、观测手段的增加、观测台网的加密、观测项目的连续观测记录等,使得产出资料越来越多,其数据容量非常巨大。
目前,全国现有各类测震台站1400多个,年产出数据量为12T左右;各类前兆观测台站 770 多个,年产出数据量为 0.5 T 左右;GPS 连续观测站280多个,年产出数据量1.5T。强震中心数据目前年产出量接近1T;地震应急类数据年产出1T左右。以上几类数据年产出总量已接近20 T左右。
本项目将利用主流大数据技术,构架面向地震业务的大数据处理平台,提供一套完整的面向整体数据处理和存储解决方案,它基于分布式文件系统的海量存储能力和分布式计算能力,整合数据采集工具和SQL交互引擎、列式数据存储引擎,提供对海量数据的获取、交换、存储、处理分析和应用展示等系列功能,能支撑中国地震局对地震数据存储、管理、应用长期要
本平台系统架构概括为“四层架构、二大体系”。其中四层架构自顶向下为应用层、支撑层、数据层、基础层。两大体系包括技术接口规范和运维管理制度本方案总体架构如下图所示:
本平台技术架构如下图所示: