一、市场需求
全球大数据解决方案不断成熟,各领域大数据应用全面展开,为大数据发展带来强劲动力。2015年全球大数据规模为384亿美元,其中硬件、软件和服务所产生的收入占比分别为38%、23%和39%。预计2017-2020年间约为501-663亿美元,复合年均增长率保持为11%。
2016年国内近六成企业已成立数据分析相关部门,超过1/3的企业已经应用大数据。大数据应用为企业带来最明显的效果是实现了智能决策和提升了运营效率。2015年我国大数据市场规模为115.9亿元,增速达53.10%。 2016年我国大数据市场规模达168亿元,预计2017年~2020年仍将保持30%增长率。
二、产业链分析
大数据产业链包括数据基础、IT基础、数据安全、数据应用。IT基础包括系统搭建、系统运维。数据基础包括数据源、数据采集与预处理、数据存储管理、数据计算处理。数据应用包括大数据行业应用、大数据产品解决方案、大数据可视化、大数据分析与数据挖掘。
大数据的出现,开启了一次重大的时代转型。数据的价值凸显,信息的重要性日益提高。我国大数据具有较好的基础条件、际遇以及外部推力,未来会在全球大数据市场中占有较高比例,以国外市场突破千亿的情况来看,我国大数据市场仍有很高的成长空间。
三、重点产品
1、数据存储管理
数据编码优化、数据重复删除、数据快速查找等
2、数据预处理
数据审核、数据筛选、数据排序、数据变换、数据集成等
3、数据采集
传统企业数据(消费者数据、ERP数据、库存数据以及账目数据等),机器和传感器数据(呼叫记录、智能仪表、工业设备传感器、设备日志、交易数据等),社交数据(用户行为记录、反馈数据等)
存储安全、传输安全
1、大数据分析与数据挖掘
关联分析、神经网络、聚类分析、知识发现、参数优化、预测性分析、语义引擎
2、大数据可视化
2D可视化、时间可视化、多维度可视化、分层次可视化
3、大数据行业应用
医疗、金融、通讯、政府、商贸、交通、教育、工业制造
4、大数据产品解决方案
营销、信息挖掘、风险控制、广告媒体、生命科学、商业智能、音频图像、智能工厂
四、关键技术
现有信息系统数据种类繁多,需要从关系型数据库和其他文件系统完成数据采集,根据数据的业务需求,结合HDFS、HBase、Hive、Spark等进行分类存储或处理,研究数据关联分析和数据挖掘等涉及大数据量的快速统计和查询方法。
结合不同行业数据分析的公共需求,研究、开发大数据分析方法和工具。
1、大数据标准化
针对异构的大数据,需研究用于结构化和非结构化大数据的标准化处理方法,以利于后续的大数据简化与知识发现,包括:分词算法、文本特征提取、语义分析算法等。
2、大数据多粒度简化方法
多粒度大数据简化是大数据分析的前提,研究用于大数据的多粒度过滤与筛选方法,降低所需处理的大数据规模,包括:大数据的异常数据检测算法、大数据的抽样算法、大数据的降维算法等。
3、大数据的关联分析
研究用于多特征、不完备、动态大数据的机器学习和知识发现方法,包括:关联规则算法、聚类算法、知识发现算法、集成学习算法、多粒度知识发现方法、不平衡数据处理方法、参数优化方法等。
4、大数据智能预测与推荐算法
结合具体行业应用场景,研究用于不同行业的智能预测分析和推荐方法,包括:大数据拟合算法、时间序列预测算法、多标签分类与排序算法、推荐算法、基于LBS的推荐算法等。
可视化是大数据结果展示的重要内容,目前对于大数据分析结果的展示方法还比较匮乏,需要研究和开发大数据可视化方法与工具。主要包括:1)大规模数据的统计可视化;2)大规模网络数据可视化,实现网络数据的实时展现和异常数据分析;3)大规模高维数据可视化,包括散点矩阵图、平行坐标等4)大数据可视化交互,实现大数据交互分析;5)大规模地图数据可视化,实现与地理位置相关数据的展现与分析。
(资料来源:赛迪研究院整理)