分析:电信行业中的大数据
5. 大数据中的软件技术
大数据技术描述了新一代技术和架构,目的是通过高速捕获、发现和/或分析,经济高效地从种类繁多的大量数据中获益。
目前共有两种顶层分析方法:
1). 分析过去,不预测未来(关联分析)
2). 分析过去,预测未来(具备监督式学习功能的预测分析)。
下图描述了大数据中的主要软件技术分类。这些分类中有很多正在开发的工具(既包括Apache旗下的开源工具,也包括各厂商开发的工具),这些工具可用于支持数据摄取、数据准备、数据库编程、文本处理、分析可视化等工作。
上图描述了大数据中的软件技术分类,并使用插图提示显示了每个分类中的厂商/产品。目前共有三种顶层的软件技术分类:
1) 流数据分析和复杂事件处理
结构化数据从多个来源持续流出,以便对它们进行“线速”分析和关联,而不是首先将它们存储在某个数据库中。ApacheStorm和IBMInfoSphereStreams等某些解决方案提供“表述编程设计”(declarative programming)框架,让数据经历转换、加入、分割、开窗等一系列处理步骤。这种模式通常被称为“复杂事件处理”(Complex Event Processing)。
流数据分析的结果通常被存储在一个数据库(SQL或NoSQL)中,并能触发其它事件。单位时间(例如1小时)内所处理的数据量通常以吉字节为单位,处理时延以毫秒为单位。关联分析和预测分析均能以线速运行,但预测分析中通常仅评分部分以线速运行。流数据分析的范例包括股票预测、自动交易引擎、M2M/传感器分析等。
2) 数据库
目前主要有两类数据库,即SQL和NoSQL。SQL数据库向RDBMS确认(即提供事务处理和引用完整性)。NoSQL数据库提供各种表、schema和接口,但不提供事务处理和引用完整性,与SQL数据库相比,它们的时延更小,吞吐量更大,数据存储容量也更大。两种数据库均用于管理结构化数据。NoSQL数据库既可以基于磁盘,也可以基于内存。内存数据库以牺牲较大的磁盘容量来换取更小的内存时延。
3) Hadoop
流数据分析和数据库用于处理结构化数据,而Hadoop用于分析Web浏览日志、IT系统日志等半结构化数据以及社交网络、Twitterfeed、图像、音频文件等非结构化数据。
为了分析数据,Hadoop软件在计算机集群上运行一系列“MapReduce”任务。给定计算机上的每一个Map任务负责在给定时间处理某个数据子集;给定计算机上的每一个Reduce任务负责编译在预定义的计算机集群子集上运行的一组预定义的Map任务所产生的处理后的数据。下图显示了MapReduce任务的迭代过程。
数据和结果与分布式计算机集群中的每台计算机上的MapReduce任务共址。这些集体数据构成了一个Hadoop分布式文件系统(HDFS)。任何一个HadoopDistribution必须至少包含Hadoop集群软件和HDFS。
大数据分析技术的未来发展
SQL的重新兴起:
很多传媒大肆宣扬NoSQL是兼容RDBMS的SQL数据库的“终结者”。但是,RDBMS可确保数据完整性,而这对于很多应用至关重要。因此,业内将来有可能搭建性能媲美当今NoSQL数据库的RDBMS数据库。
Hadoop2.0:
Hadoop将来有可能更多地被视为支持大型NoSQL数据库的一个平台,而不仅仅是一个批量分析引擎。在增添了流处理能力后(始于ApacheStorm),Hadoop也有可能用于实时分析。大多数大数据厂商依赖于Hadoop的未来成功,因此,我们可能会看到在此方面的投入(如与Hadoop的RESTful接口,集成Node.js等)。
6. 结语
大数据为电信运营商提供了一个更加全面了解其业务和客户、进一步加大创新力度的真正机遇。以研发投入占销售收入的比例计算,整个电信行业的研发投入远低于任何一个技术型行业,而其改变运营方式的努力也尚未取得广泛的成功。大数据要求各个行业采用一种完全不同的非传统方法来拓展业务。如果运营商能够以最快速度将全新灵活的战略整合到企业核心业务之中,就将获得真正的竞争优势,从而战胜行动较为迟缓的对手。
最新活动更多
-
12月19日立即报名>> 【线下会议】OFweek 2024(第九届)物联网产业大会
-
7.30-8.1马上报名>>> 【展会】全数会 2025先进激光及工业光电展
-
精彩回顾立即查看>> 【线下论坛】华邦电子与莱迪思联合技术论坛
-
精彩回顾立即查看>> 【线下论坛】华邦电子与恩智浦联合技术论坛
-
精彩回顾立即查看>> 【线下巡回】2024 STM32 全球巡回研讨会
-
精彩回顾立即查看>> 2024先进激光技术博览展
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论