大数据 - 详细研究






4.64/5 (12投票s)
大数据 - 技术、商业和工业方面
引言
它像洪水一样涌来,淹没了沿途的一切。这是倾盆大雨、暴雨还是海啸?不,这是“大数据”,技术行业最新的热门话题。我们每天创建大约 250 万亿(2.5 × 10^18)字节的数据,其中 90% 的数据是在过去两年内产生的。根据一些估计
- 2012 年 6 月,Twitter 每天有 4 亿条推文,或大约每秒创建 90MB 的数据。
- 2012 年 3 月底,Facebook 拥有 9.01 亿月活跃用户,超过 1250 亿好友连接。
- 2011 年 3 月,Facebook 每天收集平均 15TB 的数据,即每年 5000TB 以上,在一个集群中拥有超过 30PB 的数据。
- 目前有 1.6 亿个博客。
- 2011 年 12 月,Google 的索引中拥有超过 500 亿个页面。
- 2011 年 5 月,YouTube 每天有 30 亿访客,每分钟上传 48 小时的视频。
- 截至 2010 年底,亚马逊的 S3 云服务拥有约 2620 亿个对象,每秒约有 200,000 个请求。
那么,所有这些数据都去哪儿了?它们只是为了存储在全球各地的数据中心吗?答案是否定的,在过去的十年里,机构一直在努力创新、引入和实践处理海量数据的方法。他们的目标是利用海量的非结构化/半结构化数据来实现更有意义的目标,从中提取价值并推动目标的实现。
“大数据”一词可能最早出现在 1999 年的论文《实时可视化探索千兆字节数据集》中。最近,它被用来描述我们上面讨论的海量数据集。一些评论家认为这只是大公司使用的营销术语,但我们认为它对整个行业具有更广泛的影响。O'Reilly 称其为 2012 年 IT 最新的“流行语”。
在本文中,我们将重点介绍大数据的技术、商业和工业方面。我们还将探讨大数据的定义、重要性、优缺点、技术、三个“V”和未来。
“大”是什么?“多少”才算“大”?
无法在数据库中表示的数据称为非结构化/半结构化数据。当大量此类数据无法被传统软件在规定时间内捕获、管理和处理时,就称为“大数据”。它不是一个精确的术语。其特点是指数级非结构化数据的累积。它描述了传统关系数据库无法分析的大型原始数据集。
现在,“大”是多少?这是一个不断变化的尺寸目标,随着时间的推移而增加。目前在 2012 年,它表示在单个数据集中拥有几十 TB 到几 PB 的数据[2]。我们认为它也取决于其使用的上下文。例如,如果我们比较天文数据和在线反馈收集的数据,数据集的大小会有所不同。
尽管数据本身就令人难以置信,但从中提取信息并理解其含义的规模和复杂性也同样“大”。全世界的科学家都在寻找解决这些复杂问题的答案。最好的例子是 http://amplab.cs.berkeley.edu/。
“大”增长
移动设备、遥感技术、软件日志、摄像头、麦克风、射频识别、无线传感器、天气卫星和传感器、科学实验、社交网络、互联网文本和文档、互联网搜索索引、通话详单记录、天文学、大气科学、基因组学、生物地球化学、生物学以及其他复杂且常常是跨学科的科学研究、军事监视、医疗记录、摄影档案、视频档案以及大规模电子商务,都为此做出了贡献。随着越来越多的传感器、移动设备、摄像头等被添加到网络/系统中,越来越多的人分享照片、音乐等,越来越多的人加入社交网络,数据量就会增加。一些系统及其产生的数据量举例:
CERN:CERN 的大型强子对撞机项目今年产生了 22PB 的数据,而这仅仅是接受了所产生数据的 1%,大约是每秒 100MB。
FLICKR:每天超过 40 亿次查询,~3500 万张照片(全部),~200 万张照片在 squid 缓存中(RAM 中),~4.7 亿张照片,每张有 4 或 5 种尺寸,2 PB 的原始存储。
FACEBOOK:截至 2011 年 7 月,全球 7.5 亿用户每天向社交媒体平台上传约 100TB 的数据。按全年计算,这足够管理美国国会图书馆的全部印刷品——3600 倍[3]。
不仅如此,人均信息存储能力也是造成数据爆炸式增长的原因。大约二十五年前,数据存储非常昂贵,随着存储价格的不断下降,数据量也越来越多,目前据估计,自 1980 年代以来,人均信息存储能力大约每 40 个月翻一番。
数据来源和增长原因的故事就此结束了吗?不,请将企业“结构化”数据也添加到列表中,这些数据可以提供宝贵的见解。元数据,即关于数据的数据,其增长速度是数字数据增长的两倍,也增加了列表。
为什么每个人都在谈论“大数据”?
首先,我们来看看一些统计数据。《纽约时报》科技版中出现了大约 174000 次,“CNET”新闻文章中出现了大约 11040 次,O'Reilly 在过去一年中发表了 75 篇文章。那是什么?……“大数据”。
- IBM - http://www-01.ibm.com/software/data/bigdata/
- CISCO - http://www.cisco.com/en/US/solutions/ns340/ns517/ns224/big_data.html
- Oracle - http://www.oracle.com/us/technologies/big-data/index.html
- EMC2 - http://www.emc.com/microsites/bigdata/index.htm
媒体无法停止谈论它,所有主要报纸都在讨论它,科技网站也随处可见。为什么?让我们深入探讨一下。
根据 Forrester 的研究,企业拥有的数据中只有约 5% 被有效利用,其余的由于太难分析且成本高昂而未被使用。麦肯锡全球研究所的一份报告称,采用大数据的零售商有潜力将其营业利润提高 60% 以上。随着数据存储价格的下降,公司开始意识到其隐藏的潜力,它们开始关注这一点以实现业务目标、设定未来目标、获取客户反馈等。它们意识到,这个隐藏宝藏的宝库也可以用于创造商业价值。这得到了世界经济论坛发布的一份报告的证实,报告中称数据是一种新的经济资产类别,就像货币或黄金一样。当使用得当时,大数据可以提供深刻的见解,以开发、改进或调整业务举措;发现运营障碍;简化供应链;提高运营效率;更好地了解客户;创造新的收入来源,形成差异化的竞争优势;提出全新的商业模式;以及开发新产品、服务和商业模式。
“大数据现在看到的景象就像经典的工业曲线。首先是某个重大发现,然后建立原则,比如科学规则。科学通过制造转向工程,最终实现大规模部署。”
技术扮演的“大”角色……
“大数据技术描述了新一代的技术和架构,旨在通过实现高吞吐量捕获、发现和/或分析,以经济高效的方式从海量、多样化的数据中提取价值。”——IDC。
技术在“大数据时代”扮演着极其重要的角色。我们将在下一节详细探讨这一点,但会有一个不同之处,我们将尝试将技术和技术映射到“大数据”的三个“V”上。
卷
“越多越好”非常适用于“大数据”。如果一个人设计一个包含 3 个因素的模型,它的效果肯定不如一个包含 300 个因素的模型。这就是大数据中 VOLUME(量)的作用。我们在前面的章节已经讨论了每天都在产生大量数据,但挑战在于如何有效地存储和处理。当务之急是可扩展的存储和分布式查询。由于传统关系数据库无法应对如此海量的数据,数据仓库、MPP 数据库等大规模并行处理架构为结构化数据提供了技术,而 HDFS、Big Table 等则为非结构化数据提供了技术。
速度
卡在拥堵中的人不会等上几天才获取最新的交通信息,以便他能走最近的畅通路回家。他需要即时信息。这就是大数据中 Velocity(速度)的作用。海量数据需要非常快速地处理,并且分析需要迅速完成,这是当务之急。目前,这些技术有助于大数据、流数据或复杂事件处理和内存处理保持快速。有几种专有和开源工具可用于此。例如 MapReduce、S4 和 Storm 等。我们还应该牢记另一个因素,即信息检索,在这种情况下,像 NoSQL 这样的技术可以帮助快速检索预先计算好的信息。
Variety(多样性)
大数据的根本特征之一是数据源的多样性,这导致了各种数据类型。数据并非完全有序且准备好进行处理。处理的最大挑战之一是从中提取有意义的信息。这就是大数据中 VARIETY(多样性)的作用。使用的第一种技术是 SQL-NoSQL 集成。关系世界和非关系世界的集成通过结合两者的优点提供了最强大的分析功能,同时也为各种数据类型提供了存储解决方案。链接数据、语义学等技术也获得了一些普及。NLP 在实体提取中也起着作用。统计学在展平数据和提取数据集方面起着重要作用。开源统计语言 R 为多种大数据工具和解决方案提供了出色的集成点。Apache 项目也有一些针对该领域的产品,这些产品与一些专有技术一起,目前被用于解决多样性问题。
这里需要特别提到两个问题:“安全”和“云计算”。安全对大数据公司来说非常重要。它可能产生不利影响的两种方式是:第一,存储不合法的信息使公司自身变得脆弱;第二,意外泄露信用卡详细信息、社会安全信息等可能会对公司声誉造成巨大损害。其次,纯粹的安全漏洞(如黑客攻击)可能会暴露整个数据集。技术在确保安全方面起着至关重要的作用,但需要更有效地控制它。云计算的出现对大数据来说是个福音,因为对于小型公司来说,在云中使用大数据服务变得更加容易/便宜。此外,“云存储”在有效存储大量数据和使其易于访问方面也大有帮助。
大数据技术的底线是:处理得越多,预测得越好。更大、更广泛的数据集比小型数据集能够产生更有洞察力的结果。
创造的“大价值”
教育、物理、经济、天文学、电信、医疗保健、金融服务、管理、交通、数字媒体、零售、执法、能源和公用事业、社交媒体、在线服务、安全是“大数据”今天已经创造了巨大价值的一些领域和部门,而且这个列表每天都在增长。本节的主题不是强调领域的宽度,而是找出“大数据”创造的价值。首先,让我们看看它解锁了哪些通用价值。根据麦肯锡
- 大数据可以通过使信息透明和可用性更高、频率更高来解锁巨大价值。
- 随着组织以数字形式创建和存储更多交易数据,它们可以收集更准确、更详细的绩效信息,涵盖从产品库存到病假的一切,从而暴露差异并提高绩效。领先的公司正在利用数据收集和分析进行对照实验,以做出更好的管理决策;其他公司则利用数据进行从低频基本预测到高频实时预测,以及时的调整业务杠杆。
- 大数据允许客户细分越来越细致,从而提供更精准定制的产品或服务。
- 复杂的分析可以显著改善决策。
- 大数据可用于改进下一代产品和服务的开发。
现在,让我们从这些领域中举几个例子,看看“大数据”是如何为它们增加价值的。
重工业机械
在 GE,多年来一直在使用复杂且海量的传感器数据来监控和测试涡轮机、喷气发动机和机车等工业设备。如今,大数据正被用于预测这些重型机械的性能和维护需求。它还有助于应对前所未有的停机时间。它帮助 GE 使用了以前未使用的更多参数和数据点。
零售业
Sears 公司曾使用其门店产生数据的约 10%,计算“价格弹性”(在零售业至关重要)需要八周时间。引入 Hadoop 和大数据技术后,Sears 不仅能够使用其产生数据的 100%,而且几乎实时地计算“价格弹性”。大数据帮助 Sears 制定了更有竞争力的价格,并根据当前需求调整库存。
医学科学
美国国家癌症研究所与加州大学圣克鲁兹分校合作,计划创建世界上最大的癌症基因组数据库。他们声称,它将被用于“个性化”或“精准”护理,即治疗针对个体患者癌细胞中的特定基因变化。它有助于他们完成癌症的分子表征,这将非常有帮助。整个设置都在“大数据”技术的支持下运行。
未来会“大”吗?
嗯,有一些怀疑论者称之为泡沫,也有一些预测称其拥有健康的未来。在本节中,我们将着眼于其光明的一面。根据 IDC 2012 年 3 月 7 日发布的新闻稿,一项全球大数据技术和服务预测显示,该市场预计将从 2010 年的 32 亿美元增长到 2015 年的 169 亿美元。这代表了 40% 的复合年增长率 (CAGR),大约是整体信息和通信技术 (ICT) 市场增长率的 7 倍。
福布斯声称,“大数据是 IT 领域中最令人兴奋的领域,因为这些新的数据管理、业务分析和应用程序开发方法正在实现新的、具有颠覆性的商业模式。而我们正处于这一新一轮创新浪潮的开端”[8]。就在我们撰写本文时,一个完整的生态系统正在形成,以应对这一新现实。收集数据、聚合数据、挖掘数据以获取见解、存储数据的公司都属于这个生态系统的一部分。它的形状目前还不清楚,但肯定正在形成。
从商业角度来看,大数据行业的未来令人兴奋,所以让我们来看看技术为大数据带来了什么。大数据的一个经典问题是如何汇集和准备数据以供分析。产生数字痕迹的众多系统以不同的格式存储数据。汇集、标准化、规范化、清理并选择最好的数据进行分析是问题的核心。目前,这由 Hadoop 和其他技术进步(如高速数据分析、内存处理等)处理。仍然存在的挑战包括:非常快速地处理海量数据;定义一个平台;使技术更易于访问;消除复杂性并提高数据安全性。一旦内存技术等得到发展,数据处理速度就会提高。下一个挑战将是创建一个高可用性平台,该平台将消除处理和分析海量数据的复杂性。平台创建将涉及开发用于快速消化海量数据并提取精华的工具,并且过程应该变得更简单,以便一个技术 layman 也能执行该任务。有效使用数据分析后指针的技术也将受到关注。
“因此,大数据行业的未来将为数据和分析带来摩尔定律为计算硬件带来的影响,并呈指数级提高商业智能的速度和价值。无论是连接地理位置和零售可用性,利用患者数据预测公共卫生趋势,还是分析全球气候趋势,我们都生活在一个充满数据的世界。有效利用大数据将为企业提供全新的视角来审视它。”
大数据 = 大机遇
麦肯锡估计,到 2018 年,仅在美国,就需要 14 万至 19 万具备“深度分析能力”的毕业生,但将出现人才短缺。据《经济时报》估计,印度本身未来几年至少需要 10 万名数据科学家,此外还需要大量的数据库管理员和数据分析师,以支持快速兴起的大数据领域。根据一家领先的招聘网站的数据,就业趋势如下。
因此,从机会的角度来看,未来是光明的,但需要有技术和分析领域的训练有素的专业人士。
“大”的忧虑呢?
隐私、有效性、强制营销、社会分层、歧视、安全和监管是批评大数据时经常使用的术语。老实说,这些是一些在论坛和圈子里提出的问题,并且在一定程度上也是真实的。让我们看看它们是如何指向它的。
隐私,由于大数据涉及多个来源,因此总是可能将信息关联起来,并预测或预报有关个人的信息,而这些信息是高度私密或敏感的,例如病史、病况等。例如,如果任何机构试图通过您的购物习惯来预测您的未来,并为此推荐产品,那它就是在侵犯它不应该涉足的领域。
大数据目前有多有效?这是许多人提出的另一个问题。这完全取决于用于预测的原始数据,数据是否提供了良好的指示。正如“越多越好”的炒作所说,更多的数据正在被存储,即使最终产品无效。这里存在风险,因为数据集非常庞大,也很有可能出现“虚假”发现。
设想一种情况——你走进一家商店买了一台笔记本电脑,立即,这家商店先进的大数据系统会建议你购买一个保护套、一款杀毒软件和两年的全面维护支持。这现在不也发生吗?是的,也不是。目前,销售人员/系统可能会建议几件商品,但不会通过引发恐惧来推荐,因为大数据系统可能会告诉你,有多少笔记本电脑损坏或感染了恶意软件,同时还会给出“有用”的建议。
在人类文明的各个时代,总会有社会阶层。如果政策是由社会特定阶层的数据来决定的,那可能会对其他阶层产生不利影响。此外,某个阶层完全有可能操纵结果以利于自己。它还可能在加剧社会分化方面发挥作用。
安全机构、保险机构、信用卡公司正在使用大数据来处理犯罪、欺诈案件等。有很多人特别批评这些做法。由于有可能起诉一个具有与罪犯模糊相似特征的人,或者由于一些预测表明某个行业将放缓,因此降低了某个工作阶层的信贷额度,这是不应发生的。应该避免这种歧视。
目前,互联网是一个对所有人开放的免费媒介,几乎没有或根本没有监管,但随着这些担忧的出现,肯定会有一些监管措施出台。现在的问题是,随着监管和监管机构的到位,数据流很有可能会受到监控和监管。这对大数据行业的未来可能不利。
还有安全问题;有时公司控制着它不拥有的数据,而这些数据可能包含敏感信息,保护这些信息就成了公司的责任。普遍的抱怨是,公司不够认真对待保护数据,这从近期的多次数据泄露事件中可以看出。
所有这些问题也都有解决方案;审慎有效地使用尖端技术有能力解决所有列出的问题。
参考文献
- [1].http://dl.acm.org/citation.cfm?id=310930.310977&coll=DL&dl=GUIDE
- [2].http://en.wikipedia.org/wiki/Big_data
- [3].http://www.cloudpartnerstm.com/2012/03/28/facebook-users-upload-100-terabytes-of-data-every-day/
- [4].http://everyjoe.com/technology/hard-drive-cost-per-gigabyte-from-1980-to-2009
- [5].http://bits.blogs.nytimes.com/2012/06/04/how-big-data-gets-real/
- [6].http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf
- [7].http://www.idc.com/getdoc.jsp?containerId=prUS23355112
- [8].http://www.forbes.com/sites/siliconangle/2012/02/29/big-data-is-creating-the-future-its-a-50-billion-market/2/
- [9].http://cloudcomputing.sys-con.com/node/2273725
- [10].http://www.mckinsey.com/Insights/MGI/Research/Technology_and_Innovation/Big_data_The_next_frontier_for_innovation
- [11].http://radar.oreilly.com/2012/01/what-is-big-data.html
- [12].http://www.insurancenetworking.com/news/big_data_doubling_insurance_technology_idc_storage_mobility-28271-1.html?pg=1
结论
几年前,当我还是计算机科学专业的学生时,我被教导通过观察一些参数来预测事件发生的科学,以及一个理论,即如果参数趋于无穷大,概率将趋于一,或者我将能够更准确地预测事件的发生。这难道不是大数据与一些其他因素的范式吗?根据过去的行动、特征进行预测的艺术并不是什么新鲜事。它已经被使用了几个世纪,只是随着技术的出现,它在近些年变得更加容易获得。它已经在各个领域得到了认可,也获得了利润。在采取行动之前了解某些事情总是更好,大数据在这方面对我们很有帮助。
历史
- 2014 年 9 月 23 日:初始版本