主页 > 科普.日子 > 大数据年代TXT下载

大数据年代

作者:维克托·迈尔·舍恩伯格(英)
栏目:科普.日子
类别:国外
巨细:153KB
点评星级:★★★★☆
下载次数:(本周:,本月:)
在线阅览  点击下载

书本节选

书本章节作者介绍
导言 一场日子、作业与思想的大革新 大数据,敞开严重的年代转型

大数据敞开了一次严重的年代转型。与其他新技能相同,大数据也必定要阅历硅谷臭名远扬的技能成熟度曲线:经过新闻媒体和学术会议的大肆宣传之后,新技能趋势一会儿跌到谷底,许多数据创业公司变得危如累卵。当然,不管是过热期仍是梦想幻灭期,都十分不利于咱们正确了解正在发作的革新的重要『性』。

就像望远镜能够让咱们感触国际,显微镜能够让咱们观测微生物,这种能够搜集和剖析海量数据的新技能将协助咱们更好地舆解国际——这种了解国际的新办法咱们现在才意识到。本书旨在照实表达出大数据的内在,而不会过火热捧它。当然,实在的革新并不在于剖析数据的机器,而在于数据自身和咱们怎么运用数据。

2003年,人类第一次破译人体基因暗码的时分,辛苦作业了十年才完结了三十亿对碱基对的排序。大约十年之后,国际规划内的基因仪每15分钟就能够完结相同的作业。在金融范畴,美国股市每天的成交量高达70亿股。而其中三分之二的买卖都是由树立在算法公式上的核算机程序完结的。这些程序运用海量数据来猜测利益和下降风险。

互联网公司更是要被数据淹没了。谷歌公司每天要处理超越24拍(等于2的50次方)字节的数据,这意味着其每天的数据处理量是美国国家图书馆全部纸质出版物所含数据量的上千倍。facebook这个创建时刻缺乏十年的公司,每天更新的相片量超越1000万张,每天人们在网站上点击“喜爱”(like)按钮或许写谈论次数大约有三十亿次,这就为facebook公司发掘用户喜爱供给了很多的数据头绪。与此同时,谷歌子公司youtube每月招待多达8亿的访客,均匀每一秒钟就会有一段长度在一小时以上的视频上传。twitter上的信息量简直每年翻一倍,到2012年,每天都会发布超越4亿条微博。

从科学研讨到医疗保险,从银行业到互联网,各个不同的范畴都在叙述着一个相似的故事,那就是爆发式添加的数据量。这种添加超越了咱们创造机器的速度,乃至超越了咱们的幻想。

咱们周围到底有多少数据?添加的速度有多快?许多人企图丈量出一个切当的数字。虽然丈量的目标和办法有所不同,但他们都获得了不同程度的成功。南加利福尼亚大学安嫩伯格通讯学院的马丁·希尔伯特(martin hilbert)进行了一个比较全面的研讨,他企图得出人类所创造、存储和传达的全部信息的切当数目。他的研讨规划不只包含书本、图画、电子邮件、相片、音乐、视频(模仿和数字),还包含电子游戏、电话、轿车导航和函件。马丁·希尔伯特还以收视率和收听率为根底,对电视、电台这些播送媒体进行了研讨。

风趣的是,在2007年,只要7%是存储在报纸、书本、图片等前言上的模仿数据,其他全部是数字数据。但在不久之前,状况却彻底不是这样的。虽然1960年就有了“信息年代”和“数字村镇”的概念,但实际上,这些概念仍然是适当新颖的。乃至在2000年的时分,数字存储信息仍只占全球数据量的四分之一;其时,别的四分之三的信息都存储在报纸、胶片、黑胶唱片和盒式磁带这类前言上。

前期数字信息的数量是不多的。关于长时刻在网上冲浪和购书的人来说,那只是一个细微的部分。事实上,在1986年的时分,国际上约40%的核算机技能都被运用在便携核算机上,那时分,全部个人电脑的处理才能之和都没有便携核算机高。可是由于数字数据的快速添加,整个形势很快就倒置过来了。依照希尔伯特的说法,数字数据的数量每三年多就会翻一倍。相反,模仿数据的数量则基本上没有添加。

工作真的在快速开展。人类存储信息量的添加速度比国际经济的添加速度快4倍,而核算机数据处理才能的添加速度则比国际经济的添加速度快9倍。难怪人们会诉苦信息过量,由于每个人都受到了这种极速开展的冲击。

把眼光放远一点,咱们能够把时下的信息激流与1439年前后古登堡创造印刷机时形成的信息爆破相比照。前史学家伊丽莎白·爱森斯坦(elizabeth eisenstein)发现,1453—1503年,这50年之间大约有800万本书本被印刷,比1200年之前君士坦丁堡树立以来整个欧洲全部的手抄书还要多。换言之,欧洲的信息存储量花了50年才添加了一倍(其时的欧洲还占有了国际上大部分的信息存储比例),而现在大约每三年就能添加一倍。

这种添加意味着什么呢?彼特·诺维格(peter norvig)是谷歌的人工智能专家,也曾任职于美国宇航局喷气推动实验室,他喜爱把这种添加与图画进行类比。首要,他要咱们想想来自法国拉斯科洞『穴』岩画上的标志『性』的马。这些画能够追溯到一万七千年之前的旧石器年代。然后,再想想一张马的相片,想想毕加索的画也能够,看起来和那些洞『穴』岩画没有多大的不同。事实上,毕加索看到那些洞『穴』岩画的时分就曾恶作剧说:“自那今后,咱们就再也没有创造出什么东西了。”

他的话既正确又不彻底正确。你回想一下岩画上的那匹马。其时要画一幅马的画需求花费好久的时刻,而现在不需求那么久了。这就是一种改动,虽然改动的或许不是最中心的部分——究竟这仍然是一幅马的图画。可是诺维格说,幻想一下,现在咱们能每秒钟播映24幅不同形状的马的图片,这就是一种由突变导致的突变:一部电影与一幅静态的画有本质上的差异!大数据也相同,突变导致突变。物理学和生物学都告知咱们,当咱们改动规划时,事物的状况有时也会发作改动。

咱们就以纳米技能来为例。纳米技能就是让全部变小而不是变大。其原理就是当事物抵达分子的等级时,它的物理『性』质就会发作改动。一旦你知道这些新的『性』质,你就能够用相同的质料来做曾经无法做的工作。铜本来是用来导电的物质,但它一旦抵达纳米等级就不能在磁场中导电了。银离子具有抗菌『性』,但当它以分子方式存在的时分,这种『性』质会消失。一旦抵达纳米等级,金属能够变得柔软,陶土能够具有弹『性』。相同,当咱们添加所使用的数据量时,咱们就能够做很多在小数据量的根底上无法完结的工作。

有时分,咱们以为束缚咱们日子的那些束缚,关于人间万物都有着相同的束缚力。事实上,虽然规则相同,可是咱们能够感触到的束缚,很或许只对咱们这样标准的事物起作用。关于人类来说,仅有一个最重要的物理规律就是万有引力规律。这个规律无时无刻不在操控着咱们。但关于细微的昆虫来说,重力是无关紧要的。对它们而言,物理国际中有用的束缚是地表张力,这个张力能够让它们在水上自在行走而不会掉下去。但人类关于地表张力毫不介意。

关于万有引力发生的束缚作用而言,生物体的巨细是十分重要的。相似地,关于信息而言,规划也是十分重要的。谷歌能够几近完美地给出和依据很多实在病例信息所得到的流感状况共同的成果,并且简直是实时的,比疾控中心快多了。相同,farecast能够猜测机票价格的动摇,然后让顾客实在在经济上获利。它们之所以如此给力,都由于存在供其剖析的数千亿计的数据项。

虽然咱们仍处于大数据年代降临的前夕,但咱们的日常日子现已离不开它了。垃圾邮件过滤器能够主动过滤垃圾邮件,虽然它并不知道“发#票#销#售”是“发票出售”的一种变体。结交网站依据个人的『性』格与之前成功配对的情侣之间的相关来进行新的配对。具有“主动改正”功用的智能手机经过剖析咱们曾经的输入,将个『性』化的新单词添加到手机词典里。但是,关于这些数据的使用还仅仅只是一个开端。从能够主动转弯和刹车的轿车,到ibm沃特森超级电脑在游戏节目《风险边际》(jeopardy)中打败人类来看,这项技能终将会改动咱们所寓居的星球的许多东西。
大数据年代 在线阅览:
第 1 页第 2 页
下载地址: 点击下载TXT
更多>>

本栏下载排行

更多>>

相关下载