大数据时代互联网企业面临的机遇与挑战论文

大数据时代互联网企业面临的机遇与挑战论文

ID:292057

大小:186.00 KB

页数:44页

时间:2017-07-18

上传者:chess95660
大数据时代互联网企业面临的机遇与挑战论文_第1页
大数据时代互联网企业面临的机遇与挑战论文_第2页
大数据时代互联网企业面临的机遇与挑战论文_第3页
大数据时代互联网企业面临的机遇与挑战论文_第4页
大数据时代互联网企业面临的机遇与挑战论文_第5页
资源描述:

《大数据时代互联网企业面临的机遇与挑战论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

学年论文大数据时代互联网企业面临的机遇与挑战 毕业设计(论文)原创性声明和使用授权说明原创性声明本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。作者签名:     日 期:     指导教师签名:     日  期:     使用授权说明本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。作者签名:     日 期:     VI 学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名:日期:年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权    大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。涉密论文按学校规定处理。作者签名:日期:年月日导师签名:日期:年月日VI 注意事项1.设计(论文)的内容包括:1)封面(按教务处制定的标准封面格式制作)2)原创性声明3)中文摘要(300字左右)、关键词4)外文摘要、关键词5)目次页(附件不统一编入)6)论文主体部分:引言(或绪论)、正文、结论7)参考文献8)致谢9)附录(对论文支持必要时)2.论文字数要求:理工类设计(论文)正文字数不少于1万字(不包括图纸、程序清单等),文科类论文正文字数不少于1.2万字。3.附件包括:任务书、开题报告、外文译文、译文原文(复印件)。4.文字、图表要求:1)文字通顺,语言流畅,书写字迹工整,打印字体及大小符合要求,无错别字,不准请他人代写2)工程设计类题目的图纸,要求部分用尺规绘制,部分用计算机绘制,所有图纸应符合国家技术标准规范。图表整洁,布局合理,文字注释必须使用工程字书写,不准用徒手画3)毕业论文须用A4单面打印,论文50页以上的双面打印4)图表应绘制于无格子的页面上5)软件工程类课题应有程序清单,并提供电子文档5.装订顺序1)设计(论文)2)附件:按照任务书、开题报告、外文译文、译文原文(复印件)次序装订3)其它VI 摘要伴随着互联网的快速发展,全球数据量出现爆炸式增长。2013年全球每天产生25PB数据,相当于1500个国家图书馆信息量总和,中国网名数量已超6亿,百度搜索引擎每天响应60亿次搜索需求。数据已经渗透到每一个行业和领域,成为企业发展的风向标,大数据时代正在汹涌来袭,越来越多的行业正试图挖掘大数据的价值,然而,对海量且庞杂的数据进行储存、管理、挖掘乃至可视化的呈现都是新的挑战。大数据时代的到来,不仅给我们的生活带来许多便捷,而且能够创造一定的商业价值,所以当今社也开始加大对大数据的研究。比如现在的金融行业、政府、教育等多个方面的行业也开始利用大数据来提高工作效率。企业也开始投身于对大数据的技术研究与挖掘,因为大数据能够给商业行业创造一定的价值。所以本文就从大数据的发展和应用来剖析大数据到底是如何对我们社会造成影响的,同时分析大数据当前所面临的一些挑战。关键词:大数据互联网企业挑战商业价值VI AbstractWiththerapiddevelopmentofInternet,globalexplosivegrowthinthevolumeofdata.Pb25globalproducedeveryday,2013,equivalentto1500countries,libraryinformationcombinedChinesenetizensnumberhasmorethan600million,baidusearchenginesearchdemandresponse6billiontimesaday.Datahasbeenpenetratedintoeveryindustryandfield,asanindicatorofenterprisedevelopment,bigdataeraisrough,moreandmoreindustryistryingtodigthevalueofbigdata,however,themassandavastamountofdatastorage,management,miningandvisualizationrenderingisanewchallenge.Theadventoftheeraofbigdata,notonlybringmanyconveniencetoourlife,butalsocancreatecertaincommercialvalue,sotheclubbegantointensifythestudyoflargedata.Suchastoday'sfinancialindustry,government,education,andotheraspectsoftheindustryalsobegantousebigdatatoimprovetheworkefficiency.Enterprisealsohasbeenheavilyinvolvedintheresearchonbigdatatechnologyandmining,becauseofbigdatacancreateavalueforthecommercialindustry.Sothisarticlefromthedevelopmentandapplicationofbigdatatoanalyzethelargedataishowtocontributetooursociety,andanalyzinglargedatacurrentlyfacingsomechallenges.Keywords:BigdataInternetcompanieschallengeCommercialvalueVI 目录摘要……………………………………………………………………………………IAbstract……………………………………………………………………………II目录…………………………………………………………………………………III1绪论………………………………………………………………………………12大数据概述…………………………………………………………………………22.1大数据时代产生的背景………………………………………………………22.2什么是大数据?………………………………………………………………22.3大数据四个特性………………………………………………………………32.4大数据时代对生活、工作的影响……………………………………………43互联网企业的机遇与挑战…………………………………………………………63.1互联网企业加速构建大数据生态系统……………………………………63.2互联网企业现状……………………………………………………………83.3大数据时代的互联网面临的问题…………………………………………94互联网企业对大数据的策略……………………………………………………144.1互联网企业抢先布局大数据………………………………………………144.2小米式大数据………………………………………………………………154.3百度建大数据中心…………………………………………………………164.4阿里如何对待大数据……………………………………………………184.5互联网企业对待大数据的不同思路………………………………………255企业应如何应对大数据时代……………………………………………………295.1企业如何从网络大数据中挖掘市场新需求………………………………295.2互联网企业如何应用大数据………………………………………………33结论…………………………………………………………………………………35参考文献……………………………………………………………………………37VI 1绪论随着互联网的发展,网络已经是我们日常生活中的必需品,互联网使用人数的增加,数据量也开始增多。数据处理给人们在生活和工作上带来的便捷和效率,人们也开始投身于对大数据的研究。现今大数据的应用不仅仅局限于商业领域,在教育、国家政府、科研等各方面,大数据都已经开始在发挥着巨大的影响力。所以大数据也将会成为当今社会的一种重要资源。虽然大数据目前在国内还处于初级阶段,但是商业价值已经显现出来。未来,数据可能成为最大的交易商品。但数据量大并不能算是大数据,大数据的特征是数据量大、数据种类多、非标准化数据的价值最大化。因此,大数据的价值是通过数据共享、交叉复用后获取最大的数据价值。在他看来,未来大数据将会如基础设施一样,有数据提供方、管理者、监管者,数据的交叉复用将大数据变成一大产业。近些年,大数据已经和云计算一样,成为时代的话题。大数据是怎么产生的,商业机会在哪?研究机会在哪?这个概念孕育着一个怎样的未来?企业如何应对?一个好的企业应该未雨绸缪,从现在开始就应该着手准备,为企业的后期的数据收集和分析做好准备。互联网时代,“资源”的含义正在发生极大的变化,它已不再仅仅只是指煤、石油、矿产等一些看得见、摸得着的实体,“大数据”,也正在演变成不可或缺的战略资源。互联网、物联网每天都在产生大量的数据,这些庞大的数据资源,为人们依据数据了解世界、了解市场、了解人们的生活提供了可能。大数据已经被视为一种资产、一种财富、一种可以被衡量和计算的价值。得大数据者得天下,是一些推崇大数据时代的变革者所坚信不疑的判断。很多专家认为,在大数据时代,谁能有效的垄断数据,谁就有可能成为世界的霸主。37 2大数据概述2.1大数据时代产生的背景 进入2012年以来,大数据(Big Data)一词越来越多地被提及与使用,人们用它来描述和定义信息爆炸时代产生的海量数,它已经出现过在《纽约时报》、《华尔街时报》的专栏封面,进入美国白宫网的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的国君证劵、国泰君安、银河证劵等写进了投资推荐报告,大数据时代来临据。   有人说21世纪是数据信息时代,移动互联、社交网络、电子商务大大拓展了互联网的疆界和应用领域。我们在享受便利的同时,也无偿贡献了自己的“行踪”。现在互联网不但知道对面是一只狗,还知道这只狗喜欢什么食物,几点出去遛弯,几点回窝睡觉。我们不得不接受这个现实,每个人在互联网进入到大数据时代,都将是透明性存在。各种数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然现在企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。正如《纽约时报》2012年2月的一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。” 2.2什么是大数据? 大数据(Big 37 Data)是指那些超过传统数据库系统处理能力的数据。它的数据规模和转输速度要求很高,或者其结构不适合原本的数据库系统。为了获取大数据中的价值,我们必须选择另一种方式来处理它。数据中隐藏着有价值的模式和信息,在以往需要相当的时间和成本才能提取这些信息。如沃尔玛或谷歌这类领先企业都要付高昂的代价才能从大数据中挖掘信息。而当今的各种资源,如硬件、云架构和开源软件使得大数据的处理更为方便和廉价。即使是在车库中创业的公司也可以用较低的价格租用云服务时间了。对于企业组织来讲,大数据的价值体现在两个方面:分析使用和二次开发。对大数据进行分析能揭示隐藏其中的信息。例如零售业中对门店销售、地理和社会信息的分析能提升对客户的理解。对大数据的二次开发则是那些成功的网络公司的长项。例如Facebook通过结合大量用户信息,定制出高度个性化的用户体验,并创造出一种新的广告模式。这种通过大数据创造出新产品和服务的商业行为并非巧合,谷歌、雅虎、亚马逊和Facebook它们都是大数据时代的创新者。 2.3大数据四个特性 海量性:企业面临着数据量的大规模增长。例如,IDC最近的报告预测称,到2020年,全球数据量将扩大50倍。目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十TB到数PB不等。简而言之,存储1PB数据将需要两万台配备50GB硬盘的个人电脑。此外,各种意想不到的来源都能产生数据。 多样性:一个普遍观点认为,人们使用互联网搜索是形成数据多样性的主要原因,这一看法部分正确。然而,数据多样性的增加主要是由于新型多结构数据,以及包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等数据类型造成。其中,部分传感器安装在火车、汽车和飞机上,每个传感器都增加了数据的多样性。 高速性:高速描述的是数据被创建和移动的速度。在高速网络时代,通过基于实现软件性能优化的高速电脑处理器和服务器,创建实时数据流已成为流行趋势。企业不仅需要了解如何快速创建数据,还必须知道如何快速处理、分析并返回给用户,以满足他们的实时需求。根据IMS Research关于数据创建速度的调查,据预测,到2020年全球将拥有220亿部互联网连接设备。 37 易变性:大数据具有多层结构,这意味着大数据会呈现出多变的形式和类型。相较传统的业务数据,大数据存在不规则和模糊不清的特性,造成很难甚至无法使用传统的应用软件进行分析。传统业务数据随时间演变已拥有标准的格式,能够被标准的商务智能软件识别。目前,企业面临的挑战是处理并从各种形式呈现的复杂数据中挖掘价值。  2.4大数据时代对生活、工作的影响 大数据,其影响除了经济方面的,它同时也能在政治、文化等方面产生深远的影响,大数据可以帮助人们开启循“数”管理的模式,也是我们当下“大社会”的集中体现,三分技术,七分数据,得数据者得天下。 “大数据”的影响,增加了对信息管理专家的需求。事实上,大数据的影响并不仅仅限于信息通信产业,而是正在“吞噬”和重构很多传统行业,广泛运用数据分析手段管理和优化运营的公司其实质都是一个数据公司。麦当劳、肯德基以及苹果公司等旗舰专卖店的位置都是建立在数据分析基础之上的精准选址。而在零售业中,数据分析的技术与手段更是得到广泛的应用,传统企业如沃尔玛通过数据挖掘重塑并优化供应链,新崛起的电商如卓越亚马逊、淘宝等则通过对海量数据的掌握和分析,为用户提供更加专业化和个性化的服务。 大数据在个人隐私的方面,大量数据经常含有一些详细的潜在的能够展示有关我们的信息,逐渐引起了我们对个人隐私的担忧。一些处理大数据公司需要认真的对待这个问题。例如美国天睿资讯给人留下比较深刻印象的是他的一个科学家提出,我们不应该简单地服从法律方面的隐私保护问题,这些远远不够的,公司都应该遵从谷歌不作恶的原则,甚至更应该做出更积极的努力。到国庆之前很多人在网上搜索网游点,还有酒店,私家车的路线,根据你搜索我们知道哪个旅游点最热,那条路会堵,真正发生黄金周的时候提前可以知道,大家可以用微信短信研究发生的热点。百度成立了定位事业部,以地图为载体,覆盖到餐饮、KTV、上商场等。阿里有保护中心,在移动端加强与高德地图合作。腾讯推出会员卡,加上财富通和搜搜地图,线上线下本地化营销你可以看到现在我们所有网络都要跟地图结合。要跟位置结合,要跟本地生活结合。大数据提供医疗这个同时谷歌判断每个一个城市产生流感,一旦这个地方有流感,网民会搜索我这个症状是不是流感,到哪个医院治好,谷歌跟这些判断哪个地方有流感,这个可以体现预测到。37 我们利用短信、微博微信我们知道收集热点和舆情,腾讯对每个用户都建档案。一个老头注册的时候说是18岁少女,无论用什么假名你在网上时间长了一定露出你的本性,他说我不但知道你是男的,女的,老的,少的,我还知道哪是神经病。如果公安局要查神经病我可以提供一堆神经病的IP地址。洛杉矶可以告诉你今天哪个街区会犯罪,今天是哪个地方多就巡逻那个地方,其他不怎么巡逻,发现大大节警力而且犯罪率下降。现在进一步发展这是微软比尔盖茨,他对全世界员工讲话,现在只要找到一张比尔盖茨照片把比尔盖茨声音传过来,动嘴巴,口形和表情对应。我让这计算机看一个猫,我看完以后让计算机看两万张没有看过的照片,找猫达到15.8%。有一个大学教授搞人脸识别系统,你不要随便应答我就知道你张三李四来的。大家在街上看到某个人带着不像自己的小孩,拍下来送到百度网站对比,如果对比率达到100%,百度就会通知家长来认。手机都有摄象头,你只要一得手机就可以打开了。你现在相亲,长多高多富都很难弄,他说我希望这个女的长的多漂亮,选一个你认为漂亮的女生一对脸,在网站找一个差不多的就会提供你这样的女生。大家有这么多访问谷歌,网上有这么多文章,我可以在这个里面找到例句,我根据规则,只要跟例句差不多就可以了。现在翻译用途也是很多的。百度可以看到这是昨天统计今日电影排行榜,小时代,环太平洋等我说有些电影不好看,我只管收集热,也可能骂得人多了也排在上面,不见得排上面最好。前一段富二代,什么富春山居图,小时代什么不好的电影也上来了,我们可以看热点人物。现在互联网企业当轻运营商,我们看到互联网现在企业除了管道需要运营商,现在其他东西都不需要依靠运营商都需要独立判断。公安局有微信公众号,招商银行也有,这些都可以很好的各种各样的增值服务都可以出现。电信运营商开展互联网活动,银行做电商互联网企业做金融,阿里控制电商的入口,腾讯主刀线交入口,他们希望向对方业务拓展,固定想做移动,移动想做固定,广播做电信,电信想做广播,运营的卖手机,手机的想做运营,现在很难区分大家的业务。我们看到自留地要种,别的也要搞,现在整个是浑浊了。电商和搜索会产生新的业态。37 互联网产生大数据,移动互联网和物联网进一步推动数据的暴涨,网络中心体现去中心化,大数据促进了信息融合和产业跨界结合,大数据引发更多新业态出现,大数据对互联网发展是机遇也是挑战,是对我们国家互联网创新能力的一次大考。3互联网企业的机遇与挑战3.1互联网企业加速构建大数据生态系统当前,大数据产业风起云涌,互联网企业、运营商加速角逐。运营商在数据的真实性、广泛性方面有着优势,但在数据深度方面逊色于互联网企业。面对实力雄厚的运营商,互联网企业利用对用户需求把握更精准的优势,纷纷构建基于自身数据平台的大数据生态系统。而运营商受制于体制机制的因素,大数据商业应用推进缓慢。运营商如何才能更好地应对大数据产业浪潮呢?互联网企业加速构建大数据生态系统。当前,互联网企业正加速抢占数据入口,建立数据平台,构造基于自身数据平台的大数据生态系统。在基础设施方面,谷歌全球36个数据中心均采用了领先的云计算技术和架构,并斥巨资参与承建跨太平洋海底光缆、美国境内光缆;在大数据技术方面,其自主创新技术在全球领先,谷歌公司的工程师发表了多篇关于大数据的论文,通过开源方式向业界扩散,主导技术方向,为了加快大数据技术的整合,谷歌并购了数个与大数据技术密切相关的互联网公司;在人才方面,谷歌不惜重金聘请有真才实学的人,并给员工提供了极为宽松和自由的研发工作环境;在数据获取方面,除了谷歌早期的搜索引擎外,谷歌的其他产品,如图片数据、翻译行为、位置数据谷歌地图、社交数据、视频数据、游戏数据、邮件等都为谷歌的大数据研究和应用提供了海量数据。目前,谷歌的大数据产品线已经初具规模,主要包括盈利性很强的精准广告及比较成熟的谷歌趋势、谷歌分析、谷歌机器翻译、谷歌拼写检查等,谷歌也保留了其大数据在社会公益上的一些应用,公开披露的数据包括疾病预测、反人口贩卖等方面。37 国内的互联网企业在大数据方面比较成功的是淘宝。淘宝依靠对买家和卖家的服务,积累了大量的数据资源,淘宝网上有超过10亿件产品,无数的用户每天有30亿以上的浏览、评价,以及几千万次的成功交易,提供了有针对性的大量真实数据,在贸易、商品和生活领域,淘宝具有得天独厚的优势。为了有效利用这些数据,淘宝由浅入深、由简到繁建立了一套大数据的采集整理和挖掘平台,一方面更好地满足了买家和卖家的需求,另一方面也在零售、批发和宏观经济预测方面有了权威的声音。借助大数据平台,淘宝领先破冰了互联网金融,其拳头产品余额宝将掀起金融行业的变革。国内互联网企业在大数据方面大力耕耘的还有百度、腾讯、苏宁、平安、国美等公司,他们都有不错的应用和业绩。通信运营企业大数据商业应用相对滞后,反观通信运营商,虽然拥有较为全面真实的数据资源,但受制于体制以及数据深度不足,在大数据商业应用方面存在一些问题,应用相对滞后。与互联网公司相比,运营商要将资源优势转化为经营优势,尽管三家运营商在大数据应用方面有一些差别,但都面临几个方面的共同障碍,包括:——自身IT系统设施滞后。缺乏统一数据体系,数据的集中化、统一化、标准化还需进一步提高;缺少统一开放的平台为SP/CP或者大中型企业提供开放的API接口;ERP、人力资源、工程项目、采购和部分财务管理无法集中数据互通共享。——产业链的组织没有统一有效的考虑。运营商、集成商、设备商之间产业链环节多,需求传导慢,难以适应大数据所需的快速迭代需求,难以在成本和速度上与互联网进行有力竞争。——内部机制陈旧。运营商内部大部分管理者在理念上对大数据还是一个概念阶段,在驱动力上都还停留在一个比较传统的阶段,大数据还是处于研究人员的试验阶段,考核的内容和指标尚没有一个明确的框架,经营管理中大数据元素还没有真正地融入运营体系之中。——大数据方面的人才匮乏。由于大数据技术还是一个比较新的东西,需要一段时间学习,此外,在国企内部员工的主流价值观和话语权还是取决于管理级别的高低,在大数据方面的成长并非是一条轻松之路。运营商的应对之策:开放合作提升价值那么,在现阶段的情况下,运营商如何才能抓住大数据的快速发展机遇呢?37 一是,内部用好大数据是运营商的当务之急。大数据的应用主要是为运营商其他业务提供后台智能化支撑。运营商王牌业务仍然是宽带和流量产品,大数据内部应用侧重为这些业务提供支撑。为此,运营商需要识别出能够采用大数据取得最大效益的内部应用方向,将外部业务需求转换成实际的数据需求。运营商做好大数据的使用,应该聚焦在两个目标:降低运营成本和提升用户体验。二是,面向外部,开放合作才是运营商价值转化的必由之路。与互联网企业相比,运营商在大数据信息化市场运作中存在不足之处。因此,运营商要将大数据服务向网络产品外的领域拓展,需要借助第三方,以便作为大数据提供者的角色出现,对政务、公共服务、商业企业领域等提供大数据服务。3.2互联网企业现状3.2.1百度百度作为中国最大的搜索引擎,在中国和中文互联网领域各项排行中不是最大就是最多。2012年,百度日均抓取约10亿网页,处理超过100PB(1PB=1024TB)的数据。过去10年,百度网页搜索库已从500万猛增到了500亿个页面。从公开的材料看,百度的大数据战略往往与云计算百度作为中国最大的搜索引擎,在中国和中文互联网领域各项排行中不是最大就是最多。2012年,百度日均抓取约10亿网页,处理超过100PB(1PB=1024TB)的数据。过去10年,百度网页搜索库已从500万猛增到了500亿个页面。从公开的材料看,百度的大数据战略往往与云计算相关。3.2.2腾讯腾讯自称“目前中国最大的互联网综合服务提供商之一,也是中国服务用户最多的互联网企业之一”,拥有超过7.52亿QQ即时通讯活跃账户,1亿微信用户、4.25亿微博用户和超过1亿的视频用户。在积累了个人用户多方面的海量数据后,2012年腾讯提出了“大数据营销”的概念。腾讯网总编辑陈菊红表示“将从这些海量数据中挖掘、分辨出用户的行为模式、兴趣偏好等,打造专属于每个人的智慧门户。”腾讯不仅在各大产品线中都设置了数据挖掘团队,还在和一些第三方数据挖掘公司、营销公司展开合作洽谈,充分挖掘用户在网上的行为、关系、UGC(用户产生的内容)等数据,“通过合理的方法找到对企业有帮助的数据,并且将营销预算合理的分配在为数众多的数据来源平台上”37 ,从而提高营销效率。2011年4月腾讯追加在天津的数据中心建设投资,欲建立亚洲最大的数据储备处理中心。3.2.3阿里淘宝相比中国用户最多的两家互联网企业,淘宝在大数据方面的举措丝毫不逊色,因为几乎所有淘宝业务都依赖淘宝数据库。每天大约有6000万用户登录淘宝网,约20亿页面浏览量(PV)。淘宝所使用的OceanBase分布式数据库,在基准数据和增量数据基础上,实现不同部门对数千亿条记录、数百TB数据上的跨行跨表事务共同完成,并支持每天4000~5000万的更新操作。早在2009年淘宝便自建大型数据库,并通过对全国淘宝购买数据的挖掘发布了2011年淘宝中国地图,对其掌握的大量用户交易数据进行了形象的展示。在利用大数据为提高用户购物体验的旗号下,淘宝根据长尾原理充分利用大数据挖掘技术,建设开放平台,提供各种增值服务。3.2.4中国移动作为中国最大的移动通讯运营商,截至2012年4月底,中国移动用户数已经达到6.7亿。同时,中国移动正在谋求从移动运营商的管道角色向客户端制造和云端服务两个方向发展。而大数据业务的投入,为此提供了机遇。2011年第四季度中国移动先后与内蒙古自治区和黑龙江省签署合作协议,在呼和浩特、哈尔滨建设全国规模最大、技术最先进、能耗最低的云计算数据中心。2012年2月又确定在成都建立西部最大数据中心,完成了其在国内数据中心的三大数据基地布局.3.3大数据时代的互联网面临的问题在大数据时代,传统公司都羡慕互联网公司的能够掌控海量数据。但玩好数据这件事其实并不容易。3.3.1互联网生产大数据37 城市现在都有摄象头,一个小时产生很多的数据,几十万个摄象头,数据达到数百个TB,所以这个数据非常大。除了政府以外企业产生大数据波音飞机,每个飞机来回都产生TB的数据。每几毫秒都测一个数据,每年数据很大,国家电网公司到去年10月份他收集数据很大,中国联通对用户上网都有记录,一个月记录一万多条,对应的数据量是几百个TB。医疗也是一个大数据人们看医院的病例可以看到,医疗数据一个大脑的CT扫描图要让它分辨率很高,微米的数据量产生是4.5TB的数据。现在像北京大学301医院门诊量一万人,同时按照医疗规定一个患者的数据要保存50年。这个图上广州中山大学医院,2008年这个医院数据是100个TB、到2013年是1000个TB。 淘宝网去年光棍节每分钟几十个TB的数据,腾讯每天有5万次计算,所以你可以看到网络有很多大数据,更多的数据量产生。美国的网站每分钟有72小时视频监控上载,互联网达到720TB每秒,相当于全世界有6亿人同时看不同的高清电影。2016年互联网三分钟传授300万小时的视频,相当于所有全世界生产电影,要34年不吃饭不睡觉才可以看完电影。最近美国网站上载的网量等于美国三大电视台所有电视播出总和。今年五月份中国视频网有3.95亿,当时统计网民是5.95亿。这个图象左边图是互联网的网民人均一个月使用的流量,08年达到一个G,到明年人均下载流量超过十个G。现在大概全世界新产生的数据量每年增加14%,也就是说互联网每两年翻一番。2012年和2013年互联网所产生的流量等于人们有意识以来,一直到2011年所产生的数据量总和,两年等于一万年。2011年全世界互联网总量1.8个GB。2020年全世界的数据达到40个GB。这个重量相当于多少,相当于424艘美国的尼美兹号航母。3.3.2大数据变革互联网大数据出现对互联网有很大的影响。有一种方式是演进型的,还有不考虑和互联网兼容我们说革命性的也有这个技术提案。两个方面技术提案彼此可以相用。现在很难说哪一种更能解决,总得来说我们希望互联网更安全更可信的。现在提的方式物理和逻辑分离,物理上有71个,和逻辑上分割办法对应不同服务,有视频的服务,数据服务,不同服务要求的服务质量是不一样的,所以物理上是一个网络,逻辑上可以组成不同网络,我们说把网络虚拟化,物理和逻辑分离。37 其次传统路由器,有传送功能,也有控制功能,有业务功能,大数据出现我们发现网络上时空不对应,很难判断我哪个地方流量最高这个可以变的,因此现在变法把路由器网络控制功能抽出来,形成一个网络控制系统,把业务功能抽出来形成业务系统。灵活实现控制平面的建构,对于大数据流量是一种改型。随着流量增大,大部分流量过路多,落地少,凡是在光强上做的,就别在电厂做,凡是在IP上可以做的就不再IPO上做。IPO总召唤转变为承载,这只是一个包装,不是做一个召唤的功能了。召唤我们应该将来向召唤中心,要从承载分开。另外就是传统互联网IP地址表示主机的身份这个很正常,移动互联网的出现这个计算机从这到这里,位置变了,用户的身份没有变。身份和位置分离,身份在应用层面表示,这样分离好处支持移动性改变安全性。到2015年所有的数据中心一半多以上都是云计算中心,都是大容量的。云中心一般考虑放在什么地方?一般考虑气候、能源工业,我们国家云计算中心会向高纬度地区集中,比如说内蒙一些凉快的地方迁徙,像谷歌把他云计算中心放在摩洛哥,因为那比较凉快。数据中心大部分在北京、上海、广州,而未来数据中心会放在内蒙偏远的地方,将来云计算的出现会把用户以信息源为中心,向以能源为中心改变,中心节点发生变化。过去我们上海、北京、广州是中心,现在随着大数据出现发现了不能这样做,我们需要增加这个数据和中心,美国网建互联中心有八个,我们现在有三个,中信部有计划增加这个中心。全世界看来峰值国际流量增加3%,这个绝对值国际流量增加,相对值就是说拉丁美洲的用户到美国访问量占整个国家的流量比较,亚洲、欧洲、和非洲的。尽管国际流量增加,但是国际流量占整个流量比例是下降的,直接互联导致全国互联网去中心化。现在谷歌纷纷在中国香港等等地方上节点,这时候对外的访问没必要跨洋过海到美国去访问,你可以在本地,这个意义上国际互连网流量比例在下降,所以说全球互联网去中心化。另外大数据区域网络扁平化,这是中国电信的图,现在随着大数据出现所有省之间都直连,不这样安排根本没有办法支持这么大的流量。还有城域网的体系化,大计算机大的主机,我们很时髦客户服务器,所有客户访问网络都到服务器上,一个热门的结果这个服务器要传送无数遍给终端,每个终端需要在热门的地方下载一小部分,另外一个终端小在另外一小部分互相交换。我们叫P2P。这个终端访问服务器数据量很大,不是一个服务器装得下的,你可能只访问一次,但是服务器的交换很多,基本以上服务器之间在增长,进一步发展服务器增长变成云了,过去我们是客户的服务器,现在客户到云C2C,城域网体系要进行云化。37 内容分配网络化,为了让用户更好更快接受,要做内容分配网。我国电信运营商在靠近用户的地方建了很多CDN,这样适应大家更快访问视频,CDN的部署对互联网流量流向产生了影响,我国国际互连网占比是降低的,网间流量比例也是降低的,绝对值增加,但是本地化的访问更多了,远端的访问降下来了。移动网络一样,过去电话走电流交换,原来有基站,激战控制器网关。还有移动通讯天线分布化,我国移动通讯呼叫2009年所有呼叫发生室内是63%,家里29%,办公室占14%,越是大数据时代这个比例越来越高,室内转到WIFI,WIFI多了互相干扰,使用小蜂窝的技术,可以范围很小,损耗很小,因此调试率可以增加。一个蜂窝分成多个分布式的天线,这样有些蜂窝加上基站,但是蜂窝之间是统筹的,干扰统筹来解决数据量的传输问题。从互联网到移动互联网将带来很大变化。互联网原来面向有线,由此用TC和IP没有问题。可是移动互联网的无线电路不可靠,如果继续用TCPR老同选,因此需要加入纠错编码,互联网面向PC端的,移动互联网自动检测网络的带宽和分辨。在传统电话话音传一百米到六百米,需要传一笔先令。IBM从互联网新闻上PMI,一般PMI是政府上。美国印地安纳大学的学者,与谷歌提供情绪,从用户尽千万留言算道琼斯指数准确率到87%,淘宝的CPI和国家统计的CPI不一样,但是淘宝的CPI更能反映物价搬动。国家统计局的CPI主要参数是食品,经济好与不好除非太差人们才会把食品开支省下来,否则不会省吃饭的钱,淘宝反映买服装首饰,如果经济不好会反映出来,所以首长到淘宝看了一下说你们每天把这个数据送到中南海。大数据提供咨询服务,有一个人收集各个地块的产量和数据,哪个农产主问我明年种什么赚钱,他说赔了我赔你,比保险还要高。我在山东寿光看那个横幅,他说当地黄瓜一块钱一斤,当地黄光一毛钱一斤。农业除了天气占领市场心声,没有完全对企业都好的心声,可以用大数据提供咨询服务,还可以利用大数据到超市买东西,到超市买东西都打出条来,超市可以根据这个调配货物。哪些客户是最好买东西的客户,女性顾客最能舍得出买东西,女性里面孕妇,找出一些孕妇最常买的产品,没有刺激性的化妆品,关注一些婴儿东西等等,他判断这个是婴儿会把信息推送给他。37 人人网通过客户关系的分析,游戏业务取得100%的增长。大家淘宝上买东西阿里公司把你的IP地址记下来,买首饰的用户IP地址,买化妆品的用户IP地址,买服装的IP地址,拿出来让卖化妆品和服装人竞价买这个IP地址。也就是阿里和商家网店得可以赚钱。百度搜索排名优先推荐,央视广告效果谁知道怎么样?央视去年的广告收入269亿人民币,百度广告收入229亿人民币,百度广告连增50%几,央视才增百分之十几,现在发现百度是我的竞争对手。3.3.3推动视频与互联网的融合乐视网买到甄环传的网络播出独家权,搜狐视频拿下了中国好声音的版权,还有腾讯视频有一些快男被淘汰了,还可以复活,靠什么在YY上买东西复活选手。现在变成一个新媒体的融合平台。大数据提供集资服务,我们经济有压力,压力根据中小企业在平台上的表现,选出放心的中小企业,放贷一千多个亿,坏账率只有1.3%。今年7月份统计阿里靠贷款每天利息一百万,京东收购了网民在线,从信用卡分期贷款,你在京东买东西留地址什么,他提供贷款。苏宁建立小贷公司解决贷款问题,他为了他的营销创造很好的条件。37 4互联网企业对大数据的策略4.1互联网企业抢先布局大数据眼下,百度正向云搜索转型,阿里巴巴喊出了云商务的口号,迅雷则专注于云加速……种种迹象显示,大数据时代已经到来。国外研究机构的数据显示,全球大数据市场将在未来五年内迎来高达26%的年复合增长率,即从今年的148.7亿美元增长到2018年的463.4亿美元。如此爆炸式的增长,是百度、阿里巴巴和迅雷等互联网企业抢先布局大数据的原因所在。几年前,物联网上升至国家战略,作为物联网嫡系的大数据,其重要性已经被嗅觉敏锐的互联网巨头们发现,并拉开了向大数据转型的序幕。时至今日,我们的日常生活已经被大数据包围,而大数据也为人们生活带来了诸多便利。以往,用户在电脑上观看一部影片,想在平板电脑或智能手机上继续观看,只能快速拖动播放条。在大数据的支撑下,用户在电脑上的播放记录,可以自动同步到平板电脑、智能手机等各个接入互联网的设备上。再看一些健康类APP,可以通过安装在智能手机中的APP来监测人的运动情况,将数据上传至服务器端进行数据分析,根据云端其他用户上传的数据进行综合对比,为用户提供更合理的运动建议。除了为用户带来诸多便利外,大数据也为银行、医院带来了颠覆性的变革。借助大数据技术,银行能够更直观的评估企业的负债能力和盈利能力,为合理放贷提供了更有力的参考数据。正因于此,很多企业纷纷拥抱大数据。从技术角度来说,百度的云搜索,银行的大数据金融,以及迅雷的云加速,都是大数据的应用之一。追根溯源,大数据备受企业青睐,是企业旺盛需求的必然产物。具体来说,银行需要大数据提供准确的参考数据,用户需要迅雷的云加速来改善网络传输效果。37 4.2小米式大数据小米论坛在短短四年时间里,拥有注册用户2000万,总发帖量超过两亿条。其中,操作系统MIUI就收集到上亿个用户反馈贴,帖子打印出来的纸张可绕地球一圈。两亿条用户反馈贴,是不是大数据呢?当然是,都是客户意见、建议的真实表达,都是需求、问题的直接陈述,是含金量极高的大数据,是许多手机厂商艳羡的大数据。被冠以“小米口碑营销内部手册”的《参与感》对大数据只字未提,笔者也未搜索到雷军在公开讲述小米模式时提及大数据。但这不表明雷军不重视大数据,作为全国人大代表,他2014年的提案就是《关于加快实施大数据国家战略的建议》。我以为小米是目前大数据应用最成功的企业之一。大数据背后是海量的客户,要让数量不多的员工,真正面对数百万、甚至上千万的客户,这在互联网出现以前简直是天方夜谭。传统媒体也能面对巨量的客户,比如人民日报,据官方数据,2013年1月1日,人民日报发行量超过300万份。但这是单向的,只是人民日报把党的声音传递给大家;这300多万读者(甚至更多,1张报纸可能多人看)的想法是无法都反馈给人民日报的;即使大家都写信给人民日报表达自己的心声,人民日报也没有足够的工作人员来拆读这些来信,也没有足够的版面来刊登这些来信。互联网的出现,尤其是社交媒体的出现,让企业、员工面对巨量客户变为可能。让我们看看小米论坛是怎样处理海量的用户需求的:首先,在论坛做恰当的帖子辅助功能,帮助用户尽量格式化提交需求;其次,用户在碰到同样需求的同时,能直接跟着表达“我也需要这个功能”。这样,每周下来,紧急的功能开发需求自然会按热度排到帖子前面。小米将数据处理前移到了数据生成之前。小米论坛里的这个小小的按钮——“我也需要这个功能”,顶得上成千上万封人民日报读者来信主要观点的统计,顶得上无数场“焦点小组”的讨论收集的客户需求。这个小小的按钮,将有相近表达的人汇聚在了一起,小米员工对这个议题的回复,所有的人都能看见,无需一一回复。这就是大数据的力量。当然,大数据技术远比这个按钮要复杂得多。37 阿里巴巴集团数据委员会委员长车品觉说:大数据的本质就是还原用户的真实需求。与其在数据中去找寻客户的意见、需求,那何不让企业、员工直接面对客户呢?小米更具革命性的做法是,要求员工全员泡论坛、刷微博。在小米,泡论坛就是工作。对那些认为小米客服面对用户就行了的工程师,小米联合创始人黎万强曾这样说:“在小米不能这样干,如果你不理解,你就把它当成工作考核”,而小米是没有KPI考核的。这说到底是让员工浸泡在大数据里,泡在客户堆里。泡论坛可以了解客户需求,收集产品问题;可以回复用户的意见、建议;也可以追问用户问题,与用户进一步的沟通。小米员工泡论坛,让论坛上的小米用户倍感亲切,他们的声音有人倾听,他们的意见有可能被采纳,小米着力营造的参与感就显现出来了。这极大的鼓舞了论坛用户的活跃。通过论坛,小米用户真正参与了产品、营销的设计。这带来了一个企业与用户共赢的局面,企业根据用户意见改进产品,用户也拿到了自己想要的功能和产品。更为重要的是,泡论坛实现了员工激励。相对于一个冷冰冰的大数据结果传到员工那里,以此指导员工工作;让员工直接面对客户,结合自己的工作来应用数据,员工的积极性会更高。小米员工直接面对客户,感受客户的喜怒哀乐,与客户建立感情,与客户做朋友。员工是在为朋友开发产品,为朋友服务,接受朋友的表扬与批评。这就是小米无KPI的秘诀:工作驱动真真切切来自用户的反馈。简单说来,小米式大数据,是将数据处理前移到数据生成之前,是让员工浸泡在大数据里。小米的这两点做法帮助小米践行了用户参与,实现了KPI之外的员工工作驱动。在大家都在嚷嚷却不知道大数据怎么做的今天,这是更靠谱、更具操作性的大数据应用案例,值得借鉴。4.3百度建大数据中心时下,“大数据”这词儿挺时髦,好友相聚,三句话不提“大数据”似乎都不好意思。然而,大数据到底是咋回事,这玩意究竟有何用途?恐怕连投巨资开发大数据的百度、腾讯和阿里,也不一定说得清楚。因此,业内有持怀疑论者认为,“大数据”迟早会成为一“大笑话”,就像当年神奇的超级计算机如今几乎成了一堆废铁。果真如此吗?近日,与百度负责开发“大数据”37 的朋友聊天,对此,他持乐观态度。这位朋友告诉我,百度在山西已投资上百亿元建立大数据处理中心,并尝试在搜索引擎中装备“大数据”马达,让搜索先“大”起来。比如,实物识别功能,只消将手机对准一朵鲜花,通过“大数据”处理,屏幕会立即显示出此花的名称、特性、种植要点等,还会逐一呈现类似鲜花。类似功能,还有很多。如此功能,确实新颖,也为百度搜索争了光,但毕竟是高射炮打蚊子,大材小用。可不可以弄出更大动静呢?百度召开世界大会,隆重推出为传统企业互联网转型服务的“直达号”。用户只须用手机@商家账号,并提出任何服务需求,百度立即可以上传至“大数据”,通过“云计算”将商家与用户零距离沟通,让供需方迅速“直达”,实现需求。为说得形象些,百度在国贸现场为其首批客户之一海底捞做了演示。海底捞国贸店周边3公里内,有10万个手机百度顾客,根据“大数据”分析,其中2万多顾客喜欢吃辣的川菜,手机百度即可把海底捞促销信息推荐给这2万个顾客,更精准地匹配消费者兴趣,将游客变成顾客。由此,可实现海底捞国贸店日均新拉客500单。有了“直达号”,消费者也省事多了。在任何地方想吃海底捞,只须@一下,屏幕立即会提供离顾客最近的门店信息并且订座、点餐、下单,将本来在线下的闭环服务提前搞定,大大缩短了顾客寻找门店的时间和成本。“直达号”固然不错,但其用户主要还是与民众日常生活密切相关的服务企业,能否在更大层面应用“大数据”?近日,由北京市政府倡导、百度牵头,与智能设备厂商和医院联手打造的大型民生项目“北京健康云”正式试点。百度将利用其“大数据”优势,为此项目提供基础服务,推动京城医疗健康实现“信息化跨越”。具体如何操作?参与试验的市民尤其是老年市民,可以佩戴能够随时测量其血压、心电图等基本健康指标的“云穿戴设备”(如智能手环),其信息上传至大数据中心后,即可编制出佩戴者个性化的健康信息,一旦哪项指标出现微小异常,穿戴设备会立即提醒并作出预判,让其减少或停止运动,建议服用什么药物,或去哪家医院就诊……这就大大减少了民众病发猝死的几率,从而大大节约了政府医保费用开支。37 谈及百度的巨额投入和目前的探索性应用,投入巨大,产出却十分微小。目前,尚处于哪怕赔钱也得千方百计争取用户的阶段。不过,这也是信息产品成长必经过程和必须付出的代价。至于前景嘛,应该说还是相当乐观的。4.4阿里如何对待大数据当大数据开启一个时代时,拥有海量交易数据的阿里巴巴,已经认识到这是一座富矿,并开始摸着石头过河。500多年前哥伦布做环球航行时,最想得到的就是航海地图,要不然他不会把美洲大陆当成印度。当大数据开启一个时代时,阿里巴巴集团(下称阿里)从海量交易数据中挖掘有价值的数据,犹如在大海中航行,马云的鸿鹄之志也是那张航海地图。只是哥伦布的目的地是印度,马云的目标是大数据。马云宣称平台、金融和数据是阿里未来的三大战略方向。其实,“阿里未来本质上是一个数据公司”,电商越来越离不开数据,金融的核心也是数据。阿里设立首席数据官,并把首席数据官陆兆禧升任CEO,传闻将收购移动APP数据公司友盟等,这些都显示马云的大数据战略萌动生芽。在几乎全球所有公司都还徘徊在大数据门前时,马云纵然有大数据的宏韬伟略,在具体操作层面也只能摸着石头过河。完成25个事业部战略调整后,阿里巴巴成立了数据委员会,由淘宝网商业智能部负责人车品觉出任首任会长。这位曾经在微软、ebay出任产品经理,在支付宝、淘宝主管数据业务的香港人,大半生都痴迷于数据迷宫。“我之所以来淘宝就是喜欢它的数据,就希望好好梳理下数据。”车品觉谈到数据时异常兴奋,在接受《中国经济和信息化》记者3个小时采访后,他还要给同事做有关大数据的培训。此时,已经是晚上10点多。车品觉是马云大数据战略棋局中已经过了河的卒子,他肩负着为阿里寻找开启大数据之门钥匙的重任。马云给了他异常宽松的工作环境,甚至没有具体的KPI考核。在接受《中国经济和信息化》记者采访时,他对所谓大数据赢利模式之类的问题并不看重:“阿里跟别人不一样的地方就是愿意尝试不同的产品,连领导都不能控制手下人到底玩什么。一帮很爱数据的人玩一堆产品出来,偶尔能出现如阿里金融这样的产品就很好,允许他们玩就是允许差异化,做数据如果急于现在赚钱就会失去机会。”37 “玩数据”其实并没有这么简单,特别是车品觉出任阿里数据委员会的安全责任人之后,他每时每刻都处在忐忑不安中。他认为,今后一段时间,数据质量、数据安全以及数据化运营将是阿里必须翻越的三座“大山”。从“淘数据”起步2003年的淘宝还是个“小朋友”,一个不起眼的购物平台,远不如当时的易趣(eBay)名气大,甚至还有人预言淘宝会在18个月内夭折。18个月后,淘宝让预言夭折了,淘宝交易量几乎呈指数增长,在2006年上半年注册用户数超过了易趣。从某种程度上看,易趣的存在是淘宝数据业务起步的外部动力。为了与易趣的销售额对比,淘宝开始搜集每天的成交额、用户访问数等数据,从起步就增强了对数据的粘性。淘宝严格意义上的第一个数据产品是“淘数据”,说白了这就是一个经营数据报表。“每个公司都需要了解经营业务状况,淘宝业务大了也需要看经营状况做未来决策,‘淘数据’就是为内部报表服务的一个工具,大约是淘宝成立两年后的2005年开发的。”淘宝商业智能部一名元老级数据分析师告诉《中国经济和信息化》记者。这一年,淘宝迎来第一个数据分析师。半年后,淘宝建立第一批数据分析师队伍,并成立第一个数据部门——商业智能部(BI)。他们每天的工作就是把日成交额、访问用户数等数据统计之后放入报表,让淘宝决策层能够清楚了解业务状况。此时的淘宝不再是一个卖家挂货、买家购物的购物平台,开始关注数据产生出来的意想不到的价值。当然,马云当时还不至于把数据提升到公司战略高度,但他敏锐地发现,“数据非常重要,未来的世界是数据的世界”。外界广为流传这样一个故事:2008年,中国众多企业受国际金融危机重创,而阿里根据买家询盘数急剧下滑,及时向中小制造商提供预警信息,为应对国际金融危机做好准备。虽然车品觉把这次经济预警归结为偶然事件,但阿里确实在数据分析中尝到了甜头。 随着数据越来越多,原来的处理方式已不能进一步扩展,淘宝在用传统数据库方法处理数据问题时遇到了麻烦。37 这一问题触发了淘宝第一次技术层面的架构变迁,把以Oracle为主的传统数据库迁到了大数据技术Hadoop数据库上,正式开启阿里的大数据实践应用。 两条腿走路淘宝的数据视野并没有停留在公司内部决策上,2009年数据应用与开发开始走向外部,让淘宝商户分享数据。在这一背景下,淘宝商业智能部的一部分人“被赶了出来”,开发淘宝商户能分享的数据产品。这是淘宝的一次大胆尝试,进行技术架构调整后,为挖掘更多有价值的数据腾挪出了空间,让数据变成产品为公司挣钱。当然,此时淘宝并不是从挣钱的角度开发数据产品,而是想整合数据为商户提供优质服务。2010年3月,淘宝“数据魔方”产品正式对外发布。麦包包箱包在线商城是首先接触并尝到“数据魔方”甜头的商家。麦包包运营总监毕志鹏称:“在‘数据魔方’提供的数据支撑下,麦包包能及时准确把握市场动态,销售业绩迅速提升。”随着淘宝数据正式对外开放,越来越多商家、企业能分享淘宝的海量数据,并获得有价值的数据支撑。几乎同时,淘宝内部对数据的渴求也日益强烈。商业智能部留下的团队继续为公司内部提供数据支撑。此时“淘数据”开始从单纯的报表系统扩展为内部数据产品的统称。2009年4月和12月,商业智能部团队又开发出可以预警的“KPI系统”和提供给业务部门使用的“数据门户”。一年后,为了配合淘宝的大促销活动,便于及时查看实时数据,这个团队又开发了“活动直播间”。为了让卖家更好地运营,2011年2月,“卖家云图”出世。2个月后,“页面点击”诞生,它可以监控每个页面的每个位置,用不同的数字和颜色标注出页面点击情况。此时的车品觉在阿里已经拥有良好口碑,“要数据找品觉”成为惯例,很多管理层都习惯了车品觉提供的数据。时任阿里首席人力资源官的彭蕾找到车品觉说:“马云觉得该考虑一下如何从数据运营转到运营数据了,你回去好好想想这个事情。”“黄金策”是车品觉较为得意的一个能称得上运营的数据产品。车品觉带领团队处理了1亿多活跃的消费者数据后,拿出500个变量,只要2秒钟就能计算出结果。“黄金策”最早在支付宝成型,现在在与淘宝数据对接。“支付宝发展大数据的目的,跟淘宝系有点偏差。支付宝更多是为内部服务,淘宝和天猫更多强调商业化。”37 车品觉如是说。2012年年中,车品觉来到了淘宝。时任淘宝网CEO的姜鹏邀请车品觉同时兼任淘宝商业智能部负责人,之后车品觉又成了阿里巴巴集团层面数据委员会的首任会长。车品觉很看重淘宝的数据,因为淘宝数据更丰富,不仅有业务数据(交易行为数据),还有过程数据(如一个买家在某个页面上停留了多久等)。在他看来,淘宝的这些数据就是SNS关系数据,这种数据脉络看起来很像社会关系,并非一般B2C模式可以比较,这对他特别有吸引力,套用马云的话这叫做生态链。来到淘宝后,车品觉相继开发了两款产品——“无量神针”和“类目360”。通过“无量神针”,淘宝的管理者可以辨别萌芽状态的可疑行为,迅速做出决策。而“类目360”则把淘宝的类目做得非常细,如果销售增长了10%,可以知道是哪一个类目,哪一部分用户对营收增长贡献大,能评估集团内部哪些人工作有效率,哪些部门不给力,让管理层2秒钟就知道如何决策。之后,淘宝有了自己的“黄金策”,锁定用户群后,可以立即对这些用户进行针对性营销,营销后的效果又会回到“黄金策”上,形成一个闭环。比车品觉团队开发“黄金策”稍晚,淘宝对外团队研发了“淘宝指数”,这是一款中国消费者行为数据的研究平台。无论是淘宝卖家还是媒体从业者、市场研究人员,都可以利用“淘宝指数”了解淘宝搜索热点、查询成交走势、定位消费人群、研究细分市场。在这段时期,阿里一直在用两条腿走路,对外团队为外部服务,商业智能部服务于内部。2012年阿里又推出了“聚石塔”产品,这是阿里首次联合全集团大数据力量打造的一款大数据商用产品,可提供数据存储、数据计算两类服务。“聚石塔”平台没有辜负马云的期望。据天猫CEO张勇透露,“双11”狂欢节大促销当天,“聚石塔”处理的订单超过天猫总量的20%,比平时增长20倍。“聚石塔”上的客户不仅包括淘宝上的商家,也包括淘宝外的电子商务企业。在淘宝和天猫平台上,有ERP系统(企业资源计划系统)的商家可以直接找天猫对接“聚石塔”,没有ERP系统的商家,可以找提供第三方软件服务的电子商务服务企业,通过他们的ERP服务接入“聚石塔”服务。数据平台战略37 大数据部门该放在运营团队还是技术团队?这是车品觉经常被其他公司询问的一句话。听到这个问题时,车品觉就觉得“这些人没戏了”,因为其实他们并不重视大数据战略。在车品觉看来,一个企业如果真想做好大数据,大数据必须成为CEO直接领导的一级战略部门。如果数据部门想要在结构庞杂的企业内部提高地位,数据产品一定要刺激决策部门和业务部门,直至促使他们对前端的业务环节做出调整。2013年1月,阿里调整为25个事业部,CEO陆兆禧分管的数据平台事业部团队正是“数据魔方”衍生出来的团队。而在数据平台事业部很得力的员工空无(淘宝员工的化名)就是当年做“数据魔方”走出来的人。在数据战略架构上,阿里早在3年前就开始布局。2010年阿里推出一淘网,目标是做一家全网购物搜索引擎。2011年淘宝收购CNZZ网络技术服务公司,第二年CNZZ推出“云推荐”内容推荐引擎。淘宝联盟在今年重启“阿里妈妈”品牌名,从以服务淘宝系商家为主转为面向全网所有广告主。阿里与新浪微博仍在进一步谈判,近期传闻阿里将收购移动开发者服务平台友盟等。早在阿里酝酿设立首席数据官岗位(CDO)前,马云就意识到数据产品要建在一个平台上才有更大的价值。2012年7月,阿里委任陆兆禧为首席数据官职务,负责全面推进阿里“数据分享平台”战略。事实上,马云希望建立囊括所有与消费相关的数据平台,包括实体类商品消费数据、服务类商品消费数据、金融相关数据等,再以自己的数据平台为中心建立数据交易中心。也就是说,谁想获得数据,上这个平台来,要么用货币来换,要么用数据来换。阿里金融是大数据衍生产品开发的一个范例,通过分析淘宝、天猫、支付宝、B2B上商家的各种数据,阿里打造了一个信贷工厂,为平台上的卖家提供小额信贷服务。马云这步棋下得很准,小微企业的资金困境影响着企业的发展。目前,中国有近4200万家小微企业,在影响企业发展壮大的因素中,资金占96%,银行考虑到风险太大,很少向小微企业贷款。那么,阿里金融如何通过大数据规避风险呢?37 除了容易标准化的交易数据外,非结构性数据也一并被录入到数据库中,类似卖家和买家的聊天记录、评价、店铺信用等。然后,阿里金融通过数学模型,对上述数据分析处理,就能自动确定贷款申请人的贷款限额。发放贷款以后,阿里通过实时监测贷款商家的交易、退货、评分等经营情况,能方便了解客户还款能力,一旦客户交易情况下滑,系统会自动发出预警。这就是阿里金融打造的一个纯粹基于互联网信用小额信贷的平台。截至2012年底,阿里金融累计服务小微企业已经超过20万家。同年11月初,阿里金融的坏账率仅为0.9%,低于很多银行。让爱数据的人玩起来“今年你给我的绩效是什么?” “你开心就好。”这是阿里数据委员会成立后,车品觉和姜鹏的一次对话。不过,车品觉想开心并不容易。他的担心更多于开心。车品觉的担心是有理由的。阿里数据委员会是一个虚拟的组织,虚拟如何管理实体?“有点打太极,四两拨千斤的感觉。”车品觉苦笑称。2013年在香港特区过新年的时候,车品觉想方设法让自己尽量休息。他知道今年数据委员会的工作肯定会千头万绪,他要筹建数据挖掘工程师、分析师等协会,为大数据业务培养足够的人才。他告诉记者:“数据人才是最大的竞争力。我今天看大数据的时候,是如何让他们玩出来,而不是把人管理起来。”在阿里的大数据团队中,有这样几批人:决策分析师、业务分析师、数据挖掘工程师、数据科学家、数据产品经理、数据开发师、基于数据的前端开发工程师、数据底层平台搭建师。车品觉的想法是让爱数据的人玩起来:“我们相信只要这样走下去,会有一帮懂数据的人玩出来。我们要找到出路,但是不一定现在就能明确看到出路。这也是为什么我们邀请数据科学家来,很多事情不能说今天就要效益,偶尔能产生阿里金融这样的产品就很好。”车品觉对数据分析师的考核有自己的标准。每个月的最后一周,数据分析师都有一场考试。如果分析师的观点能在月度经营分析报告里出现,就说明这个分析师的分析有价值。如果在报告提交给管理层讨论的时候,某个分析师的观点能改变业务部门领导的看法,那就得到3.75分。更进一步,如果分析师的观点能让公司领导接受,并最终促进相关业务的调整,那就是4分。4分几乎是一般数据分析师能得到的最高分。“数据的数据”37 一次大数据会议讨论中,车品觉向姜鹏提了这样一个问题:做数据的人,为什么没有数据的数据呢?正是这次提问,淘宝开始着手建立“数据的数据”,即数据地图。“每一个数据都由很多个数据产生,数据的数据是让我们看见今天数据做得怎么样,建立数据地图,以追溯到数据的源头,提高数据的质量和价值。”车品觉说。保障数据质量要在大数据源头获取方式上下功夫,从源头上保证数据的准确度。“就好比去挖掘一个信用卡持有人的消费记录,必须清楚这些消费行为是不是都来自持卡人,有没有可能部分是持卡人老婆去消费的?”车品觉表示,要尽可能保证数据的精确度,不然会导致数据质量失准。大数据跟个人最为密切的关系是对隐私的可能侵入,数据安全是阿里大数据面前的第二座大山,也是第二大核心。“有些人不知道数据的危险性,但我们做数据的人深知其中的利害。数据安全得不到保障,早晚会出事。”车品觉说,为了数据安全,他在支付宝里可能得罪了不少人,“但个人隐私绝对不能泄露,这是底线”。 目前在阿里内部,淘宝系的淘宝、天猫和一淘,在数据上是共享的,B2B的数据则是独立的。支付宝有金融牌照,法律要求数据必须独立,如果集团某个部门需要一些数据,查看数据必须提出权限申请。事实上,车品觉刚开始做安全的时候也失败过。那时候,他第一次建支付宝的安全架构,直接套用了银行的一套物联网安全架构,“我想定义所有数据的层,做完就进行不下去了。”在支付宝第二次做安全的时候,他采用casebycase(案例法)这种方法,然后成功了。现在在淘宝,他也使用了案例法,慢慢积累安全经验。在他看来,安全是开放的前提,如果国家未来想到管理数据,现在阿里的经验将很有参考价值。为了保证数据安全,车品觉的团队在研究用户行为时,框定的最低数据量是1000人用户群的购物行为,不能再少于这个人数,针对某个具体用户的数据分析是不允许的。车品觉说:“阿里对数据的挖掘处理有一套自律准则,包括后台数据的查看,一些明细是看不到的,这样封闭的目的在于维护用户的隐私,同时也防止数据滥用。”37 阿里内部还专门成立了小组,数据的公开与否主要由他们进行判断。评判小组没有一个具体统一的标准,数据该不该公开、公开到什么程度,都以每个案例本身为依据。到今天为止,数据委员会里的安全小组跟数据质量小组已经成立,相比年初时,车品觉的心沉下来一点了。“数据开放现在太早了,度很难把握。”车品觉说,在某种程度上,数据开放考验的是数据人的良心和经验。阿里还在路上。车品觉和同事现在所走的路是一条很新的路,可参照的东西不多,从国外公司来看,拥有阿里这个数据量级的公司并不多。在大数据的路上,阿里需要做的还有很多。4.5互联网企业对待大数据的不同思路4.5.1大数据应用实践,硕果累累百度在大数据方面让人印象深刻的有百度迁徙这样的公益项目,应用在民生和新闻等领域。最新动态是,百度网盟利用基于大数据的CTR(广告内容匹配)数据,站长的平均收入提升70%。阿里则对外宣称已经拥有100PB数据并以令人欣喜的速度增长,马云最新的内部邮件将阿里战略阐述为云端+大数据,阿里要进入数据时代。腾讯广点通平台不乏亮点应用,例如美丽说借助广点通在移动端取得丰收,小米手机与QQ空间合作更是基于社交数据营销的经典。百度、阿里均已将大数据升级为公司战略,李彦宏、雷军等互联网代表人物在两会时都曾有建言,推动政府的大数据意识和开放,大数据正在从理论走向实践,从专业领域走向全民应用的阶段。4.5.2互联网牵头大数据的必然性为什么国内的大数据应用,只有几个互联网巨头取得成就呢?是因为它们拥有最多的用户、流量和数据吗?答案是否定的。因为所有关于大数据的论断都认为,大数据并不在于大。质量、性质以及谁拥有它,将决定大数据能被挖掘出来的价值和难度。37 物联网传感器、视频监控设备时时刻刻都在收集海量数据,但价值没有微博大,因为数据难以变现。运营商拥有用户通信相关数据,从语音到短信再到位置,量大过任何一个互联网巨头。只能白白浪费,因为运营商不被允许也无能力去利用这些数据。与之类似,政府部门、软件企业均拥有大数据,却只能任其沉睡。之所以BAT走在国内大数据应用的前列,即与其拥有的数据性质有管,与互联网企业的技术基因、开放创新和积极进取有关。大数据利用难点在于技术。从数据的收集到存储到清洗,再到脱敏,归类,标签化、结构化,以及最后的建模分析、挖掘利用,均是技术活儿。需要服务器集群、数据利用模型和数据处理算法来保障,然后才是挖掘出来的结果的包装、变现。相对其他拥有大数据的金主来说,互联网企业的技术甩开它们几条街。运营商技术是外包;银行的技术外包居多;其他公共部门例如政府、交通、教育、能源等行业,技术对他们是遥远的名词。还有动机。互联网企业的服务产品几乎是免费,必须通过其他模式赚钱。过去是广告、游戏和增值这三种模式,到了移动端广告模式遇到瓶颈,需要新模式,抑或加强原有模式。这两点上,大数据都会起到大的作用。4.5.3BAT大数据思路迥异百度是基于用户搜索行为的需求数据,阿里掌握着交易以及信用数据,腾讯则掌握着社交关系数据。各有千秋。它们对大数据的应用方向并不相同。百度和阿里更为激进。腾讯观望多过行动,也可能是说得少做得多。首先是动机百度收入95%以上来自广告,淘宝的主要收入模式也是广告。百度、淘宝和CCTV是中国前三大广告投放阵地。腾讯主要收入来自游戏和社交增值业务,广告收入占比仅为三成左右。本阶段大数据变现的主要途径是精准广告,这契合百度和阿里的诉求,两家将大数据升级为公司战略。其次是技术搜索引擎是技术驱动,百度和其创始人李彦宏最具技术基因。马云对外宣称因为其不懂技术所以阿里技术最强。只有腾讯不怎么强调技术,一直强调产品能力。大数据是技术活儿,百度和阿里这两位自认为技术很强的玩家探索在先符合常理。百度和阿里在大数据技术已经进行较多布局,从人才到架构到基础设施再到技术理论。37 百度有深度学习研究院、高价聘请大数据领域人才以及与高校合作,正在建设亚洲最大云计算[注]机房;阿里有飞天计划,有先进的跨机房5k集群、Apsara分布式计算系统,还有数据委员会这样的架构。几家在云计算平台上的不同态度可以佐证我的观点。云平台和大数据是连体婴。“移动端”、合作伙伴和用户个人的数据,均需要“云”来收集、存储和处理。要掌握大数据,一定要具备承载数据的开放的云。阿里云09年成立,百度云12年推出,分别对应到IaaS[注]模式和PaaS[注](AmazonVSGoogle)。它们的云服务在向开发者和用户提供基础设施、云端服务的同时,收集第三方网站、应用、硬件和用户的数据。百度迁徙能够生效便是得益于第三方App为百度贡献位置数据。腾讯云去年9月才推出,起步晚了点。虽然腾讯开放平台成熟,但开放平台更多是分享腾讯的用户和资源出来,目的不是收集数据。而且开放平台是运营、合作、生态层面的事,云平台才是技术问题。最后是位置典型的互联网交易场景大概是这样的,用户在聊天、社交、娱乐的过程中,会被吸引注意力,关注“兴趣”,抑或因为兴趣而发现新的信息。然后用户去了解、去寻找想要的东西(需求、欲望、找到所求),最后在网上完成交易(电商和O2O[注])。  广告收费模式可以看出三家的位置差异。百度是CPC,按照点击次数付费(不管点击后的行为),阿里淘宝客等广告则直接可以对应到购买行为,CPA(按实际效果)和CPS(按效果佣金)居多。腾讯门户、QQ聊天Banner广告更亲睐于CPM或者CPT(按照展示次数或者时长),广点通是CPA,但亮点案例集中在应用下载领域,而不是交易领域。三家都不希望只处于某一个环节,而是期望上中下通吃。百度有贴吧这样的兴趣社交产品,有视频这种注意力型业务,还推出了直接在结果页下单的“微购”37 ,上下延展;腾讯重组了搜索业务(与搜狗合并)和电商业务(与京东合并),向下的机会还有;阿里投资微博、布局智能电视以及做导购网站做微淘,努力在向上走。几个互联网巨头的动机、技术和位置的不同,在大数据应用上的思路也不同:腾讯蜻蜓点水,阿里布局为先,百度技术至上。相同的是,几家都在想方设法笼络更多的数据,收集数据是第一阶段,形成收集数据的能力和机制是第二阶段,第三阶段才是数据挖掘,目前BAT三家均处于从第二阶段到第三阶段之间,一旦大数据应用全面进入第三阶段,积累更深、投入更多的百度或将有望显出优势。AppStore和iPhone的诞生,将人们带入了智能手机和移动互联网时代,颠覆了传统的软件业和手机业。未来,对大数据商业价值的发掘将给互联网公司拓展出更大的增长空间,甚至有可能催生出全新的商业模式和硬件产品,就像AppStore和iPhone那样,给人们的工作和生活方式带来颠覆性的变化。37 5企业应如何应对大数据时代 5.1企业如何从网络大数据中挖掘市场新需求2014年新春,百度迁徙图与春运的完美“联姻”使得大数据又借势火了一把,大数据再次以风靡之势席卷舆论,一股大数据热正在不断扩散。其实,提起大数据,相信大多数人并不陌生,但对于大数据的有效应用大家更多的是处在摸索和尝试阶段。特别是一些中小企业往往把大数据建设想象得过于庞大,而对大数据望而却步。这种假象这很大程度掩盖了中小企业依靠数据来挖掘市场潜力的机会。大数据在百度迁徙图上的应用5.1.1大数据拓展企业的商业机遇根据IDC研究,2012年全球使用了超过2.8兆GB的数据,然而只有1%数据中的一般进行了有意义的分析。但这微不足道的比例,也足以让大家注意到大数据的重要性和潜力。事实证明,大数据的迅速增长及相关技术的发展正在给企业带来全新的商业机遇。37 据《麻省理工学院斯隆管理评论》和IBM商业价值研究院联合举行的2011年新智能企业全球高管调查和研究项目指出,绝大多数企业都已抓住了这些机遇。2011年,58%的企业已经将分析技术用于在市场或行业内创造竞争优势,而2010年这一比例仅为37%。值得注意的是,采用分析技术的企业持续超越同行的可能性要高两倍。面对大数据可能带来的商业机遇,中小企业为什么会望而却步呢?其实这是把大数据广义化的结果。从广义的大数据建设来讲,其涉及的技术要求、耗资成本、人力匹配等要素对一般中小企业来讲存在很大的挑战性。即使有大数据建设意愿,因为没有成熟的系统架构理念,也使得老板们无从下手。其实,企业的数据可以分为结构化数据、半结构化数据和非结构化数据3种类型。而其中,85%的数据属于广泛存在于社交网络、物联网、电子商务等之中的非结构化数据。这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新的渠道和技术的不断涌现和应用。在这些数据中,仅依托社交网络而存在的数据对企业开拓新的市场需求就是一个巨大的机遇。如果企业能够从这些依托社交网络的数据(如网民对某行业的议论、某种需求诉求、某产品功能吐槽、电子网站上价格、媒体上的某新产品发布会等等)中获取新的洞察力,并将其与已知业务的各个细节相融合,挖掘用户需求点,创新产品,这就是机遇,也是竞争力。以房产行业为例。假如房企有效采集到论坛、微博、博客、贴吧、新闻跟帖上网关于住房话题议论数据,如民对房屋设计、小区环境、家居质量、交通情况、个人住房需求偏好以及用户账号的个人注册信息等,就可以从中分类分析不同年龄段、性别、地区的客户消费偏好、消费能力,以此为依据去了解区域市场的需求,肯定会有别样的收获。5.1.2大数据在挖掘市场新需求上的应用虽然,大数据在国内应该还处在探索和尝试阶段,但是一些行业巨头进军大数据的步伐从未停滞。从阿里巴巴到腾讯,从无印良品到海尔和小米,他们都在通过各种不同的方式或形式投身于大数据应用中。虽然这些企业分布在不同行业,但它们都有一个共同的特点,那就是在利用互联网思维和大数据有效地为客户提供更符合需求的产品。37 拿房地产巨头之一的万科来说。万科在客户行为数据调查中发现,移动互联时代家里的网络WiFi必不可少,但经常会出现每个房间WiFi信号强度有别的尴尬,因此在其楼房中统一配备了WiFi增强系统;同时,因为现在很多年轻人变得很宅,习惯在沙发上坐一整天,于是设计了“土豆位”的概念,迎合3C时代年轻人的生活习惯。而在社区配套服务上,万科更尝试让业主、客户可以在社区建设之初就参与到社区配套的设计和运营上来,引入时下最新的互联网概念“众筹”,根据业主需求未来有可能实现“众筹”健身房、超市、美容院等。同样,这种从网络数据中挖掘新的市场需求的做法也适用于婚恋公司。比如,作为一家婚恋网站,百合网不仅需要经常做一些研究报告,分析注册用户的年龄、地域、学历、经济收入等数据,即便是每名注册用户小小的头像照片,这背后也大有挖掘的价值。百合网研究规划部李琦曾经对百合网上海量注册用户的头像信息进行分析,发现那些受欢迎头像照片不仅与照片主人的长相有关,同时照片上人物的表情、脸部比例、清晰度等因素也在很大程度上决定了照片主人受欢迎的程度。例如,对于女性会员,微笑的表情、直视前方的眼神和淡淡的妆容能增加自己受欢迎的概率,而那些脸部比例占照片1/2、穿着正式、眼神直视没有多余pose的男性则更可能成为婚恋网站上的宠儿。5.1.3网络信息数据的特点及存在形式抛开以其他形式存在的结构化数据和半结构化数据不说,单单以基于社交及新闻媒介存在的信息数据而言,其就表现出以下三个特点。第一,数据呈现类型繁多。拜互联网和通信技术近年来迅猛发展所赐,如今的网络数据类型早已不是单一的文本形式,还包括办公文档、文本、图片、XML、HTML、各类报表、图像、音频、视频、数字等等各种丰富的数据信息,这对对数据的抓取及处理能力提出了更高的要求。第二,数据量巨大。大数据到底有多大?一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于《时代》杂志770年的文字量)。一分钟内,微博推特上新发的数据量超过10万;社交网络“脸谱”的浏览量超过600万……37 第三,“碎片化”传播。自媒体时代的社交媒介。没有任何的组织目标和指导方针,它的“碎片化”信息数据传播迎合了社会信息化的进程,反应了信息数据的时效性、即时性、反馈性。散布在世界各地的微博主随时传播着产品信息和评论,见证着企业各种活动,评论产品的好坏等,以一种旁观和参与兼顾的姿态记录对自己接触的所有事物的认知、建议、诉求、情绪。随着网络社交在线的互动性、便捷性增强,在社会化媒体进行评级、撰写点评、博文、点赞,产生大量的非结构性数据和碎片化数据,那么这些流传于网络的信息数据会是以什么样的形成存在呢?就拿上文中谈到的房地产数据来说,这些数据完全可以来源于网络房产类话题的网友议论内容,比如微博上网友在讨论住房是提到的对wifi的信号的诉求;论坛上房产频道网友住房不布置设想;贴吧上网友对住房小区配套设施的吐槽等等。这些网友的诉求、吐槽、设想信息数据分析结果,将指导产品的设计和社区配套的建设,包含户型、景观、住宅性能和邻里空间等方面。5.1.4网络大数据信息的采集和抓取有人说,发现知识正是大数据的真正价值,仅仅存储数据而不去挖掘内在信息并没有意义。但是,作为发现知识的必要条件,如何获取这些支撑我们去挖掘内在信息的数据,是企业建设大数据的基石。Web是一个巨大的资源宝库,目前页面数目已超过800亿,每小时还以惊人的速度增长,里面有你需要的大量有价值的信息,例如潜在客户的列表与联系信息,竞争产品的价格列表,实时金融新闻,供求信息,论文摘要等等。可是由于关键信息都是以半结构化或自由文本形式存在于大量的HTML网页中,很难直接加以利用。面对类型繁多、数量巨大以及碎片化的网络信息数据,如何能对这些数据的有效、准确、全面采集是企业大数据战略的一个重要组成部分之一。以乐思网络信息采集系统的功能为例,系统可以根据用户自定义的任务配置,批量而精确地抽取因特网目标网页中的半结构化与非结构化数据,转化为结构化的记录,保存在本地数据库中,用于内部使用或外网发布,快速实现外部信息的获取。37 通过自定义任务配置,实施目标网站信息自动抓取,实现HTML页面内各种数据的采集,如文本信息,URL,数字,日期,图片等;对每类信息自定义来源与分类;下载图片与各类文件;对于登陆网友实现用户名与密码自动登录,并可以Windows任务计划器配合,定期抽取目标网站;智能替换去除与内容无关部分如广告;实现多页面,多篇、多段文章内容自动浏览及自动抽取与合并;实现数据直接进入数据库而不是文件中,直接或模拟提交表单;实现所有主流数据库:MSSQLServer,Oracle,DB2,MySQL,Sybase,Interbase,MSAccess数据匹配。广义的大数据建设我们力不从心,但这并不能阻挡我们应用网络大数据挖掘企业新的市场需求的步伐。通过收集企业外部信息,包括与本公司相关的信息,与竞争对手相关的信息,行业信息,价格信息,与合作伙伴相关的信息,用户网上反馈的各种信息,科研技术信息,用户家庭月收入、存款及还款信息,来自于零售商业、服务业的个人消费开支结构信息,从而先于行业、竞争对手锁定客户的需求,加快销售节奏,实现销售目标。5.2互联网企业如何应用大数据互联网企业在很早之前就认识到用户体验的质量与企业的收入呈简单的线性关系。对大范围的用户体验数据进行分析,已成为主流的大数据处理方向,这也是大数据应用先行企业信奉的准则。拥有每月1200万访问量的Cars.com公司就是应用大数据获得收益的成功范例,在分析这些数据后为顾客量身定制最佳的用户体验,同时收获资深运营洞察力及反诈骗能力。作为一家为购车用户提供汽车资讯及购买服务的网站,Cars.com不仅仅从汽车销售额中赚取利润,广告的收益也是其营业额的一部分。这些标语广告被广泛贴在各大厂商的轿车、卡车、SUV和货车上。Cars.com的界面简单快捷,用户在页面上停留越久,广告的效果就越明显。Cars.com的应用管理团队有三个关键目标:高性能、高安全性及为广告商追踪流量源,这也是有原因的。现阶段,bot和网络蜘蛛流量作为持续已久的威胁会极大降低网络性能。一些恶意的bot会将所售汽车列表抓取下来用于垃圾邮件以传播虚假网站,让那些毫无戒备的顾客泄露个人信息。日志文件是鉴别恶意行为和优化网站性能的关键,但人工处理这些网络日志及流量数据是一件麻烦又耗时的事情。在没有实时报告的情况下,Cars.com的管理团队只能让其服务器超额工作来确保网站页面的载入速度。37 大量的访问源会生成非常多的系统数据,Cars.com借助Splunk软件来实时采集、索引、查询和分析这些海量内容。Spluck独有的“machinedataweb”(机器数据网)能够组织和识别日志数据;此外该软件预报机制还能帮助团队鉴别非法抓取行为和bot流量,并将它们与合法用户的流量区分开。这些报告举足轻重,为后台人员抵制非法流量提供有力数据。这项投资的实际回报有两点。第一,高效、实时的数据采集每年为公司节省400人工作时;第二,能够帮助公司缓解在流量高峰期的访问压力。例如在2012年美国橄榄球超级杯大赛中,公司通过详细的性能统计采取了一系列措施,预计节省了服务器和管理成本160000美元。“Splunk软件能够让我们在短时间内处理大量问题,”技术运营部主管JonAbend说,“不仅网络日志,我们还可以实时地分析应用日志、应用服务器、中间件部件及系统度量日志等。各类相关用户——如性能工程师、中间件团队、搜索引擎市场团队等——通过本软件都会获得管理各类系统的能力。”从今年起,Cars.com已经处理了35TB的数据,并还在以每小时250万个网络日志、每周1TB、每月750万查询量的速度继续增加。有了这样对大数据分析处理的能力,Cars.com将会在相关行业中继续领跑。37 结论近些年,大数据已经和云计算一样,成为时代的话题。大数据是怎么产生的,商业机会在哪?研究机会在哪?这个概念孕育着一个怎样的未来?企业如何应对? 一个好的企业应该未雨绸缪,从现在开始就应该着手准备,为企业的后期的数据收集和分析做好准备,企业可以从下面五个方面着手,这样当面临铺天盖地的大数据的时候,以确保企业能够快速发展,具体为下面五点。  (一)、以企业的数据为目标 几乎每个组织都可能有源源不断的数据需要收集,无论是社交网络还是车间传感器设备,而且每个组织都有大量的数据需要处理,IT人员需要了解自己企业运营过程中都产生了什么数据,以自己的数据为基准,确定数据的范围。 (二)、以业务需求为准则 虽然每个企业都会产生大量数据,而且互不相同、多种多样的,这就需要企业IT人员在现在开始收集确认什么数据是企业业务需要的,找到最能反映企业业务情况的数据。 (三)、重新评估企业基础设施 大数据需要在服务器和存储设施中进行收集,并且大多数的企业信息管理体系结构将会发生重要大变化,IT经理则需要准备扩大他们的系统,以解决数据的不断扩大,IT经理要了解公司现有IT设施的情况,以组建处理大数据的设施为导向,避免一些不必要的设备的购买。 (四)、重视大数据技术 大数据是最近几年才兴起的词语,而并不是所有的IT人员对大数据都非常了解,例如如今的Hadoop,MapReduce,NoSQL等技术都是近年刚兴起的技术,企业IT人员要多关注这方面的技术和工具,以确保将来能够面对大数据的时候做出正确的决定。 37 (五)、培训企业的员工 大多数企业最缺乏的是人才,而当大数据到临的时候,企业将会缺少这方面的采集收集分析方面的人才,对于一些公司,特别是那种人比较少的公司,工作人员面临大数据将是一种挑战,企业要在平时的时候多对员工进行这方面的培训,以确保在大数据到来时,员工也能适应相关的工作。 做到上面的几点,当大数据时代来临的时候,面临大量数据将不是束手无策,而是成竹在胸,而从数据中得到的好处也将促进企业快速发展。37 参考文献[1]维克托·迈尔·舍恩伯格. 大数据时代. 浙江人民出版社,2012 [2]大数据时代降临 .半月谈网,2012-09-22  [3]IT部门如何应对大数据时代? .CIO时代网,2012-02-27  [4]“大数据”时代来临决策不能只凭经验 .东方早报网,2012-04   [5]孟小峰慈祥:大数据管理:概念、技术与挑战.2013-01 [6]陈如明:大数据时代的挑战、价值与应对策略.2012[7]乔治·纳汉(Georges Nahon)《“大数据”时代的计算机信息处理技术》[8]侯经川、方静怡.大数据时代的数据引证研究:进展与展望.2013[9]李萧然.大数据成新战场IT厂商奋勇掘金.IT时代周刊,2013[10]《大数据》.维基百科,2014[11]杨绎.基于文献计量的“大数据”研究.图书馆杂志,201237

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭