目录
正文
第一篇:大数据 读后感
从徐子沛的《大数据》中得到的感悟
数据,对于我们现代社社会来说,已经是再熟悉不过了。大量化(volume)、多样化(variety)、快速化(velocity)和大价值(value)。这四个v就是大数据的基本特征。每天我们都不得不和数据打交道,比如我们平常所说得“眼观六路,耳听八方,”就是生活中一个很好的的收集数据的例子。还有,在我们平时的学习中,我们对于一些学习上的数据的整理等等。可以说,数据已经成为了我们的影子一样,无时无刻的在我们的身边活动。
拿到《大数据》这本书时,吸引我的不是书评的内容,而是书的封面上的一句话“除了上帝,任何人都可以用数据说话。”也就是说,上帝可以不用数据来说话,但是,作为一个平常人,我们做事,言论等都必须用数据来说话。用数据论来证我们的观点正确性。
那么数据真的就是那么重要吗?其实不然,数据果真有那么的重要。作者在书中大量应用世界头号强国美国的例子来说明美国是如何利用数据以及数据在美国人的利用下,是如何造福美国人的。使得美国人走上了民主、发展的道路。书中还引用了大量的利用数据的案例,以及利用数据会有什么样的后果。当然,作者在书中也很明确的表达了自己观点,也就是数据要被人利用,利用的好了,造福人类,否则,祸害无穷。
毫无疑问,我们正处在一个真正意义的大数据时代。但是,大数据浪潮的来龙去脉如何?数据技术变革何以能推动政府信息的公开、透明和社会公正?又何以给我们带来无限的商机,既便利又危及我们
每个人的生活?《大数据》给了我们一个很好的答案。在拿到徐子沛《大数据》时,与其说这是个新概念,还不如说就是一个现实。信息技术的迅速发展和普遍应用,存储能力的膨胀,网络传输的便捷,必然产生巨大的数据量。即使是一个公司,经过多年的积累,产生的数据也是惊人的。每天繁多的数据,这就是要求企业要很好地存储数据,利用数据通过数据,使得数据说话,提升企业的业绩和知名度。对于一个企业来说,比较实际的倒是关注一下企业微观大数据,如何充分利用现有的、能够得到的和自己创造的数据,采用《大数据》里提及的新技术、新方法、新理念,筛选、组织、关联、分析,精细化管理和挖掘数据,探索规律性的东西,指导企业活动。 尽可能多的获取数据,首先是要有心,对于公司员工来说,随时随地注意收集客户数据、需求数据、产品数据、市场数据、资源数据等,经过整理,把它变成公司的数据资产;然后是要有据,信息与数据最大的不同,就是数据是能够度量或者确定的信息,不能“毛估估”,收集数据要精细化,要准确;其次要有序,数据需要存储,更加需要整理,单个数据没有很大意义,静止的数据也没有很大意义,有价值的数据是流动的、与其他数据交互作用的。一个大杂烩的数据库,在需要时让人找不到北,没有任何意义。再次,需要技术支持,大量的数据如何检索,如何关联,单靠人脑是不行的,需要建立基于特定理论的数据处理系统来分析管理。对于一个企业,最理想的是建立一个类似人类神经系统的数据管理系统,采用各种信息终端采集内部和外部信息,通过分析、归纳、筛选,形成管理数据,某些数据可以成为系统的“本
能”,一旦触发能够自动做出反应;某些数据可以成为组合信息提交大脑综合分析,作出决策和反应。 数据应该为人服务,这是一条基本原则。在大数据时代始终发挥人的主观能动性,采用先进的理念和技术驾驭数据,让人们生活更方便,工作效率更高,劳动强度降低,为社会创造更多的物质财富和精神财富。
《大数据》是一本视野独特的书。它以数据为轴线,描绘了美国走过的改革创新的过程,行文如流水,引人入胜。书中,我读到的不是大数据处理技术,更多的是与大数据相关的美国政治、经济、社会和文化的演进,从民主和国家战略的层面细解大数据的影响力。美国是全书的主体,但又处处反观中国当下的现实。内容非常值得我们身处改革开放前沿的政府工作者深思。它让我们更加深刻地理解了汪洋书记提出的“坚持用数据说话、用数据改进管理、用数据推动创新”的深刻内涵和殷切期望。我们只有重视数据,加强对数据的收集、分析和使用,才能更好地应对正在到来的数据革命的挑战。那么,作为与数据打交道、用数据说话的前线统计工作者,如何应对大数据时代的种种挑战?
对比《大数据》,结合平时工作和学习的实际情况,我认为最少应该认真思考和解决好三个问题:
一、提供什么样的数据?
在中国,统计部门提供的数据,是各级政府部门和广大人民群众了解国家社会经济发展和人民生活状况主要渠道。只有真实可靠统计数据,才能使政府决策有的放矢,人民了解国家经济与人民生活的
真实状况。如果统计数据虚假不实,就会误导政府和人民,让政府失信于人民。因此,我们一定把握好数据的生命线—质量关,确保给国家和人民提供准确、真实、可靠、无误的数据。
二、如何高效有序地收集数据?
面对信息大爆炸时代海量数据,必须充分利用高科技手段,高效有序地收集整理各种数据,以满足政府和人民群众越来越广泛的信息需求。为此,我们需要建立完善数据收集网络,包括部门内部的纵向数据收集网络和部门之间的横向数据收集网络,通过这种纵横结合的网络数据收集系统,针对特定主题,持续不断地收集相关数据,为大数据发展提供基础。需要运用互联网、电子计算机等现代技术手段,加快数据收集、加工数据的速度,确保政府和人民及时得到所需数据。
三、如何加强数据分析利用能力?
收集数据的目的是为分析利用数据。通过数据分析挖掘数据背后隐含的经济规律及有利于提高效率、改进工作的因素,提高政府管理、决策和人民生活水平,实现“用数据改进管理”。因此,作为统计人,不仅要做好数据收集的及时有效和真实正确,更重要的是要善于分析利用数据,写好专业分析报告,发现问题、支撑决策、评估绩效的目的。
此外我们还可以看到不少政府机构或者其他一些组织也在开始大数据解决他们遇到的一些问题。在本书的最后一章,作者告诉了我们大数据可能带来的坏处。如:通过大数据可能我们的个人各种信息、隐私会很容易地被大数据的拥有者找到,这些信息,可能被政府用来
监管我们等;通过大数据可以预测可能发生的事,或者预测我们人个人本书即将做的行为,书中有个例子:警察通过大数据分析得出一个人即将可能犯罪,并把它逮捕了,但事实上这个人现在并没有犯罪。也许这就限制、约束了我们个人的自由。
看完这本书,颠覆了自己之前的一些想法: 以前我们认为错误的数据是没有用,我们需要保证统计的数据的准确性,但是在大数据中,错误的数据也是有用的,它和其他所有相对正确的数据一起构成了整体,也就算不了什么了。我们同样可以从这些数据中得出比较正确的预测和分析。 google利用人们搜索的关键字来预测和判断某个地区是否发生流感,google通过分析这个地区的人们搜索和流感有关的词的数量等来分析得出。 google 从互联网抓取数以亿记的各种语言、各种翻译水平的翻译结果,使用其翻译出来的准确率比那些微软使用正确的词库翻译出来的句子准备率更高。我自己的感想是,其实大数据无处不在,只要我们细心,我们就可以挖掘出身边的那些大数据,并做一些有意义的是,就像书中说的那样,我们不需要强求每条数据都那么真实准确,但是从大量的数据中我们就可以得出相对准备的结果。未来成功的公司必定是是那些拥有大量数据、并使用那些数据为大众提供服务的公司。
公布官员财产美国是怎么做的,美国能让少部人腐败起来吗,美国式上访是怎么回事,凭什么美国矿难那么少,全民医改美国做得到吗,美国总统大选有什么利器才能赢,下一轮全球洗牌我们世界工厂会被淘汰吗?? 除了上帝,任何人都必须用数据来说话。也就是是
说,美国更好的利用了数据,那么,我们何尝不去利用大数据时代的数据呢?
第二篇:《大数据》读后感
《大数据》读后感
佘洁婕
读完《大数据》,我才意识到这并不是一本枯燥无味的书籍。作者运用案例和讲故事的方式,把美国数据开放、收集、使用背后的立法故事、公民故事、技术故事、商业故事娓娓道来,引人入胜,令我大开眼界。
我在想,大数据概念对于教育来说会产生什么样的实用价值呢?一直以来,中国教育在研究教育的数字化,比如数字化校园,这个思路就是把我们教育的内容进行数字化,其结果指向的就是电子教材的研发或者是教学过程的数字化。美其名曰,这是教育技术的重要内涵。 在教学过程中,学生的行为表现都可以被数据化,而这项研究不是任何一个专业可以深入下去的,它的专业性太强,所以我才会想到,所谓教育技术与其研究教育的数字化,不如研究教育的数据化来得实在,来的有意义。长期以来,我们并不了解教育对一个人的影响具体会如何表现,我们有的只是一个轮廓,我们也并不确定一个教师的行为对学生具体产生了哪些影响。所以,人们对教育一直有一个深深的质疑,它是不是科学的?大数据概念至少提出了关注“是什么”比“为什么”要有实际意义得多。而我们的教育恰好需要把注意力从“为什么”转移到“是什么”上面来,只有如此,才能把教育从为什么发展成“可能成为什么”上来,这会是一次思想上的革命。而对于现在地位岌岌可危的教育技术来说,把研究的重点从数字化转移到数据化上面,这才是它的出路。
如何将数据融入教学,教育者首先通过标准化全科教学处方,实现了教师授课模板和教学内容的标准化,保证每个教学过程和内容是可控的,然后结合每天的教学内容,处理好面对的数据,处理好数据,自然也就处理好了课堂的反馈,最终形成了既注重教学体验又以教学结果为导向的教学体系。
与此同时,不仅要注重课上的学生资源,在课后还要对这些资源进行跟踪处理。这与过去的教育教学显然是不同的,面对大数据时代的到来,教学有所改变是必然的。所以,无论环境怎么变换,数据如何复杂,我们都不能不去改变自己的教学去迎合将来的这个大数据时代。
二等奖
第三篇:《大数据》读后感
《大数据》读后感
现代社会是一个技术奔腾、信息爆炸的社会,大数据这个新概念一出现就受到了人们极大的热捧。每天都身处网络的信息海洋中,常常会有被数据、信息“淹没”的窒息感和无力感。涂子沛的《大数据》一书,通过讲述美国半个多世纪信息开放、技术创新的历史,以别开生面的经典案例——奥巴马建设“前所未有的开放政府”的雄心、公共财政透明的曲折、背后的隐情、全民医改法案的波澜、统一身份证的百年纠结、街头警察的创新传奇、美国矿难的悲情历史、商务智能的前世今生、数据开放运动的全球兴起,以及云计算、facebook和推特等社交媒体、web3.0与下一代互联网的未来图景等等,详细诠释了数据技术变革与权力合法性、执政正义以及公民社会之间的关系。全面阐述了信息时代数据的重要性,如何加强数据的收集、分析和使用以及通过数据开放改进政府治理等问题。这本书给了我一个全新的阅读主题,让我感受到了作为一名教师必须拥有但却正是我们目前缺乏的两种态度。
目前,人类已进入信息社会。人类文明已处于信息时代,人们在因特网上传和下载数据,传统的台式电脑上网更新成了移动终端浏览和传播信息。qq、微信等通讯软件已然实现手机版,人人、微博、脸谱能够分享即刻心情,电讯服务商正大张旗鼓地争夺客户资源,网络通讯商也大力渲染云服务和大数据时代。不管你愿不愿意,我们已经处在大数据时代。如何在新的时代争取话语权,如何在新的时代维护自身权益,如何在新的时代实现利益最大化,必将成为这个时代中每个国家,甚至每个公民应当思考并付诸实践的重大问题。
一、从美国的发展看美国发展的不足。美国,世界最大的发达国家,借助其自身的优势,已然处于信息时代的领头羊位置。到底是什么原因使得这个建国才两百多年的年轻国家具备如此强大的实力和创新的活力呢?他们具备什么优势?他们成功的秘诀是什么?结合书中分析和历史实践不难得出:适合自身的体制制度、法律、科技、人才、监督是这个年轻国家领跑世界的关键因素。
首先、美国结合本国实际选择“三权分立”的体制制度。政府执法、法院司法、国会立法。政府首脑总统可以提名法官,法院可以宣布总统行为违宪;总统能够否决国会的立法,国会批准总统提名,并可以弹劾、罢免总统;法院可以宣布国会某项法律违宪,国会也有权限弹劾、罢免法官。这种源于法国思想家孟德斯鸠的“三权分立”民主制度适用美国,并契合美国文化社会生态,为美国的发展提供了社会基础。然而,“没有任何一项民主制度是完美的或者万能的,甚至在别的国家成为一种糟糕的制度。(原英国首相丘吉尔)”因此,别的国家必须结合自身国情、民情进行参考,选择符合自身条件和社会发展需要的制度,而决不能照抄。这样,才能满足自身人民需求,推动社会发展。这个观点的论述将在后文讲述“我国国情”中提到。
其次、法律保障。《数据质量法》和《信息自由法》的颁布为美国成为大数据帝国提供了基础的法律保证,也唤醒了美国民众对自身数据权益保护的意识。
第三、美国具备发达的科技支持和广泛的人才支撑。早在上世纪四十年代,第一台电子计算机诞生在美国,二战后大量工程师移民美国等诸多因素为美国的高速发展夯实了人才基础。
第四、美国拥有完善的、职责分明的社会监督体系。民众、社团、新闻媒体时刻注视着政府的一举一动,阳光般的注视成为防治腐败最好的消毒剂。
世事无绝对。美国虽然借助民主制度、法律保证等优势条件成为信息时代的领头羊,也正是这些“优势”成为了阻碍其发展的“劣势”。突出表现在:(一)“三权分立”的民主权衡看似给美国社会带来了民主、公平、自由的管理体制,实质存在不足,甚至是缺陷。举个简单例子,当政府执法时遇到法律障碍,总统就会递交良法于国会讨论,力争通过。而国会集结的是各党派、各团体、各企业,甚至是各说客的利益集团,各部分之间产生的利益纠纷必然成为良法通过的掣肘。就算是投票表决法案通过,在呈交总统签署的法案里也会放入短时间内难以解决的问题,即“掺沙子”。“沙子法案”必将成为社会发展过程中的阻碍;同时,“旋转门”前后串场的说客们背后强大的利益集团在国会山上说话的语气也是制约民主的制度硬伤。(二)美国严谨却冗杂的司法程序造成了民众不满。2014年上大支矿难便是这一硬伤的突出表现。
二、中国的快速发展与发展中的不足。中国,世界最大的发展中国家,拥有世界最多的人口,最智慧的人民,最悠久的历史。中国的文化吸引着世界的目光。上世纪七十年代末,中国进行的“改革开放”使中国人民和政府深受裨益。经过三十五年的大胆创新,科学发展,中国已超越日本,成为世界第二大经济体,中国政府在世界的发言权已得到足够的重视,中国人民的聪明才干也得到充分挖掘,中华民族已斗志昂扬地屹立在世界民族之林。
但是,我们不能不承认在大数据时代,中国暂时处于靠后的位置,并且行动相对迟缓。主要表现在:(一)不少地方政府为表政绩,存在“邀功寻赏”、谎报数据行为,导致数据大范围失真。《焦点访谈》曾经报道过多地基层政府的类似行为。例如,国家退耕还林政策涉及资金补贴,某地村干部连续三年虚报数据,最终竟导致所报耕地面积大于该村行政村面积。(二)存在大量应当公开、公布的数据实际并未及时公之于众。就拿近年来炒的沸沸扬扬的晒“三公经费”问题来说,目前仅是一线或二、三线城市才敢于公开,而落实到地、市、县级却姗姗来迟。(三)精确的数据测量与统计工作起步晚,差距大。数据收集方法多以基层上报、被动接受为主,容易“掺水”。
三、结合自身工作和生活实际,发现存在的问题。作为一名从事经济研究工作者,身处于我国经济工作的一线,在进行调查研究的过程中发现了一些机制中或许存在的漏洞或缺陷,正巧反映出我国在大数据时代中所处的不利地位。举例一:如果m先生想在a地购置房产(普通住房),若是首次购房,那么根据税法规定,该项经济活动买方将涉及契税优惠,但是必须要求m先生提供房产局出示的家庭唯一住房证明。漏洞便出现了:假设m先生已经在b地事先拥有一套房产,而m先生身份证件登记在a地,那么m先生便有了在a地成功领取家庭唯一住房证明的可能(前提是a、b两地房产部门信息无法共享)。
这样,“聪明”的m先生在已拥有一套房产的前提下,再次在异地购房仍可享受契税优惠。这将直接导致税款的流失和税赋的不公平,不利于我国税收征管工作,不利于“两度”的提升。堵住这一漏洞的前提条件只有一个房产部门全国信息联网。然而,现实并非如此。举例二:我国正大力兴起的“全民医保”在大数据时代同样不尽如人意。医保卡无法在全国通用,甚至无法在本省内、本市(州)内通用,仍然存在指定医院刷卡。这直接给一些出差在外的居民,亦或是离指定刷卡医院较远的居民带来不便。
四、中国面临发展的机遇与挑战。问题与机遇并存。中国在大数据时代中正面临着巨大的挑战和重大的机遇。问题的存在和挑战的并行必然构成我们在这个时代迎头追赶的机遇:
第一、体制条件。我国是社会主义国家,我国采取的是民族集中制。也就是说,在绝大多数公民认可的良法在立法过程中不会出现像美国那样的利益集团间的博弈,或是“掺沙子”。亦即,被广泛民众认可的良法在我国立法过程中受到的阻碍相对较小。
第二、政策机遇。党的十八大报告明确把“信息化水平大幅提升”纳入全面建设小康社会的目标之一,并提出了走中国特色新型工业化、信息化、城镇化、农业现代化道路。明确要坚持信息化和工业化深度融合,工业化和城镇化良性互动、城镇化和农业现代化相互协调,促进工业化、信息化、城镇化、农业现代化同步发展。从此,信息化本身(包括大数据发展)不再只是一种手段,而将成为发展的目标和途径;同时提出建设下一代信息基础设施,发展现代信息技术产业体系,健全信息安全保障体系,推出信息网络技术广泛运用作为“推进经济结构战略性调整”方案。信息化建设和大数据时代已纳入国家重点战略层面,中国信息化建设正处于巨大的历史机遇期和转折点。
第三、客观因素。我国是互联网大国、手机大国,我国是世界上网民人数最多的国家,巨大的数据产生、消费、使用给我国大数据信息技术的发展提供了坚实的客观条件,我们千万不可停滞不前,相反,要主动出击,迎头赶上。
第四、技术优势。相对于美国,我国拥有充分的客观技术优势----身份证。美国因其文化或历史原因,公民使用的身份标识不统一,这为美国政府进行管理和施行政策提出难题。中国却有着便利的解决方法,因为每位合法中国公民都拥有唯一的身份标识,有了这一技术优势作保障,我国大数据推行拥有巨大便捷。
这就从一定意义上说明了大数据时代已经来临,收集数据,使用数据,开放数据,都是我们需要一一面对的挑战,我们该如何从容应对?我想,唯有积极参与其中,才能紧跟时代脚步,成为社会发展的受益者。综上所述,我认为美国是一个值得我们认真学习的国家。“中国崛起”要求我们有正确的学习态度和敏锐的学习能力。不要有桥不走,硬要下河摸石头。要学习、要上路是我们的当务之急。我们应该以全世界的文明为基础,客观洞悉西方世界,理性思考自身问题,刻苦落实解决方案,才能实干兴邦,才能实现中华儿女心中伟大的民族复兴之梦!诚然,人心、真情、给予、奉献……等等,这些也许很难用数据来衡量,但面对社会未来之世界走向,中国如何应对大数据时代的挑战,我们自己又该从自身、从自己的岗位做哪些改变、哪些突破,这是我们需要,也可以认真思考的问题(注:本文系中国绿色经济博客博主和中国绿色经济圈圈主陈玉荣博士撰写,特此说明)。
第四篇:《大数据》读后感
《大数据》读后感
荆家镇中心学校荆超
在数字信息时代,数据和空气一样遍布生活,对于有些人来说,数据无意义,而对于有些人来说,数据,即真相。读完《大数据》,我才意识到这并不是一本枯燥无味的书籍。透过全书,一个立体的美国及美国人民的思想呈现在我们面前——美国人民执著于个人隐私的保护,却又不遗余力地推动着政府信息的透明与公开。作者运用案例和讲故事的方式,把美国数据开放、收集、使用背后的立法故事、公民故事、技术故事、商业故事娓娓道来,引人入胜,令我大开眼界。我在想,大数据概念对于教育来说会产生什么样的实用价值呢?一直以来,中国教育在研究教育的数字化,比如数字化校园,这个思路就是把我们教育的内容进行数字化,其结果指向的就是电子教材的研发或者是教学过程的数字化。美其名曰,这是教育技术的重要内涵。
在教学过程中,学生的行为表现都可以被数据化,而这项研究不是任何一个专业可以深入下去的,它的专业性太强,所以我才会想到,所谓教育技术与其研究教育的数字化,不如研究教育的数据化来得实在,来的有意义。长期以来,我们并不了解教育对一个人的影响具体会如何表现,我们有的只是一个轮廓,我们也并不确定一个教师的行为对学生具体产生了哪些影响。所以,人们对教育一直有一个深深的质疑,它是不是科学的?大数据概念至少提出了关注“是什么”比“为什么”要有实际意义得多。而我们的教育恰好需要把注意力从“为什么”转移到“是什么”上面来,只有如此,才能把教育从为什么发展成“可能成为什么”上来,这会是一次思想上的革命。
如何将数据融入教学,教育者首先通过标准化全科教学处方,实现了教师授课模板和教学内容的标准化,保证每个教学过程和内容是可控的,然后结合每天的教学内容,处理好面对的数据,处理好数据,自然也就处理好了课堂的反馈,最终形成了既注重教学体验又以教学结果为导向的教学体系。
与此同时,不仅要注重课上的学生资源,在课后还要对这些资源进行跟踪处理。这与过去(推荐访问范文网:wWW.hAOWORd.coM)的教育教学显然是不同的,面对大数据时代的到来,教学有所改变是必然的。所以,无论环境怎么变换,数据如何复杂,我们都不能不去改变自己的教学去迎合将来的这个大数据时代。
第五篇:大数据读后感
假设你要测量一个葡萄园的温度,但是整个葡萄园只有一个温度测量仪,那你就必须确保 这个测量仪是精确的而且能够一直工作。反过来,如果每100棵葡萄树就有一个测量仪,有些测试的数据可能会是错误的,可能会更加混乱,但众多的读数合起来就可以提供一个更加准确的结果。因为这里面包含了更多的数据,而它不仅能抵消掉错误数据造成的影响,还能提供更多的额外价值。
现在想想增加读数频率的这个事情。如果每隔一分钟就测量一下温度,我们至少还能够保 证测量结果是按照时间有序排列的。如果变成每分钟测量十次甚至百次的话,不仅读数可能出错,连时间先后都可能搞混掉。试想,如果信息在网络中流动,那么一条记录很可能在传输过程中被延迟,在其到达的时候已经没有意义了,甚至干脆在奔涌的信息洪流中彻底迷失。虽然我们得到的信息不再那么准确,但收集到的数量庞大的信息让我们放弃严格精确的选择变得更为划算。在第一个例子里,我们为了获得更广泛的数据而牺牲了精确性,也因此看到了很多如若不然无法被关注到的细节。在第二个例子里,我们为了高频率而放弃了精确性,结果观察到了一些本可能被错过的变化。虽然如果我们能够下足够多的工夫,这些错误是可以避免的,但在很多情况下,与致力于避免错误相比,对错误的包容会带给我们更多好处。(小微金融创新,也可借鉴此思想,然后做好对数据收集与存储的支撑成为首要完成的事务,然后是对数据的正确运用是重点)
我们可以在大量数据对计算机其他领域进步的重要性上看到类似的变化。我们都知道,如 摩尔定律所预测的,过去一段时间里计算机的数据处理能力得到了很大的提高。摩尔定律认 为,每块芯片上晶体管的数量每两年就会翻一倍。这使得电脑运行更快速了,存储空间更大 了。大家没有意识到的是,驱动各类系统的算法也进步了——美国总统科技顾问委员会的报告显示,在很多领域这些算法带来的进步还要胜过芯片的进步。然而,社会从“大数据”中所能得到的,并非来自运行更快的芯片或更好的算法,而是更多的数据。(数据本身的价值,及数据的价值的体现)
容忍错误带来的是更多数据吞吐(大数据),容忍风险带来的大量业务的涌现(小微金融) 大量业务的涌现带来的收益需要大于其风险带来的损失,最好办法就是从他处大量收集这些数据,并容忍这些数据存在错误,再基于大数据分析(同业数据收集,依托互联网中搜索等进行收集,阿里可以根据淘宝进行收集)
一致性多样性
hadoop的输出结果没有关系型数据库输出结果那么精确,它不能用于卫星发射、开具银行 账户明细这种精确度要求很高的任务。但是对于不要求极端精确的任务,它就比其他系统运行得快很多,比如说把顾客分群,然后分别进行不同的营销活动。 信用卡公司visa使用hadoop,能够将处理两年内730亿单交易所需的时间,从一个月缩减 至仅仅13分钟。这样大规模处理时间上的缩减足以变革商业了。也许hadoop不适合正规记账,但是当可以允许少量错误的时候它就非常实用。
zestfinance,一个由谷歌前任首席信息官道格拉斯·梅里尔创立的公司,用自己的经验再次 验证了“宽容错误会给我们带来更多价值”这一观点。这家公司帮助决策者判断是否应该向某些拥有不良信用记录的人提供小额短期贷款。传统的信用评分机制关注少量突出的事件,比如一次还款的延迟,而zestfinance则分析了大量不那么突出的事件。2014年,让zestfinance引以为豪的就是,它的贷款拖欠率比行业平均水平要低三分之一左右。唯一的
得胜之道还是拥抱混杂。
梅里尔说:“有趣的是,对我们而言,基本没有任何一个人的信息是齐备的,事实上,总有 大量的数据缺失。”由zestfinance创建的用来记录客户信息的矩阵是难以想象得稀疏,里面充满了数据的空洞,但zestfinance在这些支离破碎的数据中如鱼得水。举个例子,有10%的客户属性信息显示“已经死亡”,但是依然可以从他们身上收回贷款。梅里尔一脸坏笑地说:“显然,没有人会企盼僵尸复活并且主动还贷。但是我们的数据显示,放贷给僵尸是一项不错的生意。”
所以有时候,通过代理取得数据信息比自己去操作烦琐的程序要便宜得多。同时还有另一 个征信机构出售“支付能力指数”和“可支配支出指数”,这些指数是用来预测一个人的支付能力的。
数据化
必须收集所有信息(包括被否掉的信息和被忽略的信息),所有跟行业接触的客户的信息,甚至没有需求的客户信息。所以可以分四步来走,第一步所有达成交易客户的全面信息(*只要能收集到能接触到的),第二步收集所有跟公司有接触的客户的全面信息,第三步收集跟整个行业有接触的客户的全面信息,第四步所有跟客户相关的人或法人的全面信息,第五步所有人的全面信息。
一切给冯·安这位家里经营糖果厂的危地马拉人带来了相当高的知名度,使他能够在取得 博士学位后进入卡内基梅隆大学工作,教授计算机科学;也使他在27岁时获得了50万美元的麦克阿瑟基金会“天才奖”。但是,当他意识到每天有这么多人要浪费10秒钟的时间输入这堆恼人的字母,而随后大量的信息被随意地丢弃时,他并没有感到自己很聪明。
于是,他开始寻找能使人的计算能力得到更有效利用的方法。他想到了一个继任者,恰如 其分地将其命名为recaptcha。和原有随机字母输入不同,人们需要从计算机光学字符识别程序无法识别的文本扫描项目中读出两个单词并输入。其中一个单词其他用户也识别过,从而可以从该用户的输入中判断注册者是人;另一个单词则是有待辨识和解疑的新词。为了保证准确度,系统会将同一个模糊单词发给五个不同的人,直到他们都输入正确后才确定这个单词是对的。在这里,数据的主要用途是证明用户是人,但它也有第二个目的:破译数字化文本中不清楚的单词。recaptcha的作用得到了认可,2014年谷歌收购了冯·安的公司,并将这一技术用于图书扫描项目。
我们所处的时代之所以与众不同,是因为数据的收集不再存在固有的局限性。技术已经发 展到一定程度,大量信息可以被廉价地捕捉和记录。数据经常会得到被动地收集,人们无须投入太多精力甚至不需要认识这些数据。而且,由于存储成本的大幅下降,保存数据比丢弃数据更加容易。这使得以较低成本获得更多数据的可能性比以往任何时候都大。
大数据创新可以有两个方向:
1、更适合于已有大量数据在手的进一步数据价值挖掘。
2、或打造向大数据收集方向靠拢的模式,建立一种好的收集机制。
数据创新1:数据的再利用
数据创新2:重组数据
数据创新3:可扩展数据 :可扩展数据
数据创新4:数据的折旧值
数据创新5:数据废气
数据创新6:开放数据
这两家公司的不同做法很能说明问题。微软只看到了拼写检查作为文字处理这一个目的的 价值,而谷歌却理解了其更深层次的价值。不仅利用错别字开发了世界上最好、最新式的拼写检查器来提高搜索质量,而且将其应用于许多其他服务中,如搜索的“自动完成”功能、gmail、谷歌文档甚至翻译系统。
容错,包容能带来新的价值
一位谷歌的员工说:“我们喜欢从大的‘噪音’数据集中吸取教训。”
很多企业都开始设计他们的系统,以这种方式收集和使用信息。在facebook的早期,数据 科学家们研究了数据废气的丰富信息,发现人们会采取某种行动(如回帖、点击图标等)的最重要的预测指标就是他们看到了周围的朋友也在这么做。紧接着,facebook重新设计了它的系统,使每个用户的活动变得可见并广播出去,这为网站的良性循环做出了新的贡献。逐渐地,这个想法从互联网行业传播至可以收集用户反馈的任何公司。
数据本身、技能与思维
数据来源,信用卡 匿名信息
手/网游公司。。。
大数据只是科技发展的一个阶段,人类卓越的才华才是人类最大的优势(相比较于机器),是我们行进道路上可能用到或可以说必定会用到工具,工具就需要擅用的才华与技巧。 如果存在超越或近似于人类才华的能力,那它就具备人类同样的智慧。