北京儿童插座价格联盟

课程分享|吕本富:大数据及大数据分析

只看楼主 收藏 回复
  • - -
楼主
Public Communication and Social Development)成立于2012年,秉持北大学术精神和人文关怀,在社会发展的大视野下致力于公共传播领域的学术研究、国际交流、媒体培训和公益合作,旨在搭建政界、学界、企业界、媒体同仁、公益同仁跨界交流、融通合作的平台,以公共传播推动社会发展,以社会发展丰富公共传播。


编者按

如果说互联网是一座宝藏,那么大数据就是打开这座宝藏的钥匙。新事物出现所带来的实现更美好事物的可能性,不仅需要我们的欢呼,更需要我们细致的思考,还有超乎想象力地运用。北大公共传播研修班 2017年春季课程 ,特邀请中国科学院大学经管学院教授、博士生导师吕本富为大家讲授4期《大数据分析》课程,梳理大数据相关技术及其原理,启迪大家把握历史未来发展脉络,更为深刻地去认识“媒介与社会变迁”这一命题。本期为大家推送的是吕本富老师北大公共传播班第一课的精华。


请输入标题     bcdef

名师简介

国家创新与发展战略研究会副理事长

中国科学院大学经管学院教授 博士生导师

 

主要研究领域:网络经济和网络空间战略、创新创业管理、管理智慧与谋略。在网络空间和创新创业研究方面,主要承担国家创新与发展研究会的政策研究工作;在智慧与谋略方面,主要研究中国传统智慧与博弈论结合。


请输入标题     abcdefg


1

数据的重要性


商鞅说

劳氏说


商鞅说

古代治国就已经有重数据的思想。


《商君书·去强篇》中就曾记载:“强国知十三数:竟内仓口之数,壮男壮女之数,老弱之数,官士之数,以言说取食者之数,利民之数,马、牛、刍、稾之数。欲强国,不知国十三数,地虽利,民虽众,国愈弱至削。”这个十三数,就是当时政府年终考核制需要统计的项目列别。


劳氏说

劳拉在《统计与真理》的第一版的序文中,写到:

        “ 我相信

   在最终的分析中,所有知识皆为历史。

   在抽象的意义下,所有科学皆为数学。

   在理性的世界里,所有判断皆为统计。”

从此可见,数量的问题是世界的根本。


2
大数据与数据源

数据的概念

大数据的特征与价值

大数据催生新经济

从数据到智慧

数据源及原型

数据的反面


什么是数据?


关于数据的理解


从内容上来说:

数据(data)在拉丁文里是“已知”的意思

数据(data在英文中的一个解释是“一组事实的集合,从中可以分析出结论”。

总的说,凡是用某种载体记录下来的、能反映自然界和人类社会某种信息的,就可称之为数据。换句话说,数据是一个过程,包括三个过程:事实、分析、结论。


从形式上来说:

古人“结绳记事”,是数据,绳子是存储。步入现代社会,信息的种类和数量越来越丰富,载体也越来越多。数字是数据,文字是数据,图像、音频、视频等都是数据。


数据与规律


人类科学发展史上的不少进步都和数据采集分析直接相关,例如现代医学流行病学的开端。

伦敦1854年发生了大规模的霍乱,很长时间没有办法控制。一位医师用标点地图的方法研究了当地水井分布和霍乱患者分布之间的关系,发现有一口水井周围,霍乱患病率明显较高,借此找到了霍乱暴发的原因:一口被污染的水井。关闭这口水井之后,霍乱的发病率明显下降。


数据与方法


数据与方法相辅相成,但关键还在于数据。
天气预报由于利用精密的雷达和卫星地图,加上计算机对数据的快速处理,过去五年对未来3天的天气预报的准确度已经达到95%。



大数据的特征与价值


大数据的定义


大数据是指利用现有理论、方法、技术和工具难以在可接受的时间内完成分析计算、整体呈现高价值的海量复杂数据集合。


大数据的特征


数量大——当前,全球所拥有的数据总量已经远远超过历史上的任何时期,且数据量的增加速度呈现倍增趋势;
鲜明的流式特征——
在数据速率方面,数据产生、传播的速度更快,在不同时空中流转;

越来越快——数据价值的有效时间急剧减少,要求越来越高的数据计算和使用能力


大数据区别于数据


一方面:

数据的爆炸是三维的、立体的。所谓的三维,除了指数据量快速增大外,还指数据增长速度的加快,以及数据的多样性,即数据的来源、种类不断增加。


另一方面:

从数据到大数据,不仅是量的积累,更是质的飞跃。海量的、不同来源、不同形式、包含不同信息的数据可以容易地被整合、分析,原本孤立的数据变得互相联通。这使得人们通过数据分析,能发现小数据时代很难发现的新知识,创造新的价值。


大数据的价值


循大数据治国,更有效:大数据时代,政府做决策能够从粗放型转向集约型;

大数据驱动的运营:组织战略将从业务驱动转向数据驱动;

行为数据分析:
各种经济活动行为记录的大数据,才是真正的“石油”,才有冶炼价值;

大数据与健康:如果真能达成生物学上多维多向数据的有机融合,就能够把个人完整地描述出来,从而实现精准医疗的;

交叉验证:大数据的特征之一是多样性,不同来源、不同维度的数据之间存在一定的关联度,可以交叉验证;

大数据下的科研范式:

数据密集型科学,再现真实的历史场景





大数据催生新经济


新经济的产生


美国的金融重心正在从华尔街向硅谷转移,其背后的推手是以高科技与互联网企业为代表的新经济的兴起。

新经济带来的不只是对传统商业模式的颠覆,也为经济学引入了全新的思考。微观经济学和行为经济学成为硅谷企业了解消费者、研判趋势、设计未来的利器。


何为“新经济”


“新经济”指的是从基于实物商品的经济转变到基于软件和知识产权的经济。

“新经济”背景下:

共享经济,减低信息成本,更简便高效地匹配市场供求。像AirbnbEtsy这样的新经济网站给人们创造了新的赚钱途径——在自己出外度假时把房子出租,或出售艺术创作和手工艺品。

“组合职业”的兴起,每个人都是自身职业的创业家。新时代的就业者不仅需要不断学习新技能,而且要紧贴时代的经济脉搏,发掘新机遇


微观经济学的变革


微观经济学就是数据驱动,挖掘大数据的经济学。硅谷的公司越来越青睐他们:将一位最前沿的经济学家招致麾下,他们就能预测出消费者或者员工下一步可能的动向。


从数据到智慧



在知识管理领域的DIKW理论中,data作为最底层被视为原始素材。
而在大数据背景下,每一个阶层的内容也在成倍地增加。


数据、信息、策略

不同的学派和实践者对于“管理”的本质可能有着完全迥异的理解,都认可:决策是管理的本质,而管理最核心的要素就是信息的收集与传递。

决策产生价值,决策的精确性来自信息对称程度,信息的对称程度来自数据挖掘和数据梳理。

在经济学中,所谓的“外部性”是一个人的行为对旁观者福利的影响。大数据令人惊奇的地方就在于其外部性,大数据分析的重要工作也就是挖掘数据的外部性。


数据源及类型


大数据的主要来源

自然大数据——地球,自然界的大数据,这么多的卫星绕着地球转,每天能下载巨量的大空间数据。生命大数据、生物大数据,尤其是每一个人体的大数据也是一个重要的来源。

经济运行数据——各种交易类型数据

行为大数据——每天手机、笔记本都产生巨大的数字痕迹,既有物理数据,也有心理数据。

物联网大数据——各种工业设备和社会运行的数据。


数据类型

政府开放数据:
,各国优先开放高价值的数据,主要包括地理空间、统计、福利、交通和基础设施、科研、司法安全、地球规则、教育等;
企业大数据:
企业的业务包括生产和流通两部分,生产部分是工业大数据,而流通部分是商业大数据(客户行为大数据);

商业—行为大数据:大数据世界中,大量利润是通过使用人工生成的信息得到的;


工业大数据:工业大数据的“大”不能仅从数据量、数据类型、产生速度、质量等角度来看,而应考虑以下两个方面:维度之大和先验知识基础之大。



大数据的结构


在数据复杂性方面,数据种类繁多,在编码方式、存储格式、应用特征等多个方面也存在多层次、多方面的差异性,结构化、半结构化、非结构化数据并存;

在数据价值方面,数据规模增大到一定程度之后,隐含于数据中的知识的价值也随之增大。


结构化与非结构化


inflated大数据是肥胖的。大数据的大不仅仅体现在数据记录的行数多,更体现在字段变量的列数多,这就为分析多因素之间的关联性带来了难度。

unstructured大数据是非结构化的。大数据的结构也是非常复杂的,既包括像交易额、时间等连续型变量,像性别、工作类型等离散型变量这样传统的结构化数据,更增添了如文本、社会关系网络,乃至语音、图像等大量新兴的非结构化数据,而这些非结构化数据蕴含的信息量往往更加巨大,但分析手段却略显单薄。

incomplete大数据是残缺的。在现实的世界里,由于用户登记的信息不全、计算机数据存储的错误等种种原因,数据缺失是常见的现象。

abnormal大数据是异常的。在现实的世界里,大数据里还有不少异常值(outlier)。比如某些连续型变量(如一个短期时间内的交易金额)的取之太大,某些离散型变量(如某个被选购的产品名称)里的某个水平值出现的次数太少。


数据库系统


在这样一个计算领先的时代当中,我们主要做的是结构化数据的挖掘。关系数据库之父埃德加在1970年提出一个关系模型,以关系代数为核心运算,用二维表形式表示实体和实体间的联系。

关系代数是关系数据库的形式化理论和约束,先有顶层设计和数据结构,后填入清洗后的数据。数据围绕结构转,数据围绕程序转。用户无需关心数据的获取、存储、分析以及提取过程。

随着数据库产业的膨大,人们对数据库已经不太满足了,于是把databases说成大数据,这便遇到了两个不可回避的挑战,第一个挑战是由于关系代数的形式化约束过于苛刻,无法表示现实数据;第二个挑战是随着数据量的增大,关系代数运算性能急剧下降。

因此,客户端服务器结构和云计算结构蓬勃产生,这时已经没有了关于代数那样严格的形式化约束,依靠的主要是规范、标准,所有媒体均以实体形式存在,甚至是软件,实体通过超链接产生联系。


数据的反面


名师荐书




作者:Lisa Gitelman 纽约大学英语和传媒、文化传播教授


不同学科领域有不同的数据想象规则和标准,如同其各自有其方法论和实践演化路线。

数据掩盖了价值观念。数据从来都不可能是“原始”的,数据总是依照某人的倾向和价值观念而被构建出来的。

数据分析的结果看似客观公正,但其实价值选择贯穿了从构建到解读的全过程。数据貌似中立,但事实上数据不完全是一种自然存在,而是人类想象和加工的结果。


           


文|根据课堂内容整理

编辑|郑永明


本文为北大公共传播首发  版权归作者所有
  如需转载  请联系授权
欢迎合作|投稿
pcsdpku@163.com


北京大学公共传播研究中心





举报 | 1楼 回复

友情链接