北京儿童插座价格联盟

对《工业大数据白皮书(2017版)》的意见

只看楼主 收藏 回复
  • - -
楼主

 

大前天,电子技术标准化研究院的《工业大数据白皮书(2017版)》隆重发布了。这对中国智能制造领域来说是一件大事。我最近也在思考这一方面的问题,对白皮书有较大的期望。昨天晚上偶尔翻阅了一下。结果是期望越大、失望也越大,总感觉讨论的不深不透、缺少灵魂性的认识。

今天随看、随想、随手写了下面这点笔记。这个笔记碎片化、没逻辑、漏洞百出。在批评别人的同时,自己写的东西也不值一驳。但我想,这个东西或许能引发大家的思考和讨论,对促进工业大数据的事业是有用的。

理解“概念”

 

科技活动常常要提出概念。提炼概念就是明确内涵和外延;明确内涵是为了找到对象的共性、明确外延为了明确与其他对象的差异。明确概念可凝聚共识、避免不必要的误会、让大家来研究问题。概念提得好,首先是针对的问题重要、价值大(概念提出的契机,往往就是因为发现了新的价值), 其次是(对象特点、要解决的问题和解决问题的方法)共性显著。

 

“大数据”的概念

 

下面我们先分析“大数据”这个概念,为什么提得好。大数据概念的提出,最大的特点就是数据量大。ICT技术的发展,让数据量之大和过去是没法比的——概念提出的现实性强。

 

但是,如果仅仅是数据量大,提出概念的意义也不大。提出概念的意义在于它能解决问题,具备的应用价值大。我们知道,数据有价值早已成为大家的共识。但是,大数据有大价值却并没有被广泛认识到。其特点是:单个数据的价值不大(所谓低价值密度)、大数据背景下的价值却可能惊人。这也导致了大数据价值很大,却不容易挖掘。

 

这样,传统的数据处理方法失效了。比如,多媒体中的信息难以挖掘不出来、数据量大或者产生速度快时难以处理、碎片化的数据中难以得到因果性.......那么,要解决这些问题的办法是什么呢?云计算、并行处理、图像识别、深度学习、相关性研究.......这样,我们就会看到:大数据中的“4V”特征、相关理念、技术体系其实是一个整体。所以,“大数据”是个不错的概念。虽然概念背后有某些企业的商业利益。

 

“工业大数据”的概念

 

当提出“工业大数据”的概念时,也要面对这样的问题。

 

首先是提出概念的价值何在?  谈价值何在,不仅是工业大数据本身的价值何在,还包括新概念的价值何在(为什么不用老的概念)。

 

《工业大数据白皮书》的第一部分(背景和目标)说的其实就是工业大数据本身的价值:推动智能制造、加快工业大数据的落地。这个认识是没有问题的。问题是:后面的内容就和这个要求脱节了。

 

《工业大数据白皮书》的第二部分(工业大数据概述),应该是对概念本身进行说明。其中,2.1.1节就是对概念的定义。这个定义可以说是在分类的基础上,用枚举的方法给出的。简而言之,因为是工业企业需要的、在工业企业产生的,就叫工业大数据。这种定义虽然清楚,但是也存在缺陷:由于缺乏对工业大数据特性的提炼,就很难在方法和工具层面进行深入研究。白皮书的作者可能意识到了这个问题,在接下来的2.1.2节(工业大数据的特征)开始讨论这个问题。

 

 

这一节原本应该是体现水平、画龙点睛、大写特写的地方。在我看来,特征的描述,应该基于对工业的深入理解、找到工业大数据的共性和概念的本质。我对这个问题有很大的期待。但现在看来,这一部分却恰恰是令人失望的。

 

最近一年多来,我在北京大数据技术大会、清华大学和东北大学谈过我对工业大数据的一点肤浅认识。凭心而论:白皮书和我的观点有类似之处。尽管如此,我还是要批评一下白皮书:似是而非、不深不透。比如:

 

价值性:我一直强调工业大数据研究必须价值驱动。但是,价值驱动是方法论层面的问题,却不是工业大数据本身的特点。

 

准确性:工业大数据的智能却性可能并不低,准确性不高往往是特定工作点附近波动数据的特点。由于工业过程对可靠的要求特别高,数据质量也必须要跟上才行。对数据质量高的要求首先应该是完整性和真实性、准确性反而是相对次要的。在我看来,白皮书中谈的这个特性,应该用“数据质量”或“真实性”、“完整性”来表述更加合适。

 

闭环性:我搞不清楚,白皮书为什么强调闭环性。我在有关报告中,曾经强调系统性——数据来源于一个复杂的系统,有开环也有闭环。或者换句话说,数据的关联关系特别复杂。某种意义上说,我们关注的工业大数据,不是普通大数据所关心的“非结构化”数据,而是“超结构化”数据。

 

实时性:我认为这个提法是不错的。但是文中强调的是数据采集的实时性,而不是处理的实时性。如果要求处理的实时性,那对大数据的要求要高得多——工业互联网的必要性也才能体现出来。

 

在这一节中,有个重要的问题应该解释一下:工业大数据的数据量,与一般意义下大数据应该是不同的。这个问题很多人都讨论过,但白皮书却没有涉及。这个问题不说清楚,做大数据的人会感觉名不正、言不顺。

 

2.1.2节谈完工业大数据的特征后,本来应该谈方法上的特性,这样才对大家有指导作用,可惜的是:没有看到任何提及(2.3节有所提及,但很不深入)。在我看来,这里可以展开的内容应该很多。下面我随便谈点想法:

 

价值性。工业界用大数据纯属商业行为,以价值创造为目的。这里应该有很多方法论方面的问题可以讨论,比如与业务流程结合。

 

相关与因果。在方法论方面,应该对“相关性”进行进一步的讨论:在笔者看来,一般的大数据强调“相关性”,工业大数据就应该强调“因果性”或“强相关性”。这里的方法论也应该展开一下。

 

结构化问题。前面提到数据的“超结构化”问题。那么,数据分析应该如何解决这个问题?这样就应该引出人际关系、机理和数据分析结合的话题。

 

时间尺度问题。工业大数据的价值,主要体现在现在还是未来?在我看来,主要应该体现在未来。在我看来,工业大数据对未来的智能制造是“雪中送炭”,而现在则往往是“锦上添花”。有些原则性、前瞻性问题应该去思考:工业大数据是利用现有系统的数据,还是为了便于应用而对数据收集提出附加要求? 工业大数据的功能是基于目前业务,还是服务于新业务......但白皮书中给出的例子,主要是针对当前。

 

可靠性问题。由于工业大数据强调结果的可靠性。而可靠性依赖于数据的质量。那么,提高数据质量的过程,很可能就是目前我们遇到的主要问题、工作的难点和重点。未来工业大数据的用途更大,但数据质量更好、数据的可靠性更高、安全性也更好。而现在到未来的发展过程,应该就是数据质量、可靠性、安全性提高的过程。

 

与国情的结合:工业大数据要创造价值,应该与国情和企业的实际情况结合。那么,中国企业的哪些现实能够用大数据的工具来解决呢?在我看来,管理水平低、数据质量差是最具特色的。工业大数据应该帮助我们解决这个问题。

 

工具与平台:我想,问题和方法搞清楚之后,对工具和平台的要求才能清晰起来。也就是说,工具和平台应该以前面的讨论为依据。

 

白皮书的2.22.32.4节所讨论的问题,都是很重要的。但遗憾的是:没有讨论清楚。我猜测,没想清楚的根本原因,是作者把未来的工业大数据看成了“数据仓库”的升级版。基于对现在的认识谈未来,视野展不开。

 

再看白皮书的第三部分。

 

白皮书的3.1部分,谈的是全球主要国家工业大数据相关战略部署:看完之后,我的疑问是:它们与工业大数据有关系吗?

 

白皮书的3.2部分,谈的是工业大数据的应用热点。我的感觉是:白皮书描述的是现在的情况,不是未来的情况。而且,谈的内容应该是工业软件的应用热点,而不是工业大数据的应用热点。

 

白皮书的3.3部分,谈的是工业大数据的现状。这一部分,我没有意见。白皮书的3.4部分,谈的是工业大数据发展形势分析。对中短期内的发展趋势,有一定的参考价值。

 

白皮书的第四、第五部分,是从IT的角度谈的。第六部分更是超出了我的认识范畴。我提不出什么意见。

 

白皮书的第七部分是案例。我感觉:与其说是工业大数据的案例,不如说是信息技术应用的案例。这些案例多数是针对已有业务的,不是针对业务创新的,有一定的片面性。本质上看,我的这种迷茫还是因为没想清楚工业大数据的功能定位。

 

l总结

 

我觉得,工业大数据的白皮书要写得好,应该有几个要点:深入理解工业数据的特点、想清楚工业大数据的功能定位、必须明白现在和未来的差别、必须结合国情服务于中国制造的转型、必须搞清工业大数据与智能制造的关系。

 

要实现这些要求,仅仅靠调研是不够的:眼睛和耳朵只能告诉我们现在是什么,用脑和用心才能知道未来是什么。搞智能制造也好、工业大数据也好,我们已经处于一个“无处可抄”的时代。适应这个时代,必须要有想象力——而这种想象力应该是以实践为基础,设想才能落地;又不能拘泥于现在的实践,才能创造和走入未来。这对中国的科技界,真的是个挑战。

 

最后说一句:本人对如何撰写白皮书和标准并不在行,只是有点工作体会。如果让我去写,肯定会写得更差。如果这些批评不在理,就权当胡说。


举报 | 1楼 回复

友情链接