论坛分类

对《工业大数据白皮书（2017版）》的意见

只看楼主收藏回复

楼主

大前天，电子技术标准化研究院的《工业大数据白皮书（2017版）》隆重发布了。这对中国智能制造领域来说是一件大事。我最近也在思考这一方面的问题，对白皮书有较大的期望。昨天晚上偶尔翻阅了一下。结果是期望越大、失望也越大，总感觉讨论的不深不透、缺少灵魂性的认识。

今天随看、随想、随手写了下面这点笔记。这个笔记碎片化、没逻辑、漏洞百出。在批评别人的同时，自己写的东西也不值一驳。但我想，这个东西或许能引发大家的思考和讨论，对促进工业大数据的事业是有用的。

l 理解“概念”

科技活动常常要提出概念。提炼概念就是明确内涵和外延；明确内涵是为了找到对象的共性、明确外延为了明确与其他对象的差异。明确概念可凝聚共识、避免不必要的误会、让大家来研究问题。概念提得好，首先是针对的问题重要、价值大（概念提出的契机，往往就是因为发现了新的价值），其次是（对象特点、要解决的问题和解决问题的方法）共性显著。

l “大数据”的概念

下面我们先分析“大数据”这个概念，为什么提得好。大数据概念的提出，最大的特点就是数据量大。ICT技术的发展，让数据量之大和过去是没法比的——概念提出的现实性强。

但是，如果仅仅是数据量大，提出概念的意义也不大。提出概念的意义在于它能解决问题，具备的应用价值大。我们知道，数据有价值早已成为大家的共识。但是，大数据有大价值却并没有被广泛认识到。其特点是：单个数据的价值不大（所谓低价值密度）、大数据背景下的价值却可能惊人。这也导致了大数据价值很大，却不容易挖掘。

这样，传统的数据处理方法失效了。比如，多媒体中的信息难以挖掘不出来、数据量大或者产生速度快时难以处理、碎片化的数据中难以得到因果性.......那么，要解决这些问题的办法是什么呢？云计算、并行处理、图像识别、深度学习、相关性研究.......这样，我们就会看到：大数据中的“4V”特征、相关理念、技术体系其实是一个整体。所以，“大数据”是个不错的概念。虽然概念背后有某些企业的商业利益。

l “工业大数据”的概念

当提出“工业大数据”的概念时，也要面对这样的问题。

首先是提出概念的价值何在？谈价值何在，不仅是工业大数据本身的价值何在，还包括新概念的价值何在（为什么不用老的概念）。

《工业大数据白皮书》的第一部分（背景和目标）说的其实就是工业大数据本身的价值：推动智能制造、加快工业大数据的落地。这个认识是没有问题的。问题是：后面的内容就和这个要求脱节了。

《工业大数据白皮书》的第二部分（工业大数据概述），应该是对概念本身进行说明。其中，2.1.1节就是对概念的定义。这个定义可以说是在分类的基础上，用枚举的方法给出的。简而言之，因为是工业企业需要的、在工业企业产生的，就叫工业大数据。这种定义虽然清楚，但是也存在缺陷：由于缺乏对工业大数据特性的提炼，就很难在方法和工具层面进行深入研究。白皮书的作者可能意识到了这个问题，在接下来的2.1.2节（工业大数据的特征）开始讨论这个问题。

这一节原本应该是体现水平、画龙点睛、大写特写的地方。在我看来，特征的描述，应该基于对工业的深入理解、找到工业大数据的共性和概念的本质。我对这个问题有很大的期待。但现在看来，这一部分却恰恰是令人失望的。

最近一年多来，我在北京大数据技术大会、清华大学和东北大学谈过我对工业大数据的一点肤浅认识。凭心而论：白皮书和我的观点有类似之处。尽管如此，我还是要批评一下白皮书：似是而非、不深不透。比如：

价值性：我一直强调工业大数据研究必须价值驱动。但是，价值驱动是方法论层面的问题，却不是工业大数据本身的特点。

准确性：工业大数据的智能却性可能并不低，准确性不高往往是特定工作点附近波动数据的特点。由于工业过程对可靠的要求特别高，数据质量也必须要跟上才行。对数据质量高的要求首先应该是完整性和真实性、准确性反而是相对次要的。在我看来，白皮书中谈的这个特性，应该用“数据质量”或“真实性”、“完整性”来表述更加合适。

闭环性：我搞不清楚，白皮书为什么强调闭环性。我在有关报告中，曾经强调系统性——数据来源于一个复杂的系统，有开环也有闭环。或者换句话说，数据的关联关系特别复杂。某种意义上说，我们关注的工业大数据，不是普通大数据所关心的“非结构化”数据，而是“超结构化”数据。

实时性：我认为这个提法是不错的。但是文中强调的是数据采集的实时性，而不是处理的实时性。如果要求处理的实时性，那对大数据的要求要高得多——工业互联网的必要性也才能体现出来。

在这一节中，有个重要的问题应该解释一下：工业大数据的数据量，与一般意义下大数据应该是不同的。这个问题很多人都讨论过，但白皮书却没有涉及。这个问题不说清楚，做大数据的人会感觉名不正、言不顺。

在2.1.2节谈完工业大数据的特征后，本来应该谈方法上的特性，这样才对大家有指导作用，可惜的是：没有看到任何提及（2.3节有所提及，但很不深入）。在我看来，这里可以展开的内容应该很多。下面我随便谈点想法：

价值性。工业界用大数据纯属商业行为，以价值创造为目的。这里应该有很多方法论方面的问题可以讨论，比如与业务流程结合。

相关与因果。在方法论方面，应该对“相关性”进行进一步的讨论：在笔者看来，一般的大数据强调“相关性”，工业大数据就应该强调“因果性”或“强相关性”。这里的方法论也应该展开一下。

结构化问题。前面提到数据的“超结构化”问题。那么，数据分析应该如何解决这个问题？这样就应该引出人际关系、机理和数据分析结合的话题。

时间尺度问题。工业大数据的价值，主要体现在现在还是未来？在我看来，主要应该体现在未来。在我看来，工业大数据对未来的智能制造是“雪中送炭”，而现在则往往是“锦上添花”。有些原则性、前瞻性问题应该去思考：工业大数据是利用现有系统的数据，还是为了便于应用而对数据收集提出附加要求？工业大数据的功能是基于目前业务，还是服务于新业务......但白皮书中给出的例子，主要是针对当前。

可靠性问题。由于工业大数据强调结果的可靠性。而可靠性依赖于数据的质量。那么，提高数据质量的过程，很可能就是目前我们遇到的主要问题、工作的难点和重点。未来工业大数据的用途更大，但数据质量更好、数据的可靠性更高、安全性也更好。而现在到未来的发展过程，应该就是数据质量、可靠性、安全性提高的过程。

与国情的结合：工业大数据要创造价值，应该与国情和企业的实际情况结合。那么，中国企业的哪些现实能够用大数据的工具来解决呢？在我看来，管理水平低、数据质量差是最具特色的。工业大数据应该帮助我们解决这个问题。

工具与平台：我想，问题和方法搞清楚之后，对工具和平台的要求才能清晰起来。也就是说，工具和平台应该以前面的讨论为依据。

白皮书的2.2、2.3、2.4节所讨论的问题，都是很重要的。但遗憾的是：没有讨论清楚。我猜测，没想清楚的根本原因，是作者把未来的工业大数据看成了“数据仓库”的升级版。基于对现在的认识谈未来，视野展不开。

再看白皮书的第三部分。

白皮书的3.1部分，谈的是全球主要国家工业大数据相关战略部署：看完之后，我的疑问是：它们与工业大数据有关系吗？

白皮书的3.2部分，谈的是工业大数据的应用热点。我的感觉是：白皮书描述的是现在的情况，不是未来的情况。而且，谈的内容应该是工业软件的应用热点，而不是工业大数据的应用热点。

白皮书的3.3部分，谈的是工业大数据的现状。这一部分，我没有意见。白皮书的3.4部分，谈的是工业大数据发展形势分析。对中短期内的发展趋势，有一定的参考价值。

白皮书的第四、第五部分，是从IT的角度谈的。第六部分更是超出了我的认识范畴。我提不出什么意见。

白皮书的第七部分是案例。我感觉：与其说是工业大数据的案例，不如说是信息技术应用的案例。这些案例多数是针对已有业务的，不是针对业务创新的，有一定的片面性。本质上看，我的这种迷茫还是因为没想清楚工业大数据的功能定位。

l总结

我觉得，工业大数据的白皮书要写得好，应该有几个要点：深入理解工业数据的特点、想清楚工业大数据的功能定位、必须明白现在和未来的差别、必须结合国情服务于中国制造的转型、必须搞清工业大数据与智能制造的关系。

要实现这些要求，仅仅靠调研是不够的：眼睛和耳朵只能告诉我们现在是什么，用脑和用心才能知道未来是什么。搞智能制造也好、工业大数据也好，我们已经处于一个“无处可抄”的时代。适应这个时代，必须要有想象力——而这种想象力应该是以实践为基础，设想才能落地；又不能拘泥于现在的实践，才能创造和走入未来。这对中国的科技界，真的是个挑战。

最后说一句：本人对如何撰写白皮书和标准并不在行，只是有点工作体会。如果让我去写，肯定会写得更差。如果这些批评不在理，就权当胡说。

送TA礼物

举报 | 1楼回复

发表回复

发帖请遵守贴吧协议及“七条底线”

推荐热门榜

友情链接