黑盒里的数据：马化腾所说的“信息能源”指什么？_业界_科技快报

黑盒里的数据：马化腾所说的“信息能源”指什么？业界

虎嗅网 / 涵詔 / 2015-05-01 21:30

腾讯要做的“连接器”，就是“黑盒”。

虎嗅注：2015 年 4 月 29 日，腾讯举办 2015 “互联网+中国”峰会，腾讯董事会主席兼首席执行官马化腾在主题演讲中给了互联网一个新的定义——信息能源。他指出，和两次工业革命类似，像蒸汽机和电力一样，互联网应该定义为第三次工业革命的一部分。

所谓能源，其抽象的含义是指“提供能量转化的物质”。那么，如何理解所谓的“信息能源”？这种“能源形态”的能量转化过程一般是怎么发生的？对政治、经济和社会文化可能有哪些重大的影响？(这个问题比较大) 本文试图从一个侧面简单阐述，谨供诸位虎嗅读者参考。

信息和黑盒

人类通过获得、识别自然界和社会的不同信息来区别不同事物，进而认识和改造世界。人类社会传播的一切内容，均可以视为信息。信息在互联网领域的表现形式，就是如今我们常常会听到一个词：数据。

互联网对于数据信息的处理，理所当然地，遵循计算机软件程序的一些基本原理方法。其中很重要的一点，就是“黑盒”。“黑盒”原本指的是软件测试的一种方法：把测试对象看成一个黑盒子，完全不考虑程序内部结构和处理过程，只在接口处进行测试。产品自成一体 (即数据封装)，使用者不需要关心产品的工作原理，就能直接使用 (即数据隐藏)。

“黑盒”当中发生的事情，恰恰是大部分普通用户不清楚、不理解或是不关心的。而“信息能源”的能量转化过程，最关键的步骤，恰恰就发生在“黑盒”当中。马化腾说，腾讯要做的两件事“连接器”和“内容产业”，从本质上说，指的就是“黑盒”和“数据信息”。

“信息能源”在“黑盒”里进行能量转化

互联网业界曾经流行一句话，叫“羊毛出在狗身上，猪买单”。有一种解释：互联网让企业在主营业务之外赚钱。一个简单的例子是公司靠软件免费积累用户，再将用户流量卖给第三方。虽然从表面上看是软件公司，但是软件都是免费提供，用户流量才是真正赚钱的。对于用户来说，有免费软件用就够了，不必关心公司怎么赚钱。

这个例子在一定程度上描述了“黑盒”里面发生的事情。“信息能源”在这里将免费软件转化为用户流量，正是这一步关键的转换，打通了整个链条。这是一个典型的“黑盒”。

验证码系统 reCAPTCHA 是另一个典型的“黑盒”案例，本来这是一个区分用户和机器人程序的验证系统。在用户接口端表现为一个由用户回答的问题，其内容图像比较模糊，并进行了扭曲变形的干扰处理，为的是过滤机器人程序。如果用户输入正确则视为验证通过。reCAPTCHA 的“黑盒”另一端接口是书本扫描中无法准确被 OCR 识别的文字，也就是说，在用户看来自己完成了一个验证码输入操作，通过“黑盒”的转换，用户实际上完成了一次人工识别并手工输入字符串的操作。《纽约时报》利用 reCAPTCHA 系统，完成了大量文字资料的数字化工作。

“黑盒”的关键是信息，或者说数据。基于数据，腾讯这样的互联网公司才能设计“黑盒”，针对不同的数据，“黑盒”内部又有不同的设计实现，根据需要来完成不同的“信息”能量转化过程。没有数据，“黑盒”就无从谈起。

于是我们看到整个互联网经济的崛起过程，始终是从积累数据开始。互联网公司想尽各种方法，获取用户贡献的数据，最典型的手段就是免费。网景浏览器发明者、风投家马克•安德森 (Marc Andreessen) 用“免费冰淇淋”的说法来比喻互联网公司吸引用户、积累数据的方法：假设现在有人在大街上推着冰淇淋车，一边吃一边向过往的路人免费赠送，你会不会去拿一份尝尝？当然会，谁会和免费又好吃的冰淇淋作对呢？

这里有个例子：2007 年 4 月，Google 推出了 Goog-411，这是一种通过打电话进行操作的语音搜索服务。411 是美国常见的电话查询服务，在 Goog-411 推出的时候，全美境内每年有 26 亿次 411 拨叫，市场规模 70 亿。但是， Goog-411 服务完全免费。用户通过拨打电话使用这项服务，完全通过机器提示音进行操作。

著名科技博客 TechCrunch 在报道该服务时给出的评价是——付费 411 电话服务会被颠覆。可是在三年之后，2010 年 11 月 12 日，Goog-411 服务宣布关闭，理由让人恍然大悟：Google 推出该服务的初衷是为了搜集语音数据，为正在研发中的语音助手 (也就是我们现在用到的 Google Now) 建立数据库。什么颠覆 70 亿的市场，Google 根本没往那儿想。换句话说，通过 Goog-411 这个“黑盒”，用户全都成了 Google 设计语音助手的免费劳动力。

类似地，诸如携程早年的免费登记送会员卡，和现今一些公司的装 APP 返现金活动，也是“免费冰淇淋”典型例子。

当免费的产品能够制造足够诱人的冲动时，用户愿意用一些现阶段价值 (注意，是现阶段) 不那么明显的东西去交换——甚至很多时候都不知道这种交换的存在。对一些互联网公司来说，无论拿什么和用户交换，最终一定要得到能够为“黑盒”所用的——数据。

当然，获取数据还有一种最直接也最有效的方式：收购有数据的公司。

Octazen 是马来西亚的一家创业公司，2010 年 2 月，Facebook 收购了这家公司——可能至今我们能搜到的关于这家公司的新闻也只有这一条。直到 Facebook 前员工安迪•琼斯 (Andy Jones) 在网上解释 Facebook 获取用户数据的方法并以收购这家公司的交易举例时，我们才发现 Facebook 要的是数据。“Octazen 有一个庞大的数据库，Facebook 要的就是这个。”他说。

当积累数据的工作完成到一定进度 (比如说到了“大数据”阶段)，针对各个行业设计“黑盒”的工作，就可以披上“互联网+”的外衣，粉墨登场了。毕竟，互联网行业有大量的“信息能源”迫不及待地要到“黑盒”中做能量的转化。

“信息能源”在“互联网+”和传统行业结合过程中，发挥作用的案例分享和经验总结，相关的探讨已经很多，并且会继续多下去。相信以 BAT 为首的互联网公司早就有了深入的研究，本文暂不赘述。

做为一个科技媒体，本文下面想要重点提出的是，在“互联网+”大趋势下，企业对用户隐私所应承担的责任和义务。顺便沿着“黑盒”的角度，试着回答一下为什么 Google、Facebook 和 Twitter 无法在中国大陆地区访问的问题。

用户数据——“互联网+”时代的金矿

如果用“免费冰淇淋”的例子来比喻，那么 Google、Facebook 和 Twitter 是——至少在一大部分网络用户来看——比百度、人人和微博更好吃的“冰淇淋”。诚然，Google、Facebook 和 Twitter 在某些方面技术更先进，用户体验更好，按理说应该成为中国大陆广大网民可以使用的优秀产品。

但最大的问题是，这三家公司的数据并不是完全开放的，积累数据的方法和具体搜集的数据内容全都在它们的“黑盒”里。用户数据在“互联网+”时代的重要性不言而喻，依马化腾的“第三次工业革命”角度来看，视为“战略性资源”也不为过。如果一个国家的“信息能源”没有掌握在本国政府的监管之中，从国家产业发展的角度来说，无疑是重大的战略失误。

读到这里可能有一些对防火墙深恶痛绝的朋友已经开始要骂我了，那么我们就来回顾两起事件，看看 Facebook 和 Twitter 的“黑盒”里，曾经发生过什么？

2014 年 6 月，Facebook 的数据科学家发布了一项研究报告，报告称 2012 年 1 月在美国国防部的资助下，Facebook 通过操纵 Facebook 的信息流，在用户不知情且未获允许的情况下，以 68 万名用户为试验对象，进行了一次“情绪感染试验” (emotional contagion) 。英国《卫报》在文章中指出：“Facebook 向人们表明，它可以操纵用户情绪。”

消息一出引发轩然大波，美国议员致信 FTC 要求调查并出台监管措施，并呼吁消费者了解在社交网络上的隐私权。美国数字保护组织 EPIC 向 FTC 提起诉讼，要求制裁 Facebook。事件最后以 Facebook 首席运营官桑德博格 (Sheryl Sandberg) 公开道歉而暂告一段落。

如果 Facebook 能够通过改变信息流内容来操纵我们的情绪，我们会作何感想？

再来看看 Twitter：2009 年 5 月，伊朗第十届总统大选开始，5 月 17 日，Twitter 按计划本来要在旧金山时间当日深夜进行系统维护，所以需要临时暂停伊朗地区的服务。但是在一位美国国务院官员的要求下，延迟了系统维护时间。因为 Twitter 在这次伊朗大选中发挥了重要的作用：伊朗民众是否能够正常使用 Twitter 对政局发展可能带来深远影响。那一年的事情我们都知道了，而这位美国国务院官员在转年 9 月应 Google 首席执行官施密特 (Eric Schmidt) 的邀请，加入了 Google。当月《外交政策》(Foreign Policy) 杂志采访了他，当问到“有什么事情是美国国务院做不了，但可以在 Google 做的事情？”他回答说：“有一些事情是民营公司可以，但是美国政府不能做的⋯⋯在一些问题上，以政府的名义去做的话会非常敏感。”

如果新浪微博能够在美国大选中发挥类似的作用，是否也会有外交部的官员出面要求新浪延迟系统维护时间呢？

对于一个国家的经济来说，土地和人口是基本资源。对于 Facebook 这样的“虚拟国家”来说，没有土地，用户就是它的人口。而用户免费提供的数据，就是 Facebook 的“人口税”。

像用户数据这样，如此宝贵的“信息能源”，有关监管部门又怎么可能拱手送人做“人口税”呢？

我的数据是我的，你用之前和我说清楚了吗？

一方面是用户在免费提供数据，另一方面是互联网企业用数据大发财源。这种情况是否合理？换句话说，如果一个用户自己的数据，被企业拿去用来当“信息能源”，是否侵犯了这位用户的权益？

在互联网产业发达和公民维权意识较高的欧美国家，互联网隐私保护方面的立法方面已经在积极探索。美国白宫今年初就宣布了保护民众网络隐私的法案，让消费者决定哪些信息可以被收集。奥巴马在回答媒体相关问题时直截了当地对记者说：“你拥有你的数据，我拥有我的数据。就是这样。”

有观点认为，在巨大的利益诱惑下，企业是什么事都做得出来的。无论如何，制度或法治环境的建设都要发挥应有的作用。如果企业滥用数据，理应受到制度的惩罚和法律的制裁。

既然我们都拥有各自的数据，那么当普通用户涉及个人隐私的数据，在不知情的前提下，被企业搜集来设计“黑盒”并获得商业利益时，用户的隐私权是否被侵犯？

企业是否有义务告知用户“黑盒”里面发生了什么？

每一个普通用户“贡献”的数据又被用在了哪里？

作为一个普通用户，我很想知道。

1. 遵循行业规范，任何转载的稿件都会明确标注作者和来源；2. 的原创文章，请转载时务必注明文章作者和"来源： "，不尊重原创的行为或将追究责任；3.作者投稿可能会经编辑修改或补充。

阅读延展

热门话题

热文榜单