《哈佛商业评论》在 2017 年发表过一组大创意系列文章,包括Erik Brynjolfsson和Andrew McAfee写的《真实的人工智能》。在那个仅有AlphaGo战胜人类围棋选手一条关键词新闻的年度(而不是“人工智能元年”或者今天),这篇文章对人工智能的分析值得回顾。
250多年来,经济增长的根本动力一直是技术创新。其中最重要的是经济学家所说的通用技术——这一类别包括蒸汽机、电力和内燃机。每一个都催生了互补性创新和机遇的浪潮。例如,内燃机催生了汽车、卡车、飞机、链锯和割草机,以及大型零售商、购物中心、越库仓库、新的供应链,而且,当你想到这一点时,郊区。沃尔玛、UPS 和 Uber 等多元化公司都找到了利用该技术创建有利可图的新商业模式的方法。
我们这个时代最重要的通用技术是人工智能,特别是机器学习(ML)——也就是说,机器能够不断提高其性能,而无需人类准确解释如何完成所赋予的所有任务。在过去的几年里,机器学习变得更加有效且广泛使用。我们现在可以构建能够学习如何自行执行任务的系统。
为什么这有这么大的事?有两个原因。首先,我们人类知道的东西比我们能说的还要多:我们无法准确解释我们如何能够做很多事情——从识别面孔到在古代亚洲战略游戏围棋中做出明智的举动。在机器学习出现之前,我们无法清晰表达自己的知识,这意味着我们无法自动执行许多任务。现在我们可以了。
其次,机器学习系统通常是优秀的学习者。他们可以在各种活动中实现超人的表现,包括检测欺诈和诊断疾病。优秀的数字学习者正在整个经济中部署,其影响将是深远的。
在商业领域,人工智能有望对早期通用技术产生变革性影响。尽管它已在全球数千家公司中使用,但大多数重大机遇尚未被挖掘。人工智能的影响将在未来十年内放大,因为制造、零售、运输、金融、医疗保健、法律、广告、保险、娱乐、教育和几乎所有其他行业都会改变其核心流程和业务模式以利用人工智能机器学习。现在的瓶颈在于管理、执行、商业想象力。
然而,与许多其他新技术一样,人工智能也产生了许多不切实际的期望。我们看到商业计划中大量提及机器学习、神经网络和其他形式的技术,而与其实际功能几乎没有联系。例如,简单地将约会网站称为“人工智能驱动”并不会使其更加有效,但可能有助于筹款。本文将消除噪音,描述人工智能的真正潜力、其实际影响以及采用它的障碍。
今天人工智能能做什么?
人工智能一词由达特茅斯学院数学教授约翰·麦卡锡 (John McCarthy)于 1955 年创造,并于次年组织了有关该主题的开创性会议。从那时起,也许部分是因为它令人回味的名字,这个领域引发了超出其应有的梦幻般的主张和承诺。1957 年,经济学家赫伯特·西蒙 (Herbert Simon)预测,计算机将在 10 年内在国际象棋比赛中击败人类。(花了 40 年。)1967 年,认知科学家马文·明斯基 (Marvin Minsky)表示:“在一代人之内,创造‘人工智能’的问题将得到实质性解决。” 西蒙和明斯基都是知识巨人,但他们犯了严重的错误。因此,关于未来突破的戏剧性主张遭到一定程度的怀疑是可以理解的。
让我们首先探索人工智能已经在做什么以及它的改进速度有多快。最大的进步体现在两个广泛的领域:感知和认知。在前一类中,一些与语音相关的最实际的进步已经取得。语音识别仍然远非完美,但现在有数百万人在使用它——想想 Siri、Alexa 和 Google Assistant。您现在正在阅读的文本最初是由计算机口述的,并以足够的准确性转录,使其比打字更快。斯坦福大学计算机科学家詹姆斯·兰迪及其同事的一项研究发现,现在语音识别的平均速度大约是手机打字的三倍。错误率由原来的 8.5% 降至 4.9%。引人注目的是,这种显着的改善并不是在过去 10 年里出现的,而是从 2016 年夏天开始的。
尽管人工智能已经在全球数千家公司中使用,但大多数重大机遇尚未被挖掘。
图像识别也有了显着提高。您可能已经注意到,Facebook 和其他应用程序现在可以识别您发布的照片中许多朋友的面孔,并提示您用他们的名字标记他们。智能手机上运行的应用程序几乎可以识别野外的任何鸟类。图像识别甚至正在取代公司总部的身份证。视觉系统,例如自动驾驶汽车中使用的视觉系统,以前在识别行人时每 30 帧就会犯一次错误(这些系统中的摄像头每秒记录大约 30 帧);现在,他们在 3000 万帧中犯错的频率不到一次。对于最佳系统来说,从名为 ImageNet 的大型数据库(包含数百万张常见、模糊或完全奇怪的图像的照片)中识别图像的错误率从 2010 年的 30% 以上下降到 2016 年的 4% 左右。(参见展览“小狗还是松饼?”)
近年来,随着基于非常大或“深度”神经网络的新方法的采用,改进的速度迅速加快。用于视觉系统的机器学习方法仍然远非完美无缺,但即使是人们也很难快速识别小狗的面孔,或者更尴尬的是,在不存在的地方看到它们可爱的面孔。
小狗还是松饼?图像识别的进展
机器在区分相似的图像类别方面取得了真正的进步。
第二类重大改进是认知和解决问题的能力。机器已经击败了扑克和围棋领域最优秀的(人类)玩家——专家预测这一成就至少还需要十年的时间。谷歌的 DeepMind 团队使用机器学习系统将数据中心的冷却效率提高了 15% 以上,即使是在经过人类专家优化后也是如此。网络安全公司 Deep Instinct 使用智能代理来检测恶意软件,PayPal 使用智能代理来防止洗钱。新加坡一家保险公司使用 IBM 技术的系统实现了索赔流程的自动化,而数据科学平台公司 Lumidatum 的系统则提供及时的建议以改善客户支持。数十家公司正在使用机器学习来决定在华尔街执行哪些交易,并且越来越多的信贷决策是在它的帮助下做出的。亚马逊利用机器学习来优化库存并改善对客户的产品推荐。Infinite Analytics 开发了一个 ML 系统来预测用户是否会点击特定广告,从而改善一家全球消费品公司的在线广告投放,而另一个系统则用于改善一家巴西在线零售商的客户搜索和发现流程。第一个系统将广告投资回报率提高了三倍,第二个系统使年收入增加了 1.25 亿美元。
机器学习系统不仅在许多应用中取代了旧算法,而且现在在许多曾经由人类完成的最佳任务上表现出色。尽管这些系统远非完美,但它们在 ImageNet 数据库上的错误率(约 5%)已达到或优于人类水平。即使在嘈杂的环境中,语音识别现在也几乎等同于人类的表现。达到这一门槛为改变工作场所和经济开辟了巨大的新可能性。一旦基于人工智能的系统在特定任务上超越了人类的表现,它们就更有可能迅速传播。例如,分别生产无人机和机器人的 Aptonomy 和 Sanbot 正在使用改进的视觉系统来自动化保安人员的大部分工作。Affectiva 等软件公司正在使用它们来识别焦点小组中的喜悦、惊讶和愤怒等情绪。Enlitic 是几家利用深度学习技术扫描医学图像来帮助诊断癌症的初创公司之一。
这些都是令人印象深刻的成就,但基于人工智能的系统的适用性仍然相当狭窄。例如,它们在 ImageNet 数据库上的出色表现,即使拥有数百万张图像,也并不总是能转化为“在野外”类似的成功,因为在“野外”,光照条件、角度、图像分辨率和上下文可能非常不同。更根本的是,我们可以惊叹于一个能够理解中文语音并将其翻译成英语的系统,但我们并不期望这样的系统知道特定汉字的含义——更不用说在北京哪里吃饭了。如果某人出色地完成了某项任务,我们很自然地会认为此人在相关任务中具有一定的能力。但机器学习系统经过训练来执行特定任务,通常它们的知识不能概括。计算机的狭隘理解意味着更广泛的理解这一谬论可能是关于人工智能进步的混乱和夸大说法的最大根源。我们距离能够在不同领域展现通用智能的机器还很遥远。
了解机器学习
关于机器学习最重要的一点是,它代表了一种完全不同的软件创建方法:机器从示例中学习,而不是针对特定结果进行显式编程。这是对以往做法的一个重要突破。在过去 50 年的大部分时间里,信息技术及其应用的进步主要集中在对现有知识和程序进行编码并将其嵌入机器中。事实上,术语“编码”表示将开发人员头脑中的知识转化为机器可以理解和执行的形式的艰苦过程。这种方法有一个根本性的弱点:我们拥有的大部分知识都是隐性的,这意味着我们无法完全解释它。我们几乎不可能写下指令来帮助另一个人学习如何骑自行车或识别朋友的脸。
上图:这就是使用人工智能的意义。结果是人与非人。可以认出,但也出乎意料。她们漂亮吗?可怕吗?愉快?
换句话说,我们所知道的比我们能说的还要多。这一事实非常重要,以至于它有一个名字:波兰尼悖论,以哲学家兼博学者迈克尔·波兰尼 (Michael Polanyi) 的名字命名,他于 1964 年描述了这一事实。波兰尼悖论不仅限制了我们可以互相讲述的内容,而且从历史上看,它对我们了解彼此的能力设置了根本性的限制。赋予机器智能。长期以来,这限制了机器在经济中有效执行的活动。
机器学习正在克服这些限制。在第二次机器时代的第二波浪潮中,人类建造的机器正在从示例中学习并使用结构化反馈来解决自己的问题,例如波兰尼的经典面部识别问题。
机器学习的不同风格
人工智能和机器学习有多种形式,但近年来的大部分成功都属于一类:监督学习系统,在该系统中,机器会获得特定问题的大量正确答案的示例。这个过程几乎总是涉及从一组输入 X 到一组输出 Y 的映射。例如,输入可能是各种动物的图片,正确的输出可能是这些动物的标签:狗、猫、马。输入也可以是录音中的波形,输出可以是单词:“是”、“否”、“你好”、“再见”。(参见展览“监督学习系统”。)
成功的系统通常使用包含数千甚至数百万个示例的训练数据集,每个示例都已标记有正确答案。然后可以让系统查看新的示例。如果训练顺利,系统将以很高的准确率预测答案。
推动这一成功的算法在很大程度上取决于一种称为深度学习的方法,该方法使用神经网络。与前几代机器学习算法相比,深度学习算法具有显着优势:它们可以更好地利用更大的数据集。随着训练数据中示例数量的增加,旧系统会得到改进,但只能达到一定程度,之后额外的数据不会带来更好的预测。该领域的巨头之一吴恩达 (Andrew Ng) 表示,深度神经网络似乎不会以这种方式趋于平稳:更多的数据会带来越来越好的预测。一些非常大的系统使用3600 万个或更多的示例进行训练。当然,处理非常大的数据集需要越来越多的处理能力,这是非常大的系统通常在超级计算机或专用计算机架构上运行的原因之一。
任何拥有大量行为数据并试图预测结果的情况都是监督学习系统的潜在应用。亚马逊消费者业务负责人杰夫威尔克表示,监督学习系统已在很大程度上取代了用于向客户提供个性化推荐的基于内存的过滤算法。在其他情况下,用于设置库存水平和优化供应链的经典算法已被基于机器学习的更高效、更强大的系统所取代。摩根大通推出了商业贷款合同审查制度;过去信贷员需要花费 360,000 个小时才能完成的工作现在只需几秒钟即可完成。监督学习系统现在被用来诊断皮肤癌。这些只是几个例子。
标记数据体并使用它来训练监督学习器相对简单;这就是为什么有监督的机器学习系统比无监督的机器学习系统更常见,至少目前是这样。无监督学习系统寻求自主学习。我们人类是优秀的无监督学习者:我们在很少或没有标记数据的情况下获得了大部分关于世界的知识(例如如何识别一棵树)。但开发一个以这种方式工作的成功的机器学习系统是极其困难的。
如果我们学会建立强大的无监督学习者,令人兴奋的可能性就会出现。这些机器可以用新的方式看待复杂的问题,帮助我们发现我们目前不知道的模式——疾病的传播、市场上证券的价格变动、客户的购买行为等等。这种可能性促使 Facebook 人工智能研究负责人、纽约大学教授 Yann LeCun 将监督学习系统比作蛋糕上的糖霜,将无监督学习比作蛋糕本身。
一旦基于人工智能的系统在特定任务上超越了人类的表现,它们就更有可能迅速传播。
该领域的另一个虽小但不断发展的领域是强化学习。这种方法嵌入到已经掌握了 Atari 视频游戏和围棋等棋盘游戏的系统中。它还有助于优化数据中心的电力使用并制定股票市场的交易策略。Kindred 创建的机器人使用机器学习来识别和分类他们以前从未遇到过的物体,从而加快消费品配送中心的“拾取和放置”过程。在强化学习系统中,程序员指定系统的当前状态和目标,列出允许的操作,并描述限制每个操作结果的环境元素。使用允许的操作,系统必须弄清楚如何尽可能接近目标。当人类可以指定目标但不一定指定如何实现目标时,这些系统就能很好地发挥作用。例如,微软使用强化学习来选择 MSN.com 新闻报道的标题,当更多访问者点击链接时,系统会“奖励”更高的分数。该系统试图根据设计者给出的规则最大化其分数。当然,这意味着强化学习系统将针对您明确奖励的目标进行优化,而不一定是您真正关心的目标(例如终身客户价值),因此正确而明确地指定目标至关重要。
上图:当今人工智能的应用是由人类驱动的。医生试图解决病人棘手的癌症问题。家庭厨师正在寻找新食谱。通勤者决定如何开车上班。
让机器学习发挥作用
对于今天希望使用机器学习的组织来说,有三个好消息。首先,人工智能技术正在迅速传播。世界上仍然没有足够的数据科学家和机器学习专家,但在线教育资源和大学正在满足对他们的需求。其中最好的,包括 Udacity、Coursera 和 fast.ai,它们的作用不仅仅是教授介绍性概念;他们实际上可以培养聪明、积极主动的学生,使他们能够创建工业级的机器学习部署。除了培训自己的员工之外,感兴趣的公司还可以使用 Upwork、Topcoder 和 Kaggle 等在线人才平台来寻找具有可验证专业知识的 ML 专家。
第二个值得欢迎的发展是现代人工智能所需的算法和硬件可以根据需要购买或租赁。谷歌、亚马逊、微软、Salesforce 和其他公司正在通过云提供强大的机器学习基础设施。这些竞争对手之间的激烈竞争意味着,随着时间的推移,想要试验或部署机器学习的公司将看到越来越多的功能以越来越低的价格提供。
最后一个好消息,也可能是最被低估的一个好消息是,您可能不需要那么多数据就可以开始高效地利用 ML。大多数机器学习系统的性能都会随着获得更多数据而提高,因此拥有最多数据的公司将获胜似乎是合乎逻辑的。如果“获胜”意味着“主导广告定位或语音识别等单一应用程序的全球市场”,情况可能就是这样。但如果成功被定义为显着提高性能,那么足够的数据通常非常容易获得。
例如,Udacity 联合创始人 Sebastian Thrun 注意到,他的一些销售人员在回复聊天室中的入站查询时比其他销售人员更有效。Thrun 和他的研究生 Zayd Enam 意识到他们的聊天室日志本质上是一组带标签的训练数据——这正是监督学习系统所需要的。促成销售的互动被标记为成功,而所有其他互动则被标记为失败。Zayd 使用这些数据来预测成功的销售人员可能会针对某些非常常见的询问给出哪些答案,然后与其他销售人员分享这些预测,以推动他们取得更好的业绩。经过 1,000 个培训周期后,销售人员的效率提高了 54%,并且一次能够服务的客户数量是原来的两倍。
人工智能初创公司 WorkFusion 采用了类似的方法。它与公司合作,为后台流程带来更高水平的自动化,例如支付国际发票和结算金融机构之间的大额交易。这些流程尚未实现自动化的原因是它们非常复杂。相关信息并不总是每次都以相同的方式呈现(“我们如何知道他们在谈论什么货币?”),并且一些解释和判断是必要的。WorkFusion 的软件在后台监视人们的工作,并使用他们的行为作为分类认知任务的训练数据(“这张发票是美元。这张是日元。这张是欧元......”)。一旦系统对其分类有足够的信心,它就会接管该过程。
机器学习正在推动三个层面的变革:任务和职业、业务流程和业务模式。任务和职业重新设计的一个例子是使用机器视觉系统来识别潜在的癌细胞,从而使放射科医生能够专注于真正危急的病例,与患者沟通,并与其他医生协调。流程重新设计的一个例子是在引入机器人和基于机器学习的优化算法后重新设计亚马逊运营中心的工作流程和布局。同样,需要重新考虑商业模式,以利用机器学习系统以个性化方式智能推荐音乐或电影。更好的模式不是根据消费者的选择来点菜销售歌曲,而是可以提供对个性化电台的订阅,该电台可以预测并播放特定客户喜欢的音乐,即使这个人以前从未听过。
请注意,机器学习系统几乎不会取代整个工作、流程或业务模型。大多数情况下,它们补充了人类活动,这可以使它们的工作变得更有价值。新的劳动分工最有效的规则很少是“把所有任务交给机器”。相反,如果成功完成一个流程需要 10 个步骤,那么其中一两个步骤可能会实现自动化,而其余步骤对于人类来说变得更有价值。例如,Udacity 的聊天室销售支持系统并没有尝试构建一个可以接管所有对话的机器人;而是尝试构建一个可以接管所有对话的机器人。相反,它为销售人员提供如何提高绩效的建议。人类仍然负责,但变得更加有效和高效。这种方法通常比尝试设计能够完成人类能做的一切的机器更可行。它通常会为相关人员带来更好、更令人满意的工作,并最终为客户带来更好的结果。
设计和实施技术、人力技能和资本资产的新组合来满足客户的需求需要大规模的创造力和规划。这是机器不太擅长的任务。这使得企业家或业务经理成为机器学习时代社会最有价值的工作之一。
风险和限制
第二次机器时代的第二波浪潮带来了新的风险。特别是,机器学习系统通常具有较低的“可解释性”,这意味着人类很难弄清楚系统如何做出决策。深度神经网络可能有数亿个连接,每个连接都对最终决策做出少量贡献。因此,这些系统的预测往往拒绝简单、清晰的解释。与人类不同,机器(目前还不是)擅长讲故事。他们并不总是能够解释为什么某个特定申请人被接受或拒绝某项工作,或者推荐某种特定药物的原因。讽刺的是,即使我们已经开始克服波兰尼悖论,我们也面临着一种相反的版本:机器知道的比它们能告诉我们的还要多。
这会产生三个风险。首先,机器可能存在隐藏的偏差,这些偏差不是源自设计者的任何意图,而是源自为训练系统而提供的数据。例如,如果一个系统通过使用人类招聘人员过去做出的决策数据集来了解哪些求职者接受面试,它可能会无意中学会延续他们的种族、性别、民族或其他偏见。此外,这些偏见可能不会以明确的规则出现,而是嵌入到所考虑的数千个因素之间的微妙相互作用中。
第二个风险是,与建立在显式逻辑规则上的传统系统不同,神经网络系统处理统计事实而不是字面事实。这使得完全确定地证明系统在所有情况下都能工作变得困难(如果不是不可能的话)——尤其是在训练数据中未表示的情况下。缺乏可验证性可能是关键任务应用中的一个问题,例如控制核电站,或涉及生死攸关的决策。
第三,当机器学习系统确实犯错误时(几乎不可避免地会犯错误),准确诊断和纠正问题可能会很困难。导致解决方案的底层结构可能非常复杂,如果系统训练的条件发生变化,解决方案可能远非最佳。
尽管所有这些风险都非常真实,但适当的基准并不是完美的,而是最佳的替代方案。毕竟,我们人类也有偏见,会犯错误,并且难以如实解释我们如何做出特定决定。基于机器的系统的优点是它们可以随着时间的推移而改进,并且在提供相同的数据时会给出一致的答案。
这是否意味着人工智能和机器学习的能力没有限制?感知和认知涵盖了很多领域——从驾驶汽车到预测销售,再到决定雇用或晋升谁。我们相信,人工智能很有可能很快就会在大部分或所有这些领域达到超人的表现水平。那么人工智能和机器学习不能做什么呢?
我们有时会听到“人工智能永远不会擅长评估情绪化、狡猾、狡猾、前后矛盾的人类——它太僵化和客观了。” 我们不同意。在根据语气或面部表情识别一个人的情绪状态方面,像 Affectiva 这样的机器学习系统已经达到或超越了人类水平。其他系统可以推断,即使是世界上最好的扑克玩家也能在极其复杂的单挑无限注德州扑克游戏中虚张声势地击败他们。准确地读懂人是一项微妙的工作,但这并不是魔法。它需要感知和认知——这正是机器学习目前强大且不断增强的领域。
讨论人工智能的局限性的一个很好的起点是巴勃罗·毕加索对计算机的观察:“但它们毫无用处。他们只能给你答案。” 正如机器学习最近的胜利所表明的那样,它们实际上远非无用,但毕加索的观察仍然提供了洞察力。计算机是用来回答问题的设备,而不是用来提出问题的设备。这意味着企业家、创新者、科学家、创造者和其他类型的人将继续发挥重要作用,他们弄清楚下一步要解决什么问题或机会,或者要探索什么新领域。
尽管人工智能的所有风险都是真实存在的,但适当的基准并不是完美的,而是最好的替代方案。
同样,被动评估某人的精神状态或士气与积极努力改变它之间存在巨大差异。机器学习系统在前者方面已经相当出色,但在后者方面仍远远落后于我们。我们人类是一个高度社会化的物种;其他人,而不是机器,最擅长利用同情心、自豪感、团结和羞耻等社会驱动力来说服、激励和启发。2014 年,TED 会议和 XPrize 基金会宣布授予“第一个登上这个舞台并在 TED 演讲中进行足以赢得观众起立鼓掌的人工智能”的奖项。我们怀疑该奖项是否会很快被领取。
我们认为,在这个超级机器学习的新时代,人类智慧的最大和最重要的机会在于两个领域的交叉点:弄清楚下一步要解决什么问题,并说服很多人解决这些问题并接受解决方案。这是领导力的一个不错的定义,在第二个机器时代,领导力变得更加重要。
头脑和机器之间划分工作的现状很快就会崩溃。坚持使用机器学习的公司将会发现,与那些愿意并且能够在所有合适的地方使用机器学习、并且能够找出如何有效地将其能力与机器学习相结合的竞争对手相比,自己处于更大的竞争劣势。人类的.
技术进步带来的商业世界的结构性变革时代已经开始。与蒸汽动力和电力的情况一样,能否获得新技术本身,甚至能否获得最好的技术专家,并不是区分赢家和输家的关键。相反,创新者的思想足够开放,能够超越现状,设想截然不同的方法,并且足够精明,能够将这些方法付诸实施。机器学习最伟大的遗产之一很可能是创造了新一代的商业领袖。
我们认为,人工智能,尤其是机器学习,是我们这个时代最重要的通用技术。这些创新对商业和经济的影响不仅体现在它们的直接贡献上,还体现在它们实现和激发互补创新的能力上。更好的视觉系统、语音识别、智能问题解决以及机器学习提供的许多其他功能正在使新产品和流程成为可能。
一些专家甚至走得更远。现任丰田研究院院长吉尔·普拉特 (Gil Pratt) 将当前的人工智能技术浪潮与 5 亿年前的寒武纪大爆发进行了比较,当时寒武纪大爆发催生了种类繁多的新生命形式。当时和现在一样,关键的新能力之一是视觉。当动物第一次获得这种能力时,它们可以更有效地探索环境。这促进了物种数量(包括捕食者和猎物)以及被填补的生态位范围的大幅增加。今天,我们也期望看到各种新产品、服务、流程和组织形式,以及大量的物种灭绝。肯定会有一些奇怪的失败和意想不到的成功。
尽管很难准确预测哪些公司将在新环境中占据主导地位,但总的原则是明确的:最灵活、适应性最强的公司和高管将会蓬勃发展。能够快速感知并响应机遇的组织将在人工智能驱动的环境中占据优势。因此,成功的策略是愿意尝试并快速学习。如果管理者不加大机器学习领域的实验力度,他们就没有做好自己的工作。未来十年,人工智能不会取代管理者,但使用人工智能的管理者将取代不使用人工智能的管理者。
上图:深入观察,您会在算法中看到人类。看得更深入,你会看到智能中的算法。
楼主残忍的关闭了评论