2019 年关于数据科学、机器学习和人工智能的五大预测

每年的这个时候，我们都会回顾过去，展望未来。对于数据科学、机器学习和人工智能来说，则是看看什么趋势会加快、什么事情会真正发生、什么事情在未来一年不会发生。

我们一整年都在观察和报道这些趋势，并且我们搜索了网络，咨询了我们的一些专家以了解其他人的想法。

以下是我们对2018年预测的快速回顾。

我们曾预测：模型制作和数据准备都将变得越来越自动化。更大的数据科学操作将汇集到单个平台上（有很多可用的平台）。这两个趋势都是对追求效率和效益的响应。简而言之，就是少数几名数据科学家可以做许多科学家的工作。
预测正确。无代码数据科学正在崛起，高级分析平台中端到端的集成也是如此。

我们曾预测：数据科学将越来越专业化，这意味着神话般的“全栈”数据科学家将消失。
预测正确。现在谈论更多的是数据工程师而非数据科学家。数据工程师是让数据科学模型在现实世界中工作的那些人。

我们曾预测：非数据科学家将比数据科学家做更多相当复杂的分析工作。
预测正确。数据可视化和可视化分析技术的流行，让非数据科学家可以从复杂的数据科学工具中获取更多价值。

我们曾预测：深度学习是复杂且艰难的。没有很多数据科学家专长于此领域，这将阻碍人工智能的应用，直到深度学习平台明显地得到简化和产品化。
微软和谷歌都于 2018 年推出了自动化深度学习平台。这些平台都是从迁移学习开始，但在向着全面 AutoDL 的方向发展。还有一些整合了 AutoDL 平台的初创企业。今年早些时候，我们考察了具有全面 AutoML 和 AutoDL 平台的 OneClick.AI 。Gartner 最近提名 DimensionalMechanics 为具有 AutoDL 平台的“5 大酷公司”之一。

我们曾预测：尽管有炒作，但人工智能和深度学习在更广阔市场的渗入比我们想象的更有限而且速度也更慢。
除了聊天机器人的出现，真正的人工智能在企业中的应用是有限的。它们在实现的路上，但还未完成。我所见过的最全面的研究表明，只有 1/5 或 1/3 的大型企业在“大规模”地实施人工智能，这意味着他们在实施全场紧逼战术，给对手以最大的压力。在规模小一点的公司中，这样的公司所占的比例要小得多。我们也不能真正确定它们是否意味着“真正的”人工智能。

我们曾预测：公众（和政府）将会认真看待人工智能对社交和隐私的影响，包括有意和无意的影响。
只要看看新闻和报道，那些顶级社交媒体的高管们被政府和欧盟召唤去参加听证会。开始看起来像游街示众。政府将开始监管，如果不在联邦政府层面，那么会更加混乱，每个州各行其是，如即将生效的加州隐私规定或澳洲的强制性反加密要求。

因此，我们去年的 6 个预测都实现了。尽管去年的很多预测对明年来说也有效，但是，我们打算做得更具体些。

以下是我们对 2019 年的趋势预测。

预测1：数据变得比算法更重要

无论是在深度学习还是在经典机器学习领域，我们已经有 1 年多时间没有取得任何重大突破。有一些渐进的改进，比如，利用时间卷积网络（Temporal Convolutional Nets，简称 TCN）而不是 RNN 来减少 NLP 中的延迟，但是没有重大创新。性能最好的算法都是众所周知的算法，或者利用自动机器学习很容易发现。

随着各个企业踏上数字化转型之旅，拥有更多更好的数据是成功的关键，而我们正处于这样的时期。实际上，这给向不同方向发展的数据相关的解决方案提供了竞争机会。

一方面，获取准确标记的图像或文本训练数据仍然相当昂贵和耗时。像 Figure Eight 这样专注于标记数据的公司正在推广智能成本效益策略，如：主动学习，它让客户决定标记数据和模型准确性之间的最佳权衡。这涉及添加人工标记或机器标记数据，然后重新训练，通过多次迭代以找到最佳权衡。

另一方面是对第三方数据的访问。像 DymstData 这样的服务公司已经进入了该领域，作为数百种附加数据的结算机构。他们还承担着保护敏感 PII 这个任务繁重的角色，其用户能够基于角色以访问在金融和健康服务领域特别重要的敏感信息。

第三个方面是自动跟踪和记录模型中所用的数据源。特别地，当集成来自很多数据源并随着时间而变化的流数据时，了解数据的来源以及如何使用数据，对准确性和合规性都至关重要。Tibco 和其他一些分析平台正在引入这个功能。

围绕数据的服务产品今年今年有望大幅增长。

预测2：随着人工智能 / 机器学习从分析平台转移到特定于行业或流程的应用程序，一切都将变得更容易。

纵观人工智能 / 机器学习初创企业的世界，就能看出竞争正在转向特定于行业或流程的应用程序。这些应用程序或迷你平台专注于解决行业中特定的业务问题，如市场营销、B2B 销售、医疗保健、金融科技以及其他大约十几个已经明确定义的领域。要想有一个快速地了解，请参考下图（CB Insights 年度人工智能 100 家优胜者）以及他们按行业或流程进行分类的方式。

这些新的应用程序专注于嵌入式人工智能 / 机器学习，因此，用户所在的组织就不需要一大组内部数据科学家的支持，并且可以依赖这些开发人员继续提供更新和改进。

有些人把这称为人工智能 / 机器学习的商品化，但是，把它们称为人工智能 / 机器学习的专业化更准确。

如果你一直从事类似的工作，那么你可能还记得 90 年代后期从再造工程（Reengineering）到 ERP 的转变，现在的情况和当时非常相似。最初，再造工程要求企业用复杂的定制 IT 解决方案来改进流程，因为当时不存在标准解决方案。这迅速促成了大型综合性 ERP 兴起，其中包括甲骨文、PeopleSoft、SAP 和其他一些公司，也为像 CRM 这样的专业应用程序打开了大门。我们的行业目前正在经历同样的变化。

这些新供应商都致力于在他们特定的利基市场提供广泛的解决方案，但是最终会少于大而全的 ERP 规模的平台。看看这些行业分类中开发商的整合浪潮吧。

还要注意在中小型企业中人工智能 / 机器学习采用的加速情况，这些企业不再必须拥有大型数据科学家团队，或者完全依赖定制开发的模型。

预测 3：数据工程师和数据分析师的兴起

这个世界并没有抛弃数据科学家。还远远没有。但是，当缺乏拥有某种技能的人才时，市场会用另外的方式来填补，以减轻由此带来的痛苦。

其中一种方式是通过我们前面讨论过的特定于行业和流程的智能应用程序来解决问题，这些应用程序不需要大量的内部数据科学家。

第二个就是所有主流分析平台正在做的事和快速涌现的数十个自动机器学习（AML）平台。那就是在数据科学中更有效率，也就是说，只需要较少的数据科学家就可以做很多工作。

由于模型的数量没有减少，事实上是在增加，这就把工作负荷转移到了数据工程师身上，他们主要做两件事情。

首先，他们要能够创建数据科学所需的基础设施，如数据湖或 Spark 实例。

其次，他们拿到那些模型并在业务系统中实现它们，同时跟踪准确性并进行模型更新。

有些数据工程师还负责数据操作，以提供干净整洁并经过预处理的数据流。

分析平台的另一个演进是可视化分析和数据可视化工具的增长。这些工具现在大多数和数据科学工具集完全集成到一起，并允许数据分析师和 LOB 经理提取更多价值，甚至指导分析工作。它们不会取代数据科学家。它强化了团队方面正在形成的高级分析。

Awesome Data Engineering网站按照学习次序，列出数据工程各种主题最推荐的书籍、课程和文章。项目作者Snir David是个程序员，他还特别推荐了三本数据工程图书。

预测 4：神经晶片：人工智能来到物联网边缘

有两种不同的技术正在同时达到半成熟状态，它们可以解决一个长期存在的问题。这个问题就是延迟问题。

考虑一下这个例子，当你想用移动设备自动把文本或图像中的外文翻译成英语时，你的设备实际上是把这些信号发回到在云上运行的应用程序，翻译工作是在那里进行的，然后把译文发送回你的设备。

谷歌和其他提供即时翻译服务的公司已经从 RNN 转换到称为时间卷积网络的专用 CNN 结构，原因是 RNN 不能很好地适应 MPP，但 CNN 可以。这种转换减少了延迟，但是信号仍然需要完成整个往返。

解决该问题的两种技术中的第 1 种是 5G 网络。你可能知道 5G 速度更快，但其真正的优点是其可以承载的流量密度。这真正打开了让你生活中的一切在互联网上传播的大门。这其中有多少是值得的还有待于观察。

第 2 种解决方案是引入更好的新型神经晶片（又称 spiking neural networks，脉冲神经网络）。我们希望这些全新的神经网络架构可以成为实现人工通用智能（Artificial General Intelligence，简称 AGI）的途径。这还有很长的路要走。但是，主要的芯片制造商和一些初创企业正在发布脉冲神经晶片，专门针对芯片上 CNN 和 RNN 类模型进行了优化（没有信号往返）。其中一些还为了获得极低的能耗进行了优化。

brain on a chip.jpg

这些功能放在一起，很适合把深度学习转移到真正位于网络边缘的芯片上。借助这些新功能，物联网和其他流数据应用程序有望在今年开始爆发。

预测 5：不同的人工智能框架之间开始交互

现在，文本、语音、图像和视频模型正在成为主流，我们碰到了意想不到的障碍。在一个框架（Caffe2、PyTorch、Apache MXNet、微软 Cognitive Toolkit 和 TensorFlow）上构建的模型无法轻松地移植到不同的框架。我们可以翻译语音，但我们用的是名副其实的巴别塔。

幸运的是，这样的痛点推动了创新。AWS、脸书和微软合作构建了开放式神经网络交换（Open Neural Network Exchange，简称 ONNX），使模型可在不同的框架上互操作。

随着在开发人员、应用程序和设备之间共享的模型的数量变得越来越多，ONNX 正在成为未来一年的关键技术。

这就是今年的情况。请继续关注我们，明年来看看我们今年的预测准不准。

作者简介

Bill 是 Data Science Central 的编辑总监。他还是 Data-Magnum 的总裁兼首席数据科学家。自 2001 年以来，他一直从事数据科学家的工作。请通过 Bill@DataScienceCentral.com 或 Bill@Data-Magnum.com 和他联系。原文：5 Predictions about Data Science, Machine Learning, and AI for 2019

👍

酷玛DS

酷玛DS