数据之战NLP迈向实用阶段的核心所在

飞,字节跳动这些公司这两年海外拓展力度都很大。 可以说,大家眼光一边盯着海外市场布局,一边继续在国内市场深耕以坚守自己的大本营。

成本低、时效快的成品数据库对ASR/TTS/NLP引擎开发事半功倍。   Q:ASR/TTS 在难度上有差别么?为什么说更适合用数据库? Danny:其实它们是不同的应用类型,ASR就是一个语音识别。通俗说,就是把人说的内容转换成对应的文字。比如微信语音可以直接转换成文字,这就是一个直观的ASR应用。TTS(Text  to   Speech),就是文本到语音,在业界的一个说法就是合成语音,也就是让机器说话。TTS实际上它是反过来的,先给机器提供文本,机器对照着这个文本,相当于念稿子一样的,机器能够发出对应的音来,当然TTS合成语音的做法又跟语音识别的做法不太一样,不仅训练方式不一样,而且它所需要的数据也不一样。 相对而言,TTS的技术是比较容易的,而且也是目前最成熟的。如果从头去采集做TTS引擎的数据,即使只是10个小时的音频数据,再加上韵律标注和发音词典的制作,两三个月都不一定做得完,成本会相当高,这还只是数据准备的阶段。如果是采购成品数据库,拿到数据以后两个星期就可以完成所有数据准备和引擎开发的过程,做出一个可用的TTS引擎来,这就是数据库的好处。 再比如一个500小时的西班牙语的ASR语言数据集,如果全部从头做,跟买数据库相比成本上至少要差到一倍以上,时间上来讲连音频的采集带加工,附加对应文字的转写和发音词典,最少需要两至三个月。但如果是购买数据库,今天签合同,明天就可以传过去了。   Q:后续是否需要提供更适合需求为具体场景而定制的数据来替代成品数据库? Danny:不完全是这样,市场上一直既有成品数据库的大量需求,也有大量需求需要定制,二者并不矛盾。任何场景都需要从基础起步,而这个阶段就是成品数据库最能发挥优势的阶段。以前人工智能技术开发所关注的场景比较少,对数据库需求的种类也少,随着场景的多元化,数据库的需求也随之增大,只是对数据内容和精度的要求持续在变化。我们的判断就是某一类需求仅仅是一个一次性的需求,还是说可能会有一些普遍的需求,对于可能会产生重复需求的,我们就可以把它制作成一个数据库。比如婴幼儿啼哭的数据,很可能做智能家居的厂家在产品研发的某一个阶段就会用到,我们认为就值得去做成一个数据库。 Q:最后,澳鹏目前也在做成品数据库,你能介绍一下你们产品的特色? Danny: 我们根据市场上头部公司和创业公司的需求趋势,及20多年行业经验的累积,可以为我们的客户提供丰富的成品数据库来加快其AI产品的开发及迭代 。

整个 AI 研究社区都正在努力将个人的想法汇集起来,集合个体思想以建立更强大的决策系统。AlphaZero 和 MuZero 也都朝着这个方向发展,识别 MCTS 树结构(模拟选择不同动作的影响)以及预测每个动作的未来优点的能力,将产生更强大的学习系统。

自从 Facebook 研究院的 Mask-RCNN 在 2018 年兴起以来,我在监督机器视觉领域再也没有看到尤为鼓舞人心的研究成果。这并不是说这个领域的研究不重要。

这篇论文涉及到构建一个在线拓扑图作为寻找语义目标的智能体导航(例如找到厨房)。导航时,智能体将定期识别新的房间,并在它们变得足够确定时将新房间添加到其不断增长的关系图中。这里执行的一切处理都基于视觉,意味着系统必须处理相当大的不确定性和高维输入。这篇文章与 ICLR 2018 上发表的一篇极具影响力的论文《 Semi-parametric Topological Memory for Navigation》的想法类似:智能体需要事先演示环境以构建它的地图。

AlphaZero 是2017年我最喜欢的论文之一。DeepMind 的国际象棋和围棋 AI 今年实现了重大升级,现在的版本名叫: MuZero,从而顺利将 Atari 游戏添加到了其以超越人类的表现完成的任务清单之列。

我不知道我是否一定认同应立即停止使用黑盒模型,但她在论文中提出了一些充分合理的观点,对于当前以开发黑盒模型为主流的 AI 领域至关重要。

作为一个对真实世界感兴趣和经常使用这些新技术的人,我发现我对尤其是在像智能手机和小型自动机器人等资源受限的系统上使用这些技术的研究特别感兴趣,这些研究将会促使这些工具和功能得到更广泛的应用。

而 MuZero 学习紧凑表示的额外能力(系统动态模型),可以模拟规划动作和随后观察来达到规划接下来的动作的目的,这让我相信这样的系统可能有一天能够解决现实世界机器人技术的问题。

“任重而道远者,不择地而息。”叩问初心,知所从来,筑牢使命,明所将往。奋斗的精神驰而不息,追梦的脚步从未停止,在前进道路上,我们面临的风险考验只会越来越多、越来越复杂,甚至会遇到难以想象的惊涛骇浪,唯有继续夙兴夜寐,发扬越是艰险越向前的斗争精神,鼓足艰苦奋斗、顽强奋斗、永远奋斗的精气神,方能永葆初心本色、勇立时代潮头。

简而言之,2019年以来,我最大收获之一是:研究人员尤其应该意识到,我们开发模型和尝试构建系统时,应该尽可能设计成可解释性的。

只有不忘初心、牢记使命、永远奋斗,才能让中国共产党永远年轻。让我们保持永不懈怠的精神状态和一往无前的奋斗姿态,持续巩固和深化主题教育的成果,让初心和使命在内心深处铸魂扎根,以坚如磐石的信心、只争朝夕的劲头、坚韧不拔的毅力,一步一个脚印把前无古人的伟大事业推向前进!

但一个在很大程度上难以获得确切答案的问题是:符号从何而来?更笼统地说:我们应该如何表征世界,以便机器人在解决复杂的现实问题时能够快速有效地做出决策?

此工作尚处于起步阶段,但我期待看到社区将如何继续研究使用新颖的学习结构,来系统找出感兴趣的实体,然后用于后续的规划管道中。

概括而言:我希望符号 AI 和更多“现代”深度学习方法能够交叉取得更多的进展,以解决像基于视觉的地图构建、不确定性下的规划和终身学习等机器人技术社区感兴趣的问题。

对于许多机器人应用而言,特定的纹理和光照实际上可能对规划十分重要,并且特定域技术可能更合适和随机化,例如一些数据增强处理,可能会引入自身的一些问题。话虽如此,研究人员过去一年的努力(包括《Sim-to-Real via Sim-to-Sim》这篇论文在内)和通过在各个子领域中广泛使用这些技术来提高性能,让我开始相信这些技术的实用性。

对于机器人技术和机器学习的交叉领域的研究人员,我发现大多数人的观点是:只有技术变得足够强大时,人们才可能相信它们能为现实中硬件的决策提供依据。

OpenAI 还将域随机化应用到视觉外观和物理学上,来让 AI 学习操作魔方,证明了机器人的手可比我们人类要灵活得多。

今年,这一领域孩子持续发展,包括新交互式的 Gibson 环境和 Facebook (发布的令人)惊艳的 AI Habitat 环境。

也许最让我兴奋的进展,要数表征学习领域。

雷锋网原创文章,。详情见转载须知。

这项工作真正令我吃惊的是,它是如何将个人想法组合成一个更大的工作系统。这篇论文与我见过的其它关于机器学习工作的系统论文一样,但除了表征特征化神经网络训练这一常年惯用的技巧之外,MuZero 中提出的想法还帮助回答了关于如何为日益复杂的问题构建 AI 的深刻问题。 

这篇文章是最近尝试让系统了解什么是对象,然后使用所学的动力学正向模拟那些对象的行为来构建学习问题的少数研究之一。该篇论文表示:“  OP3 强制执行实体抽象,将潜在状态分解为局部实体状态,每个局部状态均使用以通用实体作为参数的相同函数进行对称处理。”

本文中,Gregory J Stein 对机器学习和机器人研究领域的目前的发展现状发表了他的看法。

在此领域,另一个值得一提的成果是 Facebook AI 的 Hanabi 纸牌游戏 AI,该系统中需要让 AI 玩一个部分可观察的协作式纸牌游戏。

不久前我撰写了《Deepmind’s Alphazero and the Real Word》一文,其中提到的一些应用我非常感兴趣,并希望研究社区中越来越多的人能优先进行可解释系统设计。

但这不是一件坏事!事实上现在尤其是机器人研究者的好时机,因为研究社区已经发展到了这样一个节点:在研究人员可用的数据集之外尽可能地追求更高的性能,并且开始更加关注广泛采用机器人工具和与这一过程相关的“便利功能”。

同时,在下方这篇“超棒”的 GitHub 贴文提供了不同网络剪枝方法的完整列表。

图模型在 AI 中已使用了数十年,但是如何处理高维观测值的问题却是一大瓶颈,在一段时间内,似乎只有手动设计特征能够成功解决该问题。

在网络蒸馏方面,一些很棒的工作十分值得关注:在训练模型后使用优化技术删除对整体性能影响不大的神经网络部分,代价只不过是增加些计算量。

但随着 GNN 的出现,高维输入不再是一大难题。去年我们看到了使用 GNN 完成对其他表征学习方法(如量子化学)极具挑战的有趣目标的工具,呈爆炸式的增长。

新技术和新领域的进展让人振奋,但这些技术研究开始放缓,同样值得关注。随着许多研究领域已经取得了初级的研究成果,研究本身变得越来越有趣,并且由于阻碍该领域进展的真实挑战也变得越来越明晰,会促使研究人员对该领域进行更深层的研究。

我是老式经典规划和所谓的符号 AI 的忠实拥护者,在该方法中,智能体通过理解对象或人此类的符号与真实世界建立联系。

文中作者通过识别当前图像的哪些区域与其他图像中的相似区域相匹配,并匹配两者之间的分类,建立了一个图像分类管道。由于该分类方法专门提供了训练集中相似图像和特征的直接对比,因此该分类方法比其他性能接近的技术更具可解释性。

七、模拟工具的持续增长和模拟到现实的进展

在现实世界中,出现了越来越多模拟工具技术并且能够获得良好的性能。在域随机化中,模拟场景的元素(纹理,光照,颜色等)是随机变化的,因此学习算法学着忽略那些通常无关的细节。诚然,我从未(完全)看好域随机化的前景。

然而,AlphaZero 和 MuZero 目前还缺乏解决实际问题的能力,相关讨论可参考这篇文章:

  * 语音识别库(ASR)64种语言, 21,000小时 * 合成语音库(TTS)3种语言4种音色 * 发音词典98种语言,460万词条 * 词性词典21种语言,190万词条 * 命名实体库(NER)8种语言 * 词形分析器3种语言 * 黑人面部图片1000人13万张 * 中国人带口罩面部图片1000人7000张 * OCR图片泰语、芬兰语、中文各5000张 * 婴儿啼哭音频数据300人300分钟 * 家猫表情动作视频1000只 除了这里列出的数据库以外,我们还在持续制作新的数据库来满足市场需求,也非常欢迎战斗在AI技术一线的同行们向我们提出数据库的期望。

MuZero 通过学习状态空间的潜在(低维)表示形式(包括当前帧),然后在该学习空间中规划从而规避了此问题。有了这一转变,智能体就可以在这个狭小的隐藏空间中采取行动,并想象许多不同行动的影响并评估可能发生的取舍,这就是 AlphaZero 和 MuZero 都基于的蒙特卡洛树搜索(MCTS)算法的标志性特征。

现在研究社区在使用各种各样的新技术来更快地训练这些系统,并且在不影响准确性的情况下使它们更快更有效。

今年,随着用于构建和使用图网络的工具日趋成熟,研究人员开始将 GNN 用于解决他们自己的问题,在机器学习和机器人技术的交叉研究方向开展了一些有趣的工作。

在这个领域,诸如语义分割或对象检测之类的研究进展已经相当成熟。ImageNet 大规模视觉识别挑战赛(ILSVRC)的对象检测已逐渐淡出人们的视线,因为只有企业(通常拥有优质丰富的数据集或财务资源)愿意在这一挑战赛中争取获得好的名次。

随着我们努力使 AI 变得越来越智能,这项工作将推着我们往更好地理解哪些想法和工具能够让这些系统在现实中得以应用的方向前进。

三、监督计算机视觉领域研究

如果数据不够多样化,则模拟是一种非常有用的工具,因为数据便宜且有效无限。

2018年出现了大量模拟工具,其中许多模拟工具通过模拟现实环境提供了许多逼真的图像,目的是直接用于实现现实功能。

二、表征学习(万能的符号 AI)

 图1   这是来自实体抽象论文的一个示例,展示了如何使用此方法对未来进行预测

但对于 Atari 而言,预测行动结果原则上需要预测下一帧游戏可能呈现的战局。当系统试图估计它在几帧内的动作会对未来所造成的影响时,这种非常高维的状态空间和难以定义的观察模型,将极具挑战。

人类一直是这样做的,但是将我们的能力转译给机器人或者人工智能体时,我们经常需要指明希望智能体推理出什么对象或者其他的预测。

这项研究目前仍处于初级阶段,但是我很渴望看到它的进展,因为我坚信朝着能力更强的机器人方向前进,需要对这个领域有更深入的了解和取得重大的进步。我发现了几篇特别有趣的论文,包括:

下图来自论文,展示了系统如何对黏土色的麻雀图像进行分类:

最近的一些工作已开始在能够从数据中学习这种表征的方向上取得真正的进展,使学习系统能够自行推断对象或建立它们能够用以与此前未见过的位置进行交互的对象和位置的“关系图”。

过去一年中还有一些不错的研究,例如由我的朋友和同事 Leilani H. Gilpin 和 Cecilia Testart 等人所著的《Explaining Explanations to Society》,致力于研究什么类型的模型解释对社会最有用,以及我们如何解决现有深度学习系统输出结果的局限性等相关问题。

在未来几年里,我期望看到 AI 研究社区如何继续将基于模型和不基于模型的技术之间的边界模糊化。

这种方法感觉更像是我所期望的真正的智能决策系统:拥有权衡不同选择,而不必精确地预测每个选择对于真实世界的影响的能力。这里的复杂之处在于他们如何同时学习潜在空间并学会在该潜在空间进行规划,更多详细信息可以参阅他们的论文。

尽管我对深度学习和表征学习方法的前景感到十分兴奋,但这些技术所产生的系统通常是难以理解的。由于这些系统逐渐面向人类,其难以理解的特点将成为一个问题。

这些环境包括超大规模、多传感器、逼真的室内数据集 InteriorNet 和“ 由 1447 层组成的 572 栋完整建筑物,总面积 21.1 万平方米”的 GibsonEnv 数据集。

以前对于 AlphaZero 来说,Atari 游戏是遥不可及的,因为这款游戏的观察空间非常大,这使得 AlphaZero 难以构建行为树并得出决策结果。在围棋中,由于棋盘会遵循采取某个动作后棋盘会呈现的局势的一系列规则,因此预测行为结果是很容易的。

幸运的是,人们对可解释的 AI 的关注度逐渐增加并取得了一些进展,总体上正在朝着人类可能愿意相信和共存的 AI 方向努力。

总体思路很简单:构建一个图,其中节点与各个实体(对象、空间区域、语义位置)相对应,并根据它们相互影响力将它们进行连接。简而言之,我的想法是:在最容易定义的目标问题上采用尽可能多的架构,然后让深度神经网络根据该结构来学习实体之间的关系(这与我在上文中提到的表征学习概念类似)。