与生成模型相比，为何机器人研究还在用几年前的老方法？

发布时间：2022-08-26 11:49:39 所属栏目：大数据来源：互联网

导读：目前机器人领域取得了显著进展，这些进展预示着未来机器人可以做更多事情。但是也有让人困扰的事情，因为与生成模型相比，机器人的进展还是有点逊色，尤其是 GPT-3 等模型的出现，这一差距更加突出。生成模型产生的结果好到令人震惊。如上图左侧是谷歌推出

　　目前机器人领域取得了显著进展，这些进展预示着未来机器人可以做更多事情。但是也有让人困扰的事情，因为与生成模型相比，机器人的进展还是有点逊色，尤其是 GPT-3 等模型的出现，这一差距更加突出。

　　

　　生成模型产生的结果好到令人震惊。如上图左侧是谷歌推出的 Imagen 的输出结果。你可以提供一段文字给它，如「一只仓鼠戴着橙色的小帽，手里拿着我爱 JAX 的纸片」，根据给定的文字，Imagen 会渲染出合理的图像。此外，谷歌还训练了一个大型语言模型 PaLM，可以用来解释为什么笑话很有趣等。他们用 TPUv4 等先进硬件训练模型，并且在计算机视觉领域，研究人员正在开发一些非常复杂的架构，如 Vision Transformers 等。

　　生成模型发展如此迅猛，与机器人技术相比，两者之间有什么联系呢？

　　本文中，来自挪威机器人公司「Halodi Robotics」的 AI 副总裁 Eric Jang 介绍了《我们如何让机器人更像生成模型？》。以下为文章主要内容。

　　作为一名机器人领域专家，生成模型领域的进展让人有点羡慕。因为在机器人领域中，大多数研究者可能仍在使用 ResNet18，这个已有 7 年历史的深度学习架构。我们当然不会像生成模型那样在巨大的数据集上训练模型，所以很少有机器人方面的研究工作成为「耀眼」的头条新闻。

　　我们知道莫拉维克悖论：相较于认知型任务，灵活的操纵机器人很困难，从直觉上看，让机器人拿起并运送物体这些操作，似乎没有把文字变成图像或解释笑话那么令人印象深刻。

　　首先我们给生成模型下一个定义。生成模型不仅仅是渲染或生成大量的文本。它还是一个框架，我们可以用它来理解所有的概率机器学习。生成模型有两个核心问题：

　　1、你要建模的数据类别有多少 bits？

　　2、你能把模型建的多好？

　　2012 年 AlexNet 取得突破，它可以对 1000 个类别进行预测，Log2(1000 classes)大约是 10 class bit。你可以把 AlexNet 想象成基于图像的生成模型，包含 10bits 信息。如果你把建模任务的难度升级到 MS-CoCo 字幕任务，这时模型包含大约 100bits信息。如果你正在进行图像生成，例如使用 DALLE 或 Imagen 从文本到图像生成，大约包含 1000bits信息。

　　通常对越多的类别进行建模，就需要越多的算力来计算其中蕴含的条件概率，这就是为什么随着类别的增多模型会变的庞大。当我们训练越来越大的模型时，就有可能利用数据中的特征，从而可以学习更丰富的结构。这就是为什么生成模型和自监督学习已经成为流行的方法，可以在不需要大量人工标签的情况下对大量的输入进行深度学习。

　　Rich Sutton 在其文章《The Bitter Lesson》中指出：人工智能的大部分进展似乎都是在这股计算热潮中取得的，而其他方面几乎没有发展。Vision 算法、NLP 和 Yann LeCun 的 LeCake 等都受益于这股计算热潮。

　　

　　这种趋势给我们什么启示？如果你有过渡参数化的模型，其能够处理更多数据，并且模型能够掌握网络中的所有特征，加上很强的算力和训练目标，深度学习几乎总是可行的。

　　下面让 DALL-E 2 生成一副图像：一头踏在巨浪上的骡子，这幅图展示了生成模型是如何借助计算热潮取得不凡的成绩。你手握强大的算力（transformer、Resnet 等），并且可以选择 VQVAE、Diffusion、GAN、Autoregressive 等算法来建模。当前每种算法细节很重要，但未来一旦计算机的算力足够强大，这些细节可能就不重要了。但从长远来看，模型规模和良好的架构是所有这些进步的基础。

　　

　　相比之下，下图展示的是机器人领域泛化研究的现状。目前很多机器人研究人员仍在进行的是小模型训练，并且还没有用过 Vision Transformer！

　　对于从事机器人研究的人来说，他们都希望机器人能更广泛的应用在现实世界中，并且发挥更大的作用。在生成模型领域，研究者面临的问题相对较少，而在机器人研究领域，经常遇到机器人部署难、噪声数据等问题，这些从事生成模型的研究者都不会遇到。

（编辑：张家口站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

建筑行业和技术变革的	新时代开源数据调度在
智能虚拟助理如何助力