与生成模型相比,为何机器人研究还在用几年前的老方法?
发布时间:2022-08-26 11:49:39 所属栏目:大数据 来源:互联网
导读:目前机器人领域取得了显著进展,这些进展预示着未来机器人可以做更多事情。但是也有让人困扰的事情,因为与生成模型相比,机器人的进展还是有点逊色,尤其是 GPT-3 等模型的出现,这一差距更加突出。 生成模型产生的结果好到令人震惊。如上图左侧是谷歌推出
|
目前机器人领域取得了显著进展,这些进展预示着未来机器人可以做更多事情。但是也有让人困扰的事情,因为与生成模型相比,机器人的进展还是有点逊色,尤其是 GPT-3 等模型的出现,这一差距更加突出。 生成模型产生的结果好到令人震惊。如上图左侧是谷歌推出的 Imagen 的输出结果。你可以提供一段文字给它,如「一只仓鼠戴着橙色的小帽,手里拿着我爱 JAX 的纸片」,根据给定的文字,Imagen 会渲染出合理的图像。此外,谷歌还训练了一个大型语言模型 PaLM,可以用来解释为什么笑话很有趣等。他们用 TPUv4 等先进硬件训练模型,并且在计算机视觉领域,研究人员正在开发一些非常复杂的架构,如 Vision Transformers 等。 生成模型发展如此迅猛,与机器人技术相比,两者之间有什么联系呢? 本文中,来自挪威机器人公司「Halodi Robotics」的 AI 副总裁 Eric Jang 介绍了《我们如何让机器人更像生成模型?》。以下为文章主要内容。 作为一名机器人领域专家,生成模型领域的进展让人有点羡慕。因为在机器人领域中,大多数研究者可能仍在使用 ResNet18,这个已有 7 年历史的深度学习架构。我们当然不会像生成模型那样在巨大的数据集上训练模型,所以很少有机器人方面的研究工作成为「耀眼」的头条新闻。 我们知道莫拉维克悖论:相较于认知型任务,灵活的操纵机器人很困难,从直觉上看,让机器人拿起并运送物体这些操作,似乎没有把文字变成图像或解释笑话那么令人印象深刻。 首先我们给生成模型下一个定义。生成模型不仅仅是渲染或生成大量的文本。它还是一个框架,我们可以用它来理解所有的概率机器学习。生成模型有两个核心问题: 1、你要建模的数据类别有多少 bits? 2、你能把模型建的多好? 2012 年 AlexNet 取得突破,它可以对 1000 个类别进行预测,Log2(1000 classes)大约是 10 class bit。你可以把 AlexNet 想象成基于图像的生成模型,包含 10bits 信息。如果你把建模任务的难度升级到 MS-CoCo 字幕任务,这时模型包含大约 100bits信息。如果你正在进行图像生成,例如使用 DALLE 或 Imagen 从文本到图像生成,大约包含 1000bits信息。 通常对越多的类别进行建模,就需要越多的算力来计算其中蕴含的条件概率,这就是为什么随着类别的增多模型会变的庞大。当我们训练越来越大的模型时,就有可能利用数据中的特征,从而可以学习更丰富的结构。这就是为什么生成模型和自监督学习已经成为流行的方法,可以在不需要大量人工标签的情况下对大量的输入进行深度学习。 Rich Sutton 在其文章《The Bitter Lesson》中指出:人工智能的大部分进展似乎都是在这股计算热潮中取得的,而其他方面几乎没有发展。Vision 算法、NLP 和 Yann LeCun 的 LeCake 等都受益于这股计算热潮。 这种趋势给我们什么启示?如果你有过渡参数化的模型,其能够处理更多数据,并且模型能够掌握网络中的所有特征,加上很强的算力和训练目标,深度学习几乎总是可行的。 下面让 DALL-E 2 生成一副图像:一头踏在巨浪上的骡子,这幅图展示了生成模型是如何借助计算热潮取得不凡的成绩。你手握强大的算力(transformer、Resnet 等),并且可以选择 VQVAE、Diffusion、GAN、Autoregressive 等算法来建模。当前每种算法细节很重要,但未来一旦计算机的算力足够强大,这些细节可能就不重要了。但从长远来看,模型规模和良好的架构是所有这些进步的基础。 相比之下,下图展示的是机器人领域泛化研究的现状。目前很多机器人研究人员仍在进行的是小模型训练,并且还没有用过 Vision Transformer! 对于从事机器人研究的人来说,他们都希望机器人能更广泛的应用在现实世界中,并且发挥更大的作用。在生成模型领域,研究者面临的问题相对较少,而在机器人研究领域,经常遇到机器人部署难、噪声数据等问题,这些从事生成模型的研究者都不会遇到。 ![]() (编辑:张家口站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |


