亚洲城官方登录入口·ICLR 2024杰出论文出炉:“大模型”成最大赢

71次发布时间:2024-09-08 08:33:59 来源:www.ca88.com 作者:亚洲城最新登录地址

  其中,在 5 篇杰出论文中,有 4 篇论文涉及大模型。另外,也有 11 篇论文获得荣誉提名。祝贺各位获奖者!

  ICLR 是机器学习领域的一个学术会议,每年一次,通常在每年四月底或五月初举行。会议包括特邀演讲以及经评审论文的口头和海报展示。

  ICLR 由 Yann LeCun(杨立昆)和 Yoshua Bengio 两位图灵奖得主创立,被学术研究者们广泛认可,被认为是“深度学习的会议“。自 2013 年举办首届起,该会议一直采用开放式同行评审。

  获奖理由:这篇论文对图像扩散模型的泛化和记忆方面进行了重要的深入分析。作者根据经验研究了图像生成模型何时从记忆输入转换到泛化机制,并通过几何自适应谐波表征与谐波分析的思想建立联系,进一步从建筑归纳偏差的角度解释了这一现象。论文涵盖了我们对视觉生成模型理解中的一个关键缺失部分,很可能会对该领域未来的重要理论研究有所启发。

  获奖理由:汇集多个来源的数据来训练机器人基础模型是一个长期的宏伟目标。由于不同的机器人具有不同的感知-运动界面,这阻碍了大规模数据集的训练,因此带来了巨大的挑战。这项名为“UniSim”的工作是朝着这个方向迈出的重要一步,也是一项工程壮举,它使用基于视觉感知和控制文字描述的统一界面来聚合数据,并利用视觉和语言领域的最新发展,从数据中训练机器人模拟器。

  获奖理由:这篇论文深入探讨了最近提出的状态空间模型和 transformer 架构对长期顺序依赖关系的建模能力。令人惊讶的是,作者发现从头开始训练 transformer 模型会导致对其性能的低估,并证明通过预训练和微调设置可以获得巨大的收益。这篇论文执行得非常出色,在注重简洁性和系统性见解方面堪称典范。

  获奖理由:这篇论文探讨了基于序列的抗体设计问题,这是蛋白质序列生成模型的一项及时而重要的应用。为此,作者提出了一种创新而有效的新建模方法,专门用于处理离散蛋白质序列数据的问题。除了在计算机上验证该方法外,作者还进行了大量湿实验室实验,在体外测量抗体结合亲和力,证明了其生成方法的有效性。

  获奖理由:这篇论文识别了视觉 transformer 网络特征图中的伪影(异常现象或错误),其特点是在低信息量背景区域中出现高规范 token。作者对出现这种情况的原因提出了关键假设,并提供了一个简单而优雅的解决方案,利用额外的寄存器 token 来解决这些伪像问题,从而提高模型在各种任务中的性能。从这项工作中获得的启示也会对其他应用领域产生影响。这篇论文写得非常好,提供了一个开展研究的绝佳范例——发现问题,了解问题发生的原因,然后提供解决方案。

  入选理由:这篇论文从贝叶斯推理的角度出发,提出了一种替代大型语言模型(LLM)自回归解码的可行方法,可为后续研究提供启发。

  入选理由:GNN 的表达性是一个重要课题,目前的解决方案(如 Weisfeiler-Lehman 检验)仍有很大的局限性。作者提出了一种基于同态计数的新“表现力理论”。

  入选理由:这篇论文探讨了在一般几何流形上建立生成模型这一具有挑战性的重要问题,并为此提出了一种实用高效的算法。这篇论文的表述非常出色,并在广泛的任务中进行了全面的实验验证。

  入选理由:这篇论文通过从连续视频中学习,提出了一条自监督图像预训练的新途径。这篇论文既提供了新型数据,也提供了从新型数据中学习的方法。

  入选理由:作者针对元持续学习提出了一种新的方差缩小方法。该方法表述清晰,不仅具有实际影响,而且有遗憾分析作为支持。

  入选理由:这篇论文针对对基于 transformer 的 LLM 有重大影响的关键 KV 高速缓存压缩问题,采用一种无需资源密集型微调或重新训练即可部署的简单方法来减少内存。这种方法非常简单,但却证明相当有效。

  入选理由:这篇论文在为理解因果推理在智能体向新领域推广能力中的作用奠定理论基础方面取得了进展,并对一系列相关领域产生了潜在影响。

  入选理由:在我们刚刚开始了解“上下文学习”与“权重学习”时,这篇论文及时地、非常系统地研究了这些现象背后的机理。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。


亚洲城官方登录入口
上一篇:神经科学跨越140年 下一篇:第三代神经网络模型:面向AI应用的脉冲神经网络

相关公司新闻