当前位置:首页 >独瓜 >推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

2025 年 1 月 20 日 Kimi k1.5 正式发布,推特伴随着工艺报告的热帖公布,有网友表示:“这应该是因为艺日本代购网红后台画面全球范围内,除 OpenAI 之外的作团公司首次实现 o1 正式版的多模态推理性能了吧!”

一时间,项工Kimi k1.5 成了话题王者。推特

但在一个月后的热帖 2 月 24 日,X 上出现了一篇关于 Kimi k1.5 的因为艺工艺爆料帖,博主直言 k1.5 所用到的作团强化学习运算规则,其实是项工借鉴了自己在 24 年 5 月提出的一种名为 SPPO 的工艺。

消息一出,推特日本代购网红后台画面瞬间吸引了数万人关注。热帖

推特热帖:k1.5 很牛,因为艺因为借鉴了 UCLA 与 CMU 合作团队的作团这项工艺

Kimi k1.5 背后的 SPPO 工艺

在这则爆料中,博主 Yue Wu 先是项工对 SPPO 进行了简单解释,并且附上了相关论文(https://arxiv.org/abs/2405.00675),简单来说,SPPO是一种自博弈运算规则,最初的动机来源于刻画广泛意义上的人类偏好,并且使用了如下图所示的平方损失函数:

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

值得一提的是,点开论文链接,你会发现原来 Yue Wu  和 Zhiqing Sun 同为这篇文章的第一作者。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

紧接着,他开始对 SPPO 工艺进行解析:

通过迭代求解上式中的 theta_t,我们可以得到一个与人类偏好对齐良好的语言模型。SPPO 使用胜率(红色部分)作为奖励,并用常数近似基线(蓝色部分)。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

让我们感兴趣的是,我们发现它与 RLHF 目标的策略梯度有着深层的联系:如果我们直接用普通的策略梯度优化 RLHF (人类反馈强化学习)目标会怎样?根据策略梯度定理,策略梯度实际上也具有平方损失形式(蓝色项是策略梯度中的基线):

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

从数学上,我们证明了 SPPO 的平方损失等价于普通策略梯度的一种半在线变体:

SPPO 中的胜率充当奖励函数(红色部分)。

分区函数项自然地成为(软)值函数(蓝色部分)。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

那么这到底意味着什么呢?

标准策略梯度(PPO、GRPO、REINFORCE)在每一步都收集遵循当前策略的样本。

SPPO 在每次迭代开始时只采样一次,然后通过平方损失进行优化。

这使得 SPPO 成为一种轻量级的 RLHF 方法——无需即时生成!

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

上述分析揭示了大型语言模型(LLM)后训练阶段一个有趣的增长趋势:

离线 DPO(IPO、KTO 等)取代 RLHF(奖励模型 + 强化学习)

迭代 DPO、SPPO 等方法将离线方法转化为在线对齐方法

更加精细的迭代 → 回归到在线强化学习

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

鉴于 GRPO(Deepseek-R1)和平方损失(Kimi k1.5)的成功,端到端强化学习的强大作用愈发凸显,或许在大型语言模型(LLM)后训练阶段无需额外技巧——价值函数、广义优势估计(GAE),甚至梯度裁剪都无需使用。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

另一个简单但有趣的发现是,他们发现 SPPO 暗中在词汇级别优化最优最大熵策略。其平方损失隐含地最小化了学习到的策略与最优词汇级别策略之间的 KL 散度。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

在我们后续的研究 GPO 中,我们直接最小化相对奖励与对数比率之间的平方损失。这两项工作中的平方损失等价于策略梯度,但它是以迭代的方式进行的。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

SPPO 工艺背后的科研大牛

除了提出助力 Kimi k1.5 大获成功的 SPPO 工艺外,Wu Yue 也是一个学术背景很强的科研大牛。他本科期间师从北京大学的王立威教授,博士期间师从加利福尼亚大学洛杉矶分校的顾全全教授,目前以博士后研究员的身份在普林斯顿大学机器智能实验室继续着自己的科研之路。推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

除此之外,2023 年至今他一共参与发布了 9 篇 Paper,其中 3 篇均为第一作者。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

强大的学术背景之外,Wu Yue 的实习经历也非常加分。2022 年至 2024 年,他分别在 NEC 美研院、字节美国 AI lab和 Meta 工作实习。在 NEC 美研院期间,Wu Yue 从事个性化联邦学习研究,并开发了一种基于混合模型的方法,该方法被 ICML 2023 接受发表;在字节美国 AI lab 时,他专注于药品发现领域的多构象生成,将分子动力学的物理先验纳入基于扩散的生成模型,相关成果被 ICML 2024 接受;来到 Meta 后,Wu Yue 又致力于词汇级别奖励建模和新架构设计,用于一般人类偏好和一般偏好优化,为生成式机器智能的增长做出了贡献。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺雷峰网(公众号:雷峰网)还了解到,与他同为第一作者的 Zhiqing Sun ,目前已经从 CMU 毕业,并在今年 2 月加入 OpenAI。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

(责任编辑:风汇追)

    推荐文章
    • “南京红老头”已被警方抓获

      “南京红老头”已被警方抓获来源:法治日报[南京红姐被抓]记者从警方相关人士处了解到,网上盛传的南京60岁大叔男扮女装与1691名男性发生亲密行为并拍下“约会”视频的涉事男子网上被称为“红老头”)已经被公安机关抓获。其中,网上传 ...[详细]
    • Babel 张海龙:AI Agent 将铸就一支“钢铁雄师”

      Babel 张海龙:AI Agent 将铸就一支“钢铁雄师”作者:赖文昕编辑:陈彩娴在刚刚结束的英伟达 GTC 大会上,CEO 黄仁勋描绘了一幅在 AI 大模型影响下软件开发的新蓝图:未来做软件不太可能重头开始写一大堆代码。“很可能你会组建一支 AI 团队。” ...[详细]
    • AI 迈进深水区,谈落地、谁能带来新解法?

      AI 迈进深水区,谈落地、谁能带来新解法?技术发展是一个持续叠进的过程,AI 也是如此。经历过去 70 年的“三起两落”,近年来,人工智能行业迈进深水期,分工细化,产业落地成为主旋律,AI 与各个场景的交叉、对话不断在发生。对不少企业而言,以 ...[详细]
    • 大模型落地,向量数据库能做什么?

      大模型落地,向量数据库能做什么?在保险行业这个海量数据的“聚居地”上,数据库应用已久。近年来,保司数据化转型提速,各类文本、音视频的凭证票证核保及跑批需求不断增加,许多机构便将数据库引入至业务流程中。但是,随着数据库深入保司业务,一 ...[详细]
    • 2D变3D,电影之城邀你“入画”

      2D变3D,电影之城邀你“入画”来源标题:2D变3D,电影之城邀你“入画”在陆家嘴百丽宫影城的主视觉海报前,一桌二椅皆成实景,影迷可以入内拍照留念,也可在此交谈、小憩。 上海国际电影节供图今年上海国际电影节,影迷不仅能站在主题海报前 ...[详细]
    • 哀悼 !中国计算机视觉领军者、商汤创始人汤晓鸥去世

      哀悼 !中国计算机视觉领军者、商汤创始人汤晓鸥去世12 月 16 日中午雷峰网获悉:上海人工智能实验室主任、商汤科技创始人、香港中文大学信息工程学系教授汤晓鸥去世。经多位独立信源确认,此消息属实,目前等待官方发布讣告。20世纪60年代末,汤晓鸥出生于 ...[详细]
    • 博搏云的生态蓝图:稳固住AGI全栈服务商的重要阵地

      博搏云的生态蓝图:稳固住AGI全栈服务商的重要阵地生态是一切产业发展的基础。完善的生态可以加速知识、技术、应用场景的积累,使创新成果更快地转化为产品,连接产业链上下游,也可以为人才的培养和流动提供良好平台。中国已被视为全球AI领域最具竞争力的国家。人 ...[详细]
    • 零一万物 API 上线,用户反馈多模态中文能力超过 GPT

      零一万物 API 上线,用户反馈多模态中文能力超过 GPT【雷峰网(公众号:雷峰网)】近日,大模型初创公司零一万物发布了Yi 大模型 API 开放平台,为开发者提供通用 Chat、200k 超长上下文、多模态交互等模型。零一万物由创新工场董事长兼首席执行官李 ...[详细]
    • 超 50 位两院院士、200 位青年科学家!2023「青年科学家 50² 论坛」深圳举办

      超 50 位两院院士、200 位青年科学家!2023「青年科学家 50² 论坛」深圳举办9月24日,由南方科技大学、腾讯公司共同主办的第三届“青年科学家50²论坛”在深圳开幕。韩启德、窦贤康、薛其坤、潘建伟等知名科学家,超过50位两院院士,20位大学校长、副校长,50多位新基石研究员,近 ...[详细]
    • AIGC:我不是元宇宙的附庸品

      AIGC:我不是元宇宙的附庸品“你们是从什么时候开始注意到人类的?”“当第一个原始人开始仰望星空的时候。”AI 的类人猿,早已开始仰望人类。01 来自机器的审视在过去短短的两年间,算法从业者王超岳有过两次被 AI 震撼住的时刻。一 ...[详细]
    热点阅读