2025年5月25日最新AI资讯 | AI社群

应用案例
7.0

40位数学家组成8队与o4-mini-medium比赛,6队败北

机器之心1 天前

AI在数学竞赛中以6:2胜出,虽未超越人类,但或将很快实现

在包含300道高难度数学题的FrontierMath基准测试中,o4-mini-medium以22%正确率超越人类团队平均值(19%),但低于最高团队得分(35%)

  • 1 人机对决结果: 8支人类团队仅2支获胜,AI在4.5小时竞赛中展现更强解题效率
  • 2 时间成本差异: AI单题耗时5-20分钟 vs 人类平均40分钟/题,显示机器学习模型的即时处理优势
  • 3 基准评估争议: 人类团队得分可能被低估,调整难度权重后基准值或达30-52%
  • 4 突破临界点预测: 研究团队认为AI有望在2024年底前实现数学能力超人类表现

竞赛问题难度分布

1-3级

人类最佳团队得分

35%

AI调整后基准预测

37%

评估维度 人类团队 AI模型
基础题解题率 13-26% 22%
多领域覆盖能力 需专家团队 单模型通用解
长期演进潜力 持续提升 存在理论瓶颈

注:调整后的基准值通过难度权重换算得出,实际表现可能受题目难度梯度影响

应用案例
7.0

DeepSeek用的GRPO有那么特别吗?万字长文分析四篇精品论文

机器之心1 天前

本文深度剖析GRPO算法及其改进方案的核心突破:现代强化学习算法本质趋同,数据分布和训练策略的优化比算法创新更具决定性作用

Kimi k1.5训练突破

  • 1 首创基于模型自适应难度评估,通过SFT模型生成10次答案计算通过率
  • 2 构建多维度提示词体系,覆盖STEM/编码/推理领域并平衡难度梯度

长上下文优势

2.5×

相比短模型在token效率提升幅度

OpenReasonerZero里程碑

对比维度 传统RL OpenReasonerZero
数据量级 万级 百万级
KL惩罚 保留 移除

DAPO算法优化

动态采样

移除奖励平坦样本,梯度计算效率提升30%

双裁剪机制

正向裁剪参数扩大1.5倍,增强新token探索

Token级归一化

长答案惩罚权重提升40%,抑制冗余生成

Dr. GRPO核心改进

发现传统GRPO存在长度偏差:短正确答案奖励提升速度比长答案快37%

  • 1 创新跨token优势分配,在验证token处集中奖励分配
  • 2 难度无关梯度机制,消除问题难度方差对学习的影响