强化学习 - 智狐AI导航

QwenLong

QwenLong-L1-32B是阿里巴巴集团Qwen-Doc团队开源的首个长文本推理大模型，基于渐进式上下文扩展、课程引导的强化学习和难度感知的回顾性采样策略，显著提升长文本场景下的推理能力。该模型在多个DocQA基准测试中表现优异，平均准确率达70.7%，超越多个现有旗舰模型。其功能包括长文本推理、稳定训练、混合奖励、广泛适用性和高性能表现，适用于法律、金融、科研等多个领域。

AI项目与工具 2025年06月11日 24 点赞 0 评论 776 浏览

TPDM

TPDM是一种基于扩散模型的图像生成技术，通过引入时间预测模块（TPM）和强化学习优化策略，实现了对去噪步骤的自适应调整，从而在保证图像质量的同时提高了生成效率。该模型适用于多种应用场景，包括文本到图像生成、艺术创作辅助以及数字媒体内容生产等，广泛应用于广告、游戏设计、影视制作等领域。

AI项目与工具 2025年06月12日 15 点赞 0 评论 776 浏览

LeRobot

LeRobot是一个由HuggingFace开发的开源AI聊天机器人项目，旨在简化机器人技术的学习过程。它提供了预训练模型、数据集和模拟环境，支持模仿学习和强化学习，适用于多种机器人硬件。该项目具有多用途、可扩展的特点，通过提供预训练模型、数据集共享、模拟环境和多功能库等功能，帮助用户加速机器人项目的开发进程。

AI项目与工具 2025年06月12日 57 点赞 0 评论 790 浏览

Meta Motivo

Meta Motivo是一款由Meta公司研发的人工智能模型，专为提高元宇宙中虚拟人形智能体的真实性和自然性而设计。通过无监督强化学习算法，Meta Motivo实现了对全身动作的有效控制，支持零样本学习、多任务泛化以及行为模仿等功能。其核心优势在于将状态、动作和奖励统一映射至潜在空间，显著增强了元宇宙体验的真实感。此外，该模型还适用于机器人控制、虚拟助手、游戏动画等多个应用场景。

AI项目与工具 2025年06月12日 22 点赞 0 评论 792 浏览

DeepCoder

DeepCoder-14B-Preview 是一款基于 Deepseek-R1-Distilled-Qwen-14B 微调的开源代码生成模型，采用分布式强化学习技术，在 LiveCodeBench 基准上达到 60.6% 准确率。支持多语言代码生成、问题解决、补全优化、测试生成等功能，适用于开发、教育、竞赛等多个场景。项目提供完整训练数据与优化方案，推动 RL 在 LLM 中的应用。

AI项目与工具 2025年06月12日 39 点赞 0 评论 810 浏览

Satori

Satori是一款由MIT和哈佛大学等机构联合开发的7B参数大语言模型，专注于提升推理能力。其采用COAT机制和两阶段训练框架，结合强化学习优化模型性能，具备自回归搜索、数学推理、跨领域任务处理以及自我纠错等核心能力。Satori在数学和逻辑推理任务中表现突出，广泛应用于科研、教育、智能客服等多个领域，代码、数据和模型均已开源。

AI项目与工具 2025年06月12日 79 点赞 0 评论 815 浏览

Operator

Operator是由OpenAI开发的AI工具，基于Computer-Using Agent（CUA）模型，能够模拟人类操作网页浏览器，完成如预订、购物、表单填写等任务。它结合了GPT-4o的视觉识别能力和强化学习的推理能力，支持多任务处理和个性化设置。具备自我纠错、安全防护及隐私保护机制，在涉及敏感信息时会请求用户接管。适用于自动化购物、数据分析、日程安排等多种场景。

AI项目与工具 2025年06月12日 10 点赞 0 评论 817 浏览

NotaGen

NotaGen 是由多所高校联合研发的音乐生成模型，基于预训练、微调和强化学习技术，可生成高质量古典乐谱。支持通过“时期-作曲家-乐器”等条件控制音乐风格，具备高度音乐性与可控性。采用 CLaMP-DPO 方法优化生成质量，无需人工标注。适用于音乐创作、教育、影视配乐等多种场景，提供多种模型规模选择，满足不同需求。

AI项目与工具 2025年06月12日 66 点赞 0 评论 818 浏览

VideoAgent

VideoAgent是一款基于自改进机制的视频生成系统，结合图像观察与语言指令生成机器人控制视频计划。它采用自我条件一致性方法优化视频质量，通过预训练视觉-语言模型反馈和实际执行数据的收集，持续提升生成效果，减少幻觉内容并提高任务成功率。VideoAgent在模拟环境中有优异表现，并已应用于机器人控制、模拟训练、教育研究、游戏开发以及电影制作等领域，展现出广泛的应用潜力。

AI项目与工具 2025年06月12日 66 点赞 0 评论 836 浏览

Psi R0

Psi R0是一款基于强化学习的端到端具身模型，支持双灵巧手协同操作，具备多技能串联混训和跨物品、跨场景的泛化能力。通过仿真数据训练及技能优化，Psi R0能在复杂环境中完成长程任务，同时具备自主切换技能的功能，确保高成功率和鲁棒性。主要应用场景包括电商商品打包、工厂产线组装、服务业拣货打包及家居环境清洁整理。

AI项目与工具 2025年06月12日 18 点赞 0 评论 839 浏览

强化学习

首页

强化学习

列表

默认

浏览次数

发布日期