强化学习 - 智狐AI导航

Satori

Satori是一款由MIT和哈佛大学等机构联合开发的7B参数大语言模型，专注于提升推理能力。其采用COAT机制和两阶段训练框架，结合强化学习优化模型性能，具备自回归搜索、数学推理、跨领域任务处理以及自我纠错等核心能力。Satori在数学和逻辑推理任务中表现突出，广泛应用于科研、教育、智能客服等多个领域，代码、数据和模型均已开源。

AI项目与工具 2025年06月12日 79 点赞 0 评论 815 浏览

DeepCoder

DeepCoder-14B-Preview 是一款基于 Deepseek-R1-Distilled-Qwen-14B 微调的开源代码生成模型，采用分布式强化学习技术，在 LiveCodeBench 基准上达到 60.6% 准确率。支持多语言代码生成、问题解决、补全优化、测试生成等功能，适用于开发、教育、竞赛等多个场景。项目提供完整训练数据与优化方案，推动 RL 在 LLM 中的应用。

AI项目与工具 2025年06月12日 39 点赞 0 评论 810 浏览

Meta Motivo

Meta Motivo是一款由Meta公司研发的人工智能模型，专为提高元宇宙中虚拟人形智能体的真实性和自然性而设计。通过无监督强化学习算法，Meta Motivo实现了对全身动作的有效控制，支持零样本学习、多任务泛化以及行为模仿等功能。其核心优势在于将状态、动作和奖励统一映射至潜在空间，显著增强了元宇宙体验的真实感。此外，该模型还适用于机器人控制、虚拟助手、游戏动画等多个应用场景。

AI项目与工具 2025年06月12日 22 点赞 0 评论 792 浏览

LeRobot

LeRobot是一个由HuggingFace开发的开源AI聊天机器人项目，旨在简化机器人技术的学习过程。它提供了预训练模型、数据集和模拟环境，支持模仿学习和强化学习，适用于多种机器人硬件。该项目具有多用途、可扩展的特点，通过提供预训练模型、数据集共享、模拟环境和多功能库等功能，帮助用户加速机器人项目的开发进程。

AI项目与工具 2025年06月12日 57 点赞 0 评论 791 浏览

QwenLong

QwenLong-L1-32B是阿里巴巴集团Qwen-Doc团队开源的首个长文本推理大模型，基于渐进式上下文扩展、课程引导的强化学习和难度感知的回顾性采样策略，显著提升长文本场景下的推理能力。该模型在多个DocQA基准测试中表现优异，平均准确率达70.7%，超越多个现有旗舰模型。其功能包括长文本推理、稳定训练、混合奖励、广泛适用性和高性能表现，适用于法律、金融、科研等多个领域。

AI项目与工具 2025年06月11日 24 点赞 0 评论 776 浏览

TPDM

TPDM是一种基于扩散模型的图像生成技术，通过引入时间预测模块（TPM）和强化学习优化策略，实现了对去噪步骤的自适应调整，从而在保证图像质量的同时提高了生成效率。该模型适用于多种应用场景，包括文本到图像生成、艺术创作辅助以及数字媒体内容生产等，广泛应用于广告、游戏设计、影视制作等领域。

AI项目与工具 2025年06月12日 15 点赞 0 评论 776 浏览

WebThinker

WebThinker是一款由多家科研机构联合开发的AI工具，旨在增强大型推理模型在复杂任务中的表现。它支持自主搜索、网页导航与实时报告生成，结合深度网页探索器和强化学习策略，提升信息获取与内容创作的效率与质量。适用于科学研究、数据分析、教育辅助等多种场景，显著增强了模型在知识密集型任务中的可靠性与实用性。

AI项目与工具 2025年06月11日 60 点赞 0 评论 771 浏览

Pokee AI

Pokee AI 是一个基于强化学习技术的 AI Agent 开发平台，具备高效任务规划、灵活工具调用、强大推理能力及个性化服务特点。它适用于电商、内容创作、数据分析、客户服务和企业自动化等多个场景，能够快速响应用户指令，提升工作效率与用户体验。

AI项目与工具 2025年06月11日 87 点赞 0 评论 761 浏览

RAGEN

RAGEN是一款开源的强化学习框架，专为在交互式和随机环境中训练大型语言模型（LLM）推理代理而设计。它基于StarPO架构，支持多轮轨迹优化和多种强化学习算法，如PPO和GRPO。通过MDP形式化和渐进式奖励归一化策略，RAGEN提高了训练的稳定性和效率。其模块化设计支持多种环境，适用于智能对话、游戏AI、自动化推理等多个领域。

AI项目与工具 2025年06月11日 84 点赞 0 评论 757 浏览

MotionGen

MotionGen是一款由元象科技开发的3D动作生成模型，它结合了大模型、物理仿真和强化学习算法，使得用户通过简单的文本指令就能生成逼真且流畅的3D动作。该工具简化了3D动画的制作过程，提升了创作效率。其主要功能包括文本到动作的转换、高度逼真和流畅的动作生成、个性化定制、高效的制作流程和技术融合。

AI项目与工具 2025年06月12日 96 点赞 0 评论 749 浏览

强化学习

首页

强化学习

列表

默认

浏览次数

发布日期