强化学习 - 智狐AI导航

PaSa

PaSa是由字节跳动研发的基于强化学习的学术论文检索系统，能够模仿人类研究者行为，自动调用搜索引擎、分析论文内容并追踪引文网络，提供精准全面的学术文献检索服务。其核心技术包括Crawler和Selector两个智能体，结合强化学习优化，显著提升了搜索效率与准确率。PaSa适用于学术研究、高校教学、知识产权分析等多个领域，具备高效检索和复杂查询处理能力。

AI项目与工具 2025年06月12日 41 点赞 0 评论 574 浏览

BALROG

BALROG是一款用于评估大型语言模型（LLMs）和视觉语言模型（VLMs）在游戏环境中推理能力的框架。它通过程序化生成的游戏环境，测试模型的规划、空间推理及探索能力，并提供细粒度的性能指标和公开排行榜，以促进AI技术的发展，适用于游戏AI开发、机器人技术、虚拟现实等多个领域。

AI项目与工具 2025年06月12日 37 点赞 0 评论 558 浏览

Skywork o1

Skywork o1是一款具备中文逻辑推理能力的大规模预训练模型，其核心优势在于内嵌思考、规划和反思能力，显著提升了复杂任务的推理性能。该模型基于开源Llama架构，同时提供增强版以满足更高要求的应用场景。它适用于技术开发者、企业决策者、教育工作者、内容创作者及客户服务等多个领域，助力创新应用开发和高效决策支持。 ---

AI项目与工具 2025年06月12日 73 点赞 0 评论 535 浏览

Auto Think是快手Kwaipilot团队开源的KwaiCoder-AutoThink-preview自动思考大模型，针对深度思考大模型的“过度思考”问题，提出了一种全新的训练范式。模型融合“思考”和“非思考”能力，能根据问题难度自动切换模式，提升复杂任务表现。在代码和数学类任务中，性能提升可达20分。其技术原理包括最小提示干预和多阶段强化学习，适用于视频生成、文案创作、智能客服等多个场景。

AI项目与工具 2025年06月11日 26 点赞 0 评论 534 浏览

OpenR

OpenR是一个由多家知名高校联合开发的开源框架，专注于通过强化学习和搜索技术提升大型语言模型的推理能力。它集成了数据获取、强化学习训练及非自回归解码功能，支持多种搜索算法和在线强化学习训练，能够有效提高模型的推理效率和精度。同时，其自动化数据处理能力减少了人工标注的需求，适用于数学问题求解、代码生成、自然语言处理等多种应用场景。

AI项目与工具 2025年06月12日 40 点赞 0 评论 529 浏览

Deep Research

Deep Research是由OpenAI开发的一款AI深度搜索与研究工具，支持多步骤自主研究，适用于金融、科学、政策等领域。基于o3模型，结合强化学习技术，能高效整合网络信息并生成结构化研究报告。用户可通过提示词触发研究流程，系统自动生成引用清晰、逻辑严谨的成果，适用于学术研究、市场分析、投资决策等场景。

AI项目与工具 2025年06月12日 21 点赞 0 评论 527 浏览

HuatuoGPT

HuatuoGPT-o1是一款专为医学领域设计的复杂推理模型，具备强大的复杂推理、错误识别与修正能力。通过两阶段训练方法及强化学习技术，该模型能够生成详尽的推理链条，有效提升医疗问题解决效率。它已在多个医学基准测试中展现出卓越性能，并在医学诊断、个性化治疗方案制定、教育及药物研发等领域具有广泛应用潜力。

AI项目与工具 2025年06月12日 48 点赞 0 评论 526 浏览

AReaL

AReaL-boba 是由蚂蚁技术研究院与清华大学联合推出的开源强化学习训练框架，具备高效训练、推理能力提升、低资源训练等核心功能。其 7B 模型在数学推理任务中表现突出，且支持大规模模型的低成本复现。框架集成 SGLang 推理系统，采用数据蒸馏与工程优化技术，提升训练效率。适用于教育、自然语言处理、智能体开发等领域，具有高度可复现性和开源特性。

AI项目与工具 2025年06月12日 46 点赞 0 评论 519 浏览

Step R

Step R-mini是一款由阶跃星辰推出的推理模型，具备主动规划、尝试与反思能力，适用于数学、逻辑推理、代码开发及文学创作等多种场景。模型基于慢思考机制，支持深度推理与多步骤验证，表现优异。其技术特点包括强化学习、数据质量优化、测试时计算扩展及模型规模增长，实现文理兼修，广泛应用于教育、科研、企业办公等领域。

AI项目与工具 2025年06月12日 43 点赞 0 评论 519 浏览

SwiftAgent 2.0

SwiftAgent 2.0 是一款依托于大模型与 AI Agent 技术的企业级数据分析工具，旨在帮助企业实现从数据到决策的智能化升级。其主要特点包括统一语义层构建、多源数据集成、实时交互体验以及持续学习优化机制，广泛应用于业务决策支持、销售预测、客户洞察及财务规划等多个领域。

AI项目与工具 2025年06月12日 60 点赞 0 评论 510 浏览

强化学习

首页

强化学习

列表

默认

浏览次数

发布日期