框架

Pipecat

Pipecat是一款开源Python框架,用于构建语音和多模态对话系统。它整合了语音识别、文本转语音及对话处理功能,支持与主流AI平台集成,采用模块化管道架构,提升开发效率。基于帧的实时处理机制确保流畅交互,适用于语音助手、企业服务、教育、医疗及多模态应用等多种场景。

OctoTools

OctoTools是斯坦福大学推出的开源智能体框架,通过标准化工具卡片实现复杂推理任务的高效处理。支持多步骤任务规划、工具集成与优化,具备高准确率和广泛适用性,适用于数学、医学、视觉分析等多个领域。

Migician

Migician是一款由多所高校联合开发的多模态大语言模型,专为多图像定位任务设计。它基于大规模数据集MGrounding-630k,采用端到端架构和两阶段训练方法,支持跨图像精准定位与多任务处理。Migician适用于自动驾驶、安防监控、医疗影像等多个领域,具有高效的推理能力和灵活的输入方式。

RoboOS

RoboOS是智源研究院推出的跨本体具身大小脑协作框架,采用“大脑-小脑”分层架构,支持多类型机器人协同作业。具身大脑负责全局感知与决策,小脑技能库实现精准执行,跨机器人数据中枢确保信息共享与状态同步。系统具备即插即用、端云一体化、低延迟响应等优势,广泛应用于工业、物流、制造和服务机器人等领域。

Collaborative Gym

Collaborative Gym(Co-Gym)是一款支持人机协作的开发框架,具备异步交互、任务环境设计和多维评估功能。它通过模拟与真实环境支持开发者进行高效迭代与实际部署,适用于旅行规划、表格分析和文献综述等多种协作任务,提升人机协作效率与质量。

EveryoneNobel

EveryoneNobel是一款基于ComfyUI框架的开源AI工具,专注于生成个性化诺贝尔奖风格图像。用户上传肖像照片并输入基本信息后,系统可自动生成具有独特风格和丰富细节的图像。工具支持个性化定制,适用于社交媒体分享、个人成就展示、教育用途及团队激励等多种场景。 ---

Qwen

Qwen-Agent 是基于通义千问模型的开源 Agent 开发框架,支持指令遵循、工具使用、记忆能力、函数调用、代码解释器和 RAG 等功能,能够处理大规模上下文并快速开发复杂 AI 应用。其技术优势包括大语言模型、工具集成、智能代理架构和 RAG 算法,适用于客户服务、个人助理、教育学习、内容创作和技术支持等多个场景。

OmAgent

OmAgent是由Om AI与浙江大学滨江研究院联合开发的多模态语言代理框架,支持文本、图像、视频等多种输入形式,简化设备端智能代理的开发流程。它具备高效模型集成、灵活算法接口和复杂任务处理能力,适用于视频监控、内容推荐、教育辅助等场景,提升设备智能化水平和用户体验。