开源 - 智狐AI导航

Voila

Voila是一款开源的端到端语音大模型，支持实时语音交互与多轮对话，具备高保真、低延迟的音频处理能力。集成语音与语言建模功能，支持百万级预设声音及个性化定制，适用于语音助手、角色扮演、语音翻译等场景。采用多尺度Transformer架构，提升语音理解与生成质量，降低开发成本，提高通用性与灵活性。

AI项目与工具 2025年06月11日 60 点赞 0 评论 828 浏览

Ultravox

Ultravox 是一种多模态大型语言模型（LLM），能够直接处理文本和语音输入，无需额外的语音识别步骤。其核心技术包括多模态投影器，用于将音频数据转换为高维空间表示，显著提升语音理解和处理效率。该模型支持实时语音对话、多语言扩展及领域特定知识的学习，适用于智能客服、虚拟助手、语言学习、实时翻译及教育等领域。

AI项目与工具 2025年06月12日 51 点赞 0 评论 828 浏览

Lumina

Lumina-Image 2.0 是一款开源图像生成模型，基于扩散模型与 Transformer 架构，具有 26 亿参数。它能根据文本描述生成高质量、多风格的图像，支持中英文提示词，并具备强大的复杂提示理解能力。模型支持多种推理求解器，适用于艺术创作、摄影风格图像生成及逻辑推理场景，兼具高效性和灵活性。

AI项目与工具 2025年06月12日 27 点赞 0 评论 826 浏览

MeloTTS

MeloTTS是一个高质量的多语言文本转语音（TTS）库，由MyShell AI开发。该工具支持多种语言的文本转语音任务，包括英语（含不同口音）、西班牙语、法语、中文、日语和韩语，并具备快速的语音合成速度。MeloTTS不仅支持中英混合发音，还易于安装和使用，适用于多种操作系统和环境。用户可以在GitHub和Hugging Face平台上获取和体验MeloTTS。

AI项目与工具 2024年01月01日 57 点赞 0 评论 826 浏览

AutoAgent

AutoAgent是香港大学开发的零代码LLM智能体框架，支持自然语言交互创建智能助手，适用于搜索、分析和报告生成等场景。提供三种使用模式和双交互模式，兼容多种LLM模型，具备自管理向量数据库和多代理协作能力，部署便捷，适合各类用户高效完成复杂任务。

AI项目与工具 2025年06月12日 68 点赞 0 评论 825 浏览

StreamRAG

一个视频搜索和流媒体代理工具，能让您在 ChatGPT 中与您的视频库聊天并观看视频流。

Ai开源项目 2025年06月05日 81 点赞 0 评论 824 浏览

ReasonGraph

ReasonGraph 是一个开源平台，用于可视化和分析大语言模型（LLM）的推理过程。它支持多种主流模型和推理方法，提供直观的图表展示和交互式功能，帮助用户理解 AI 思考逻辑、优化模型表现。模块化设计使其易于扩展，适用于学术研究、教育、开发等多个领域。

AI项目与工具 2025年06月12日 73 点赞 0 评论 824 浏览

提示精灵小富贵

一个旨在简化并增强为AI模型创建和优化提示词（Prompts）过程的开源项目，会帮你写Prompt提示词的GPTs应用。

GPTs应用 2025年06月05日 27 点赞 0 评论 822 浏览

Vanna.AI

一个基于人工智能的Python软件包，只需提出问题即可从去数据库里找到相应的数据，帮助生成Snowflake、BigQuery、Athena和Postgres等数据库的SQL。

Ai编程建站 2025年06月05日 95 点赞 0 评论 822 浏览

Stagehand

Stagehand 是一款基于自然语言处理的 AI 工具，专注于网页自动化操作。其核心功能包括自然语言驱动的 `act`、`extract` 和 `observe` API，支持原子化指令执行和多模型适配。Stagehand 可实现网页测试、数据抓取、表单操作及内容监控等多样化任务，广泛应用于网页测试、数据分析、办公自动化等领域。

AI项目与工具 2025年06月12日 51 点赞 0 评论 822 浏览

开源

首页

开源

列表

默认

浏览次数

发布日期