开源 - 智狐AI导航

Smart PDFs

Smart PDFs 是一款免费开源的 AI 工具，用于快速提取和总结 PDF 文档的关键信息。它支持学术论文、行业报告和技术文档等多种格式，可在数秒内生成结构清晰的章节式摘要。工具采用 Llama 3.3 模型进行智能处理，并支持图像生成和内容分享功能，适用于学术、职场和个人使用场景。

AI项目与工具 2025年06月11日 61 点赞 0 评论 552 浏览

VoiceCanvas

VoiceCanvas 是一款开源的多语言语音合成平台，基于 AI 技术提供高质量文字转语音服务，支持超过 50 种语言。用户可通过上传简短音频实现个性化声音克隆，并集成多种语音服务以保障输出质量。平台适用于内容创作、教育、企业及个人等多种场景，提升语音内容制作效率。

AI项目与工具 2025年06月11日 96 点赞 0 评论 820 浏览

DeerFlow

DeerFlow 是字节跳动推出的开源研究框架，结合语言模型与多种工具，支持高效完成复杂研究任务。具备多Agent架构，支持自然语言交互与智能协作，适用于研究报告、播客、演示文稿等内容生成。支持多种语言模型和外部工具集成，提供灵活配置与扩展能力，广泛应用于学术、市场、教育及个人知识管理等领域。

AI项目与工具 2025年06月11日 23 点赞 0 评论 496 浏览

Multiverse

Multiverse是由Enigma Labs开发的全球首个基于AI生成的多人游戏模型，支持实时交互与动态世界生成，确保玩家视角一致。其核心技术包括联合动作向量和双视角通道堆叠，有效解决多人游戏中的同步难题。模型训练成本低，可在普通PC上运行，且项目全面开源，适用于多人游戏开发、VR/AR、AI训练、教育等多个领域。

AI项目与工具 2025年06月11日 56 点赞 0 评论 818 浏览

Open Code Reasoning

Open Code Reasoning（OCR）是英伟达推出的开源代码推理AI模型，基于Nemotron架构设计，支持多种编程语言。它具备代码生成、逻辑补全、多语言处理及高效推理能力，适用于代码优化、教育、测试等多个场景。OCR提供32B、14B和7B三种参数版本，满足不同计算需求，并与主流框架兼容，具有良好的扩展性。

AI项目与工具 2025年06月11日 10 点赞 0 评论 717 浏览

Parakeet TDT 0.6B

Parakeet TDT 0.6B 是一款由英伟达开发的开源自动语音识别（ASR）模型，采用 FastConformer 和 TDT 架构，具备高速转录、高精度识别、歌词转录、文本格式化等功能。模型在 Hugging Face Open ASR Leaderboard 中表现优异，实时因子高达 3386，适用于会议记录、法律医疗、字幕生成及音乐索引等多种场景。

AI项目与工具 2025年06月11日 36 点赞 0 评论 700 浏览

FunGPT

FunGPT 是一款基于 InternLM2.5 大模型开发的开源工具，专注于情感互动与情绪调节。它包含“甜言蜜语模式”和“犀利怼语模式”，分别用于提升用户情绪和释放压力。项目采用轻量化模型与 AWQ 量化技术，兼顾性能与效率。适用于创意启发、娱乐互动等多种场景，适合对情感交互感兴趣的开发者和用户。

AI项目与工具 2025年06月11日 86 点赞 0 评论 803 浏览

BILIVE

BILIVE 是一款面向 B 站直播的 AI 工具，支持自动录制、弹幕渲染、语音识别、片段切片、封面生成及自动投稿。兼容低配置设备，无需 GPU，适合个人及小型团队使用，提升直播内容制作效率。

AI项目与工具 2025年06月11日 33 点赞 0 评论 1006 浏览

LTXV

LTXV-13B 是 Lightricks 推出的开源 AI 视频生成模型，拥有 130 亿参数，可在消费级显卡上高效运行，生成速度比同类产品快 30 倍。支持文本、图像转视频及多关键帧调节，具备多尺度渲染和高压缩率技术，适用于影视、广告、游戏、教育等多个领域，提升内容创作效率与质量。

AI项目与工具 2025年06月11日 18 点赞 0 评论 908 浏览

Muyan

Muyan-TTS是一款面向播客场景的开源文本转语音工具，基于超10万小时播客数据训练，支持零样本语音合成与说话人适配，可在0.33秒内生成1秒音频，适合实时与长内容合成。支持本地部署与API调用，应用于播客、有声书、视频配音、AI角色及新闻播报等领域，兼具高效性与灵活性。

AI项目与工具 2025年06月11日 94 点赞 0 评论 529 浏览

开源

首页

开源

列表

默认

浏览次数

发布日期