开源 - 智狐AI导航

VLM

VLM-R1 是由 Om AI Lab 开发的视觉语言模型，基于 Qwen2.5-VL 架构，结合强化学习优化技术，具备精准的指代表达理解和多模态处理能力。该模型适用于复杂场景下的视觉分析，支持自然语言指令定位图像目标，并在跨域数据中表现出良好的泛化能力。其应用场景涵盖智能交互、无障碍辅助、自动驾驶、医疗影像分析等多个领域。

AI项目与工具 2025年06月12日 42 点赞 0 评论 745 浏览

DeepWiki

DeepWiki是一款由Devin团队开发的AI代码阅读助手，基于自然语言处理技术，帮助用户理解GitHub代码库并提供详细的文档级解答。支持深度研究、交互式图表生成、私有仓库文档创建等功能，适用于开源项目学习、代码审查、团队协作及教育培训等场景。目前已索引超3万仓库，处理超40亿行代码，对开源项目免费开放。

AI项目与工具 2025年06月11日 36 点赞 0 评论 745 浏览

EmotiVoice

EmotiVoice是网易有道推出的开源文本到语音系统，支持中英文及2000+音色，能根据提示生成带情感的语音。具备情感合成、语音克隆、多语言支持等功能，提供Web界面和API接口，适用于有声读物、智能助手、教育、客服等场景，技术上支持高效部署与模型微调。

AI项目与工具 2025年06月12日 30 点赞 0 评论 745 浏览

EasyVideoTrans

EasyVideoTrans是一款开源的AI视频翻译工具，支持从视频中提取音频并翻译字幕，同时提供多样化的声音风格以实现自然的配音效果。它适用于视频创作者、教育机构、企业培训及品牌宣传等领域，能够快速生成高质量的中文版本视频，满足跨语言沟通的需求。

AI项目与工具 2025年06月12日 39 点赞 0 评论 745 浏览

谛韵DiffRhythm

DiffRhythm（谛韵）是一款由西北工业大学与香港中文大学（深圳）联合开发的端到端音乐生成工具，基于潜扩散模型技术，能在10秒内生成包含人声和伴奏的完整歌曲。用户只需提供歌词和风格提示，即可快速获得高质量音乐作品。其支持多语言输入，具备歌词对齐、风格定制、非自回归生成等技术优势，广泛应用于音乐创作、影视配乐、教育及个人创作等领域。

AI项目与工具 2025年06月12日 70 点赞 0 评论 746 浏览

CodeGeeX

CodeGeeX是一款基于大模型的全能的智能编程助手。它可以实现代码的生成与补全、自动添加注释、代码翻译以及智能问答等功能，能够帮助开发者显著提高工作效率。

Ai编程建站 2025年06月05日 94 点赞 0 评论 746 浏览

Reverb ASR

Reverb ASR是一款基于深度学习的开源自动语音识别与说话人分离工具，采用20万小时高质量英语语音数据训练，具备高精度语音转录能力，支持逐字稿控制及多种解码模式。其显著特点是擅长处理长时间语音内容，并在长篇幅识别任务中超越其他开源模型。Reverb ASR适用于播客、会议记录、法庭记录等多个应用场景，为用户提供灵活且高效的语音转文字解决方案。

AI项目与工具 2025年06月12日 55 点赞 0 评论 748 浏览

Rasa

一个开源的AI机器学习框架，专注于构建自然语言对话系统，如聊天机器人和语音助手，Rasa广泛应用于客户服务、智能助手、企业自动化等多个领域。

Ai开源项目 2025年06月05日 50 点赞 0 评论 749 浏览

LiberSonora

一个基于AI的、开源有声书工具集，LiberSonora提供智能字幕提取、AI标题生成、多语言翻译等功能，并且支持 GPU 加速、批量离线处理。

Ai开源项目 2025年06月05日 65 点赞 0 评论 749 浏览

MinerU

MinerU是一款开源智能数据提取工具，专注于复杂PDF文档的高效解析与提取。它能够将包含多种内容类型的PDF文档转换为结构化的Markdown格式，支持图像、公式、表格和文本等多种内容处理，保留原始文档结构和格式，支持公式识别与转换成LaTeX格式，自动删除页眉、页脚、脚注和页码等非内容元素，适用于学术、财务、法律等多个领域。

AI项目与工具 2025年06月12日 92 点赞 0 评论 749 浏览

开源

首页

开源

列表

默认

浏览次数

发布日期

VLM