开源 - 智狐AI导航

ReasonGraph

ReasonGraph 是一个开源平台，用于可视化和分析大语言模型（LLM）的推理过程。它支持多种主流模型和推理方法，提供直观的图表展示和交互式功能，帮助用户理解 AI 思考逻辑、优化模型表现。模块化设计使其易于扩展，适用于学术研究、教育、开发等多个领域。

AI项目与工具 2025年06月12日 73 点赞 0 评论 824 浏览

StarVector

StarVector 是一个开源多模态视觉语言模型，支持图像和文本到可编辑 SVG 文件的转换。采用多模态架构，结合图像编码与语言模型，生成结构紧凑、语义丰富的 SVG 内容。基于 SVG-Stack 数据集训练，适用于图标设计、艺术创作、数据可视化等多种场景，具备良好的性能和扩展性。

AI项目与工具 2025年06月12日 68 点赞 0 评论 627 浏览

MoshiVis

MoshiVis是一款由Kyutai开发的开源多模态语音模型，支持图像与语音的自然交互。它基于Moshi 7B架构，集成了视觉编码器和跨注意力机制，实现低延迟、自然流畅的对话体验。支持多种后端部署，适用于无障碍应用、智能家居、教育及工业场景，提升人机交互的智能化水平。

AI项目与工具 2025年06月12日 72 点赞 0 评论 742 浏览

Soundwave

Soundwave是由香港中文大学（深圳）开发的开源语音理解大模型，专注于语音与文本的智能对齐与处理。它采用对齐适配器和压缩适配器技术，提升语音特征压缩效率，支持语音翻译、语音问答、情绪识别及多模态交互等功能。适用于智能语音助手、语言学习、内容创作等多个领域，具有广泛的应用前景。

AI项目与工具 2025年06月12日 50 点赞 0 评论 680 浏览

Agent TARS

Agent TARS 是字节跳动推出的开源多模态 AI 代理工具，支持浏览器、命令行和文件系统的集成，实现复杂任务的自动化执行。其核心功能包括代理工作流、数据处理、代码生成与解释等。基于事件流和模型上下文协议（MCP），Agent TARS 能高效分解任务并实时反馈结果，适用于网页自动化、任务管理、数据分析和代码辅助等多种场景。目前支持 macOS 平台，处于技术预览阶段。

AI项目与工具 2025年06月12日 29 点赞 0 评论 706 浏览

Tesseract

Tesseract是一款开源的光学字符识别（OCR）引擎，支持多语言识别和多种图像格式。其具备高精度的文字识别能力，适用于文档数字化、表格数据提取、发票识别及移动OCR应用等多个场景。支持跨平台运行，并提供丰富的编程接口和自定义训练功能，便于开发者集成和优化识别效果。

AI项目与工具 2025年06月12日 12 点赞 0 评论 716 浏览

YT Navigator

YT Navigator 是一款基于 AI 的 YouTube 内容检索工具，支持自然语言查询、语义搜索和视频内容交互。用户可快速定位视频片段并获取时间戳，提升信息获取效率。适用于研究、学习、创作和分析等场景，具备频道管理、安全会话等功能。采用向量嵌入与 BM25 算法结合的搜索机制，提高搜索准确率，项目已开源。

AI项目与工具 2025年06月12日 57 点赞 0 评论 863 浏览

Crack Coder

Crack Coder 是一款开源的 AI 编程辅助工具，专为技术面试设计。它能够在后台运行，不被检测到，并提供实时代码建议，支持多种编程语言。该工具具备精准的上下文分析能力，适用于面试准备、编程学习及算法练习等场景，同时支持本地部署以保障隐私和性能。

AI项目与工具 2025年06月12日 22 点赞 0 评论 676 浏览

Orpheus TTS

Orpheus TTS 是一款基于 Llama-3b 架构的开源文本到语音系统，支持自然、富有情感的语音生成。具备零样本语音克隆能力，无需预训练即可模仿特定语音，延迟低至 200 毫秒，适合实时应用。支持多种语音风格和情感控制，适用于有声读物、虚拟助手、游戏、教育等多个领域。

AI项目与工具 2025年06月12日 26 点赞 0 评论 753 浏览

Umi

Umi-OCR 是一款离线 OCR 工具，支持图片、截图和 PDF 文档的文字识别，具备数学公式与二维码识别功能，可生成可搜索 PDF。支持多语言识别与界面切换，提供命令行和 HTTP 接口调用，适用于文档数字化、数据录入、教育等多个场景。

AI项目与工具 2025年06月12日 51 点赞 0 评论 691 浏览

开源

首页

开源

列表

默认

浏览次数

发布日期