开源

ReasonGraph

ReasonGraph 是一个开源平台,用于可视化和分析大语言模型(LLM)的推理过程。它支持多种主流模型和推理方法,提供直观的图表展示和交互式功能,帮助用户理解 AI 思考逻辑、优化模型表现。模块化设计使其易于扩展,适用于学术研究、教育、开发等多个领域。

StarVector

StarVector 是一个开源多模态视觉语言模型,支持图像和文本到可编辑 SVG 文件的转换。采用多模态架构,结合图像编码与语言模型,生成结构紧凑、语义丰富的 SVG 内容。基于 SVG-Stack 数据集训练,适用于图标设计、艺术创作、数据可视化等多种场景,具备良好的性能和扩展性。

MoshiVis

MoshiVis是一款由Kyutai开发的开源多模态语音模型,支持图像与语音的自然交互。它基于Moshi 7B架构,集成了视觉编码器和跨注意力机制,实现低延迟、自然流畅的对话体验。支持多种后端部署,适用于无障碍应用、智能家居、教育及工业场景,提升人机交互的智能化水平。

Soundwave

Soundwave是由香港中文大学(深圳)开发的开源语音理解大模型,专注于语音与文本的智能对齐与处理。它采用对齐适配器和压缩适配器技术,提升语音特征压缩效率,支持语音翻译、语音问答、情绪识别及多模态交互等功能。适用于智能语音助手、语言学习、内容创作等多个领域,具有广泛的应用前景。

Agent TARS

Agent TARS 是字节跳动推出的开源多模态 AI 代理工具,支持浏览器、命令行和文件系统的集成,实现复杂任务的自动化执行。其核心功能包括代理工作流、数据处理、代码生成与解释等。基于事件流和模型上下文协议(MCP),Agent TARS 能高效分解任务并实时反馈结果,适用于网页自动化、任务管理、数据分析和代码辅助等多种场景。目前支持 macOS 平台,处于技术预览阶段。

Tesseract

Tesseract是一款开源的光学字符识别(OCR)引擎,支持多语言识别和多种图像格式。其具备高精度的文字识别能力,适用于文档数字化、表格数据提取、发票识别及移动OCR应用等多个场景。支持跨平台运行,并提供丰富的编程接口和自定义训练功能,便于开发者集成和优化识别效果。

YT Navigator

YT Navigator 是一款基于 AI 的 YouTube 内容检索工具,支持自然语言查询、语义搜索和视频内容交互。用户可快速定位视频片段并获取时间戳,提升信息获取效率。适用于研究、学习、创作和分析等场景,具备频道管理、安全会话等功能。采用向量嵌入与 BM25 算法结合的搜索机制,提高搜索准确率,项目已开源。

Crack Coder

Crack Coder 是一款开源的 AI 编程辅助工具,专为技术面试设计。它能够在后台运行,不被检测到,并提供实时代码建议,支持多种编程语言。该工具具备精准的上下文分析能力,适用于面试准备、编程学习及算法练习等场景,同时支持本地部署以保障隐私和性能。

Orpheus TTS

Orpheus TTS 是一款基于 Llama-3b 架构的开源文本到语音系统,支持自然、富有情感的语音生成。具备零样本语音克隆能力,无需预训练即可模仿特定语音,延迟低至 200 毫秒,适合实时应用。支持多种语音风格和情感控制,适用于有声读物、虚拟助手、游戏、教育等多个领域。

Umi

Umi-OCR 是一款离线 OCR 工具,支持图片、截图和 PDF 文档的文字识别,具备数学公式与二维码识别功能,可生成可搜索 PDF。支持多语言识别与界面切换,提供命令行和 HTTP 接口调用,适用于文档数字化、数据录入、教育等多个场景。