开源工具 - 智狐AI导航

RealtimeSTT

RealtimeSTT是一款开源的实时语音转文本库，具备高精度语音活动检测、GPU加速的实时转录能力以及语音唤醒功能。支持多语言识别，适用于语音助手、会议记录、实时字幕等场景，提供灵活的音频输入与预处理机制，便于开发者快速集成和扩展。

AI项目与工具 2025年06月12日 97 点赞 0 评论 854 浏览

Zerox

Zerox是一款基于GPT-4o-mini模型的开源OCR工具，支持多种文件格式，具备零样本识别能力，可高效处理扫描文档和复杂布局内容。其输出为Markdown格式，便于编辑与使用，同时提供API接口，适用于企业文档管理、学术研究、法律金融等多个场景，显著提升文档处理效率和准确性。

AI项目与工具 2025年06月12日 20 点赞 0 评论 533 浏览

Whisper Input

Whisper Input 是一款开源语音输入工具，基于 Python 和 OpenAI Whisper 模型开发，支持多语言语音识别与实时转录。用户可通过快捷键操作录音并生成文本，具备翻译、自动标点、高效处理及本地运行等功能。适用于会议记录、教育、智能交互及媒体制作等多种场景。

AI项目与工具 2025年06月12日 29 点赞 0 评论 847 浏览

Aligner

Aligner是由北京大学团队开发的大语言模型对齐工具，通过学习对齐答案与未对齐答案之间的差异来提升模型性能。采用自回归seq2seq结构，在Q-A-C数据集上训练，无需RLHF流程。具备高效、灵活、即插即用等特点，支持多模型兼容，提升模型帮助性和安全性。适用于多轮对话、价值观对齐及MoE架构优化等场景。

AI项目与工具 2025年06月12日 44 点赞 0 评论 518 浏览

Oumi

Oumi 是一个开源 AI 平台，支持从数据准备到模型部署的全流程开发。它提供零样板代码体验，支持多种训练方法和多模态模型，适用于自动驾驶、人机交互、学术研究等多个场景。平台具备高效的分布式训练能力和灵活的部署选项，适合企业和研究机构使用。

AI项目与工具 2025年06月12日 26 点赞 0 评论 711 浏览

OCRmyPDF

OCRmyPDF 是一款开源的命令行工具，用于将扫描 PDF 转换为可搜索、可编辑的文档。基于 Tesseract OCR 引擎，支持 100 多种语言，具备图像优化、纠偏、清洁等功能，提升识别准确率。支持多核处理与批量操作，适合高效处理大量文件，且完全离线运行，保障数据安全。

AI项目与工具 2025年06月12日 39 点赞 0 评论 541 浏览

s1

S1是由斯坦福大学和华盛顿大学联合开发的低成本、高性能AI推理模型，采用知识蒸馏技术从大型模型中提取推理能力。通过1000个高质量问题训练，成本低于50美元，训练时间短于30分钟。S1在数学和编程领域表现卓越，支持测试时扩展技术以优化推理效果，并已在GitHub开源，适用于科学问题解决、智能辅导、自动问答等多种场景。

AI项目与工具 2025年06月12日 33 点赞 0 评论 783 浏览

Onlook

Onlook 是一款开源的视觉编辑工具，专为 React 应用设计，支持设计师和开发人员在浏览器中实时修改 UI 并自动生成代码，提升协作效率。所有操作在本地完成，确保数据安全，兼容 React 和 TailwindCSS，未来将扩展至更多框架。适用于快速原型设计、设计与开发协作、设计系统维护等场景。

AI项目与工具 2025年06月12日 71 点赞 0 评论 725 浏览

Lumina

Lumina-Image 2.0 是一款开源图像生成模型，基于扩散模型与 Transformer 架构，具有 26 亿参数。它能根据文本描述生成高质量、多风格的图像，支持中英文提示词，并具备强大的复杂提示理解能力。模型支持多种推理求解器，适用于艺术创作、摄影风格图像生成及逻辑推理场景，兼具高效性和灵活性。

AI项目与工具 2025年06月12日 27 点赞 0 评论 826 浏览

Hibiki

Hibiki是一款由Kyutai Labs开发的开源语音翻译解码器，支持实时语音到语音（S2ST）和语音到文本（S2TT）的翻译。其基于多流语言模型架构，结合弱监督学习和上下文对齐技术，实现低延迟、高保真度的翻译效果。适用于国际会议、在线教育、旅游、新闻采访及客户服务等场景，具备良好的实用性和可扩展性。

AI项目与工具 2025年06月12日 31 点赞 0 评论 688 浏览

开源工具

首页

开源工具

列表

默认

浏览次数

发布日期