开源

ThinkDiffusion

一个为用户提供专业级人工智能艺术工具的平台。它提供最新的稳定扩散用户界面,用户只需几个点击即可在任何设备上通过浏览器访问。

s1

S1是由斯坦福大学和华盛顿大学联合开发的低成本、高性能AI推理模型,采用知识蒸馏技术从大型模型中提取推理能力。通过1000个高质量问题训练,成本低于50美元,训练时间短于30分钟。S1在数学和编程领域表现卓越,支持测试时扩展技术以优化推理效果,并已在GitHub开源,适用于科学问题解决、智能辅导、自动问答等多种场景。

Coqui.ai

Coqui.ai 是一个语音技术的开源平台,Coqui.ai 通过生成式 AI 提供逼真、富有情感的文本转语音,它可以从 3 秒的音频中克隆任何声音并调整其风格、节奏和情感。

BabelDOC

BabelDOC是一款专为科学论文翻译设计的开源PDF处理工具,支持双语对照显示,保留原文格式如公式、图表等。兼容多种翻译引擎,支持自定义模型接入,适用于学术、商业和技术文档翻译,提供在线和本地部署方式,保障翻译准确性和排版一致性。

Whisper Input

Whisper Input 是一款开源语音输入工具,基于 Python 和 OpenAI Whisper 模型开发,支持多语言语音识别与实时转录。用户可通过快捷键操作录音并生成文本,具备翻译、自动标点、高效处理及本地运行等功能。适用于会议记录、教育、智能交互及媒体制作等多种场景。

TextBase

TextBase 是一款简单的框架,用于构建 AI 聊天机器人,它可以帮助开发人员快速搭建和优化聊天机器人。

PeterCat

PeterCat是一款基于开源技术的智能问答机器人,能够通过自动构建的知识库与GitHub相关功能交互,提供对话式答疑服务。它支持多模型适配、多集成方式,并具备强大的自然语言处理能力和自动化工具支持。主要应用场景涵盖开源项目支持、企业内部论坛、在线教育平台以及客户服务等领域,旨在提升技术交流与问题解决效率。

OpenEMMA

OpenEMMA是一个开源的端到端自动驾驶多模态模型框架,基于预训练的多模态大型语言模型(MLLMs),能够处理视觉数据和复杂驾驶场景的推理任务。它通过链式思维推理机制提升轨迹规划和感知任务性能,并集成了优化的YOLO模型以提高3D边界框预测的准确性。此外,OpenEMMA支持人类可读的输出,适用于多种驾驶环境,包括城市道路、高速公路、夜间及复杂天气条件下的驾驶。

FoloUp

FoloUp 是一款开源的 AI 语音面试平台,能根据职位描述自动生成面试问题,并通过自然语言交互与候选人进行语音面试。系统支持实时分析、评分与报告生成,提供数据仪表盘用于跟踪候选人表现。平台支持一键分享、远程面试和批量招聘,结合语音识别、NLP 和安全数据管理技术,适用于多种招聘场景,提升招聘效率与质量。

MeloTTS

MeloTTS是一个高质量的多语言文本转语音(TTS)库,由MyShell AI开发。该工具支持多种语言的文本转语音任务,包括英语(含不同口音)、西班牙语、法语、中文、日语和韩语,并具备快速的语音合成速度。MeloTTS不仅支持中英混合发音,还易于安装和使用,适用于多种操作系统和环境。用户可以在GitHub和Hugging Face平台上获取和体验MeloTTS。