开源

LobeChat

LobeChat 是一款开源的 AI 聊天框架,支持多供应商集成,提供知识库管理、多模态交互(视觉识别和文本转语音)、插件扩展等功能。用户可通过一键部署创建私有 AI 聊天服务,并支持文件上传与管理。其应用场景广泛,包括客户服务、个人助理、教育、企业沟通、内容创作和语言学习等领域。

MCP Course

MCP Course是Hugging Face推出的免费开源课程,专注于教授如何利用模型上下文协议(MCP)构建具有上下文感知能力的AI应用。课程涵盖理论学习、实践操作、用例训练和行业合作等内容,适合不同层次的开发者。学员可获得认证,提升在AI系统集成方面的专业能力。课程内容结构清晰,注重实际应用,助力开发者掌握MCP技术并应用于真实场景。

LLaVA

LLaVA-OneVision是字节跳动开发的开源多模态AI模型,主要功能包括多模态理解、任务迁移、跨场景能力、开源贡献及高性能。该模型采用多模态架构,集成了视觉和语言信息,通过Siglip视觉编码器和Qwen-2语言模型,实现高效特征映射和任务迁移学习。广泛应用于图像和视频分析、内容创作辅助、聊天机器人、教育和培训以及安全监控等领域。

DUIX

硅基智能打造的AI数字人智能交互平台。通过将数字人交互能力开源,开发者可自行接入多方大模型、语音识别(ASR)、语音合成(TTS)能力,实现数字人实时交互。

OpenMemory MCP

OpenMemory MCP 是一款基于开放模型上下文协议(MCP)的开源工具,支持 AI 工具间共享上下文信息,提升交互效率。具备本地化存储、统一管理界面、标准化 API 及多平台兼容性,适用于软件开发、项目管理等场景。数据全程本地处理,确保隐私与安全,采用 Docker 部署并结合零知识证明技术增强安全性。</p>

Multiverse

Multiverse是由Enigma Labs开发的全球首个基于AI生成的多人游戏模型,支持实时交互与动态世界生成,确保玩家视角一致。其核心技术包括联合动作向量和双视角通道堆叠,有效解决多人游戏中的同步难题。模型训练成本低,可在普通PC上运行,且项目全面开源,适用于多人游戏开发、VR/AR、AI训练、教育等多个领域。

VoiceCanvas

VoiceCanvas 是一款开源的多语言语音合成平台,基于 AI 技术提供高质量文字转语音服务,支持超过 50 种语言。用户可通过上传简短音频实现个性化声音克隆,并集成多种语音服务以保障输出质量。平台适用于内容创作、教育、企业及个人等多种场景,提升语音内容制作效率。

OpenEMMA

OpenEMMA是一个开源的端到端自动驾驶多模态模型框架,基于预训练的多模态大型语言模型(MLLMs),能够处理视觉数据和复杂驾驶场景的推理任务。它通过链式思维推理机制提升轨迹规划和感知任务性能,并集成了优化的YOLO模型以提高3D边界框预测的准确性。此外,OpenEMMA支持人类可读的输出,适用于多种驾驶环境,包括城市道路、高速公路、夜间及复杂天气条件下的驾驶。

Satori

Satori是一款由MIT和哈佛大学等机构联合开发的7B参数大语言模型,专注于提升推理能力。其采用COAT机制和两阶段训练框架,结合强化学习优化模型性能,具备自回归搜索、数学推理、跨领域任务处理以及自我纠错等核心能力。Satori在数学和逻辑推理任务中表现突出,广泛应用于科研、教育、智能客服等多个领域,代码、数据和模型均已开源。

clone

Clone-Voice是一款基于深度学习的声音克隆工具,支持16种语言的文本转语音及声音风格转换,具有友好的操作界面和较低的硬件要求。它被广泛应用于视频制作、语言学习、有声出版物创作、广告宣传及游戏开发等领域,为用户提供多样化的个性化声音解决方案。