开源

mPLUG

mPLUG-Owl3是一款由阿里巴巴开发的多模态AI模型,专注于理解和处理多图及长视频内容。该模型具备高推理效率和准确性,采用创新的Hyper Attention模块优化视觉与语言信息的融合。它已在多个基准测试中展现出卓越性能,并且其源代码和资源已公开,可供研究和应用。

SurfSense

SurfSense是一款开源的AI研究工具,具备强大的搜索功能和自然语言交互能力。它支持多种外部数据源集成,如搜索引擎、Slack、Notion等,并允许用户上传多种格式的文件,整合到个人知识库中。SurfSense采用RAG技术,结合语义和全文搜索,提升检索效率和准确性。同时支持本地部署,保障数据隐私,适用于个人知识管理、学术研究、企业协作等多种场景。

Mooncake

Mooncake是一个以KVCache为中心的分布式大模型推理架构,由Kimi联合清华大学等机构开源。它通过分离预填充和解码阶段,有效利用GPU集群的其他资源,显著提升推理吞吐量,降低算力消耗,同时保持低延迟。Mooncake支持长上下文处理、负载均衡及过载管理,适用于多种应用场景,包括自然语言处理、语音识别、搜索引擎优化等,推动大模型技术的高效应用。

极客编辑器

极客编辑器是一款所见即所得富文本沉浸式写作排版编辑器,它注重高效创作,可多开文档编辑,同时支持Markdown语法输入及一键排版。

Muyan

Muyan-TTS是一款面向播客场景的开源文本转语音工具,基于超10万小时播客数据训练,支持零样本语音合成与说话人适配,可在0.33秒内生成1秒音频,适合实时与长内容合成。支持本地部署与API调用,应用于播客、有声书、视频配音、AI角色及新闻播报等领域,兼具高效性与灵活性。

Mobvoi MCP Server

Mobvoi MCP Server是出门问问推出的一站式AI工具,集成语音生成、声音克隆、图片驱动数字人、视频配音等多模态能力。用户可通过简单输入文本调用功能,支持多客户端和多场景应用。基于标准化接口和开源生态,提供高效、灵活的数字生产力解决方案,适用于内容创作、虚拟主播、在线教育等多个领域。

Roop

Roop是一款开源的AI视频换脸工具,支持用户通过一张图片替换视频中的面部,无需复杂的数据集或训练过程。它具有多种功能,包括一键换脸、多参数配置、面部对齐和性能加速。Roop利用生成对抗网络(GANs)生成逼真的面部图像,并能自动检测和对齐视频中的面部。其应用场景广泛,包括娱乐、社交媒体、电影制作、教育和艺术创作等领域。

Blinko

Blinko是一款开源的个人笔记工具,具备AI增强的搜索功能,支持自然语言查询,便于用户快速定位笔记内容。它兼容Markdown,支持标签管理和批量操作,同时确保数据存储在用户自有的服务器中,保障隐私与安全。Blinko适用于个人知识管理、创意写作、项目规划、日常任务管理和学习复习等多个场景。

FaceChain

FaceChain是一个由阿里巴巴达摩院开发的开源AI生成框架,专为创建个人数字形象而设计。用户上传个人照片后,可生成独特且个性化的数字写真。该框架采用先进的机器学习技术,支持多风格写真生成、个性化训练、姿态控制和自定义提示词等功能,满足不同用户的多样化需求。

Dream

Dream-7B是由香港大学与华为诺亚方舟实验室联合开发的开源扩散模型,支持文本、数学和代码生成,具备双向上下文建模能力和灵活的生成控制。其在通用任务、数学推理和编程方面表现优异,适用于文本创作、数学求解、编程辅助及复杂任务规划等多种场景,提供高效且高质量的生成服务。