开源

小半WordPress Ai助手

一个全免费开源WordPress插件,支持AI对话聊天、文章生成、文章总结、文章翻译、生成PPT等功能,此外它还能对接DeepSeek、豆包和通义千问等模型。

OpenUtau

OpenUtau 是一款开源的歌声合成工具,支持 UTAU 音源库和 VSQX 格式,具备音素编辑、颤音控制、多语言界面等功能,适用于音乐创作与虚拟歌手合成。它兼容 Windows、macOS 和 Linux,提供预渲染与实时预览,提升创作效率,适合音乐人、开发者及音频爱好者使用。

OpenScholar

OpenScholar是一款由华盛顿大学与艾伦AI研究所联合研发的检索增强型语言模型,专为科学家设计,能够高效检索并综合海量科学文献信息,生成基于文献的事实性回答。该工具具备强大的跨学科适用性,涵盖计算机科学、生物医学等多个领域,同时支持自我反馈迭代优化,显著提升回答质量和引用可靠性。所有相关资源已完全开源,便于全球学者使用与研究。

Kimina

Kimina-Prover是由月之暗面与Numina团队联合开发的大型数学定理证明模型,采用强化学习技术,在Lean 4语言中实现类人逻辑推理与严谨证明。其“形式化推理模式”结合非形式化推理与代码片段,提升解题效率。在miniF2F基准测试中达到80.7%准确率,显著优于现有模型。具备高样本效率与良好可扩展性,适用于科研、软件测试、算法验证等多个领域。1.5B和7B参数版本已开源。

RealtimeSTT

RealtimeSTT是一款开源的实时语音转文本库,具备高精度语音活动检测、GPU加速的实时转录能力以及语音唤醒功能。支持多语言识别,适用于语音助手、会议记录、实时字幕等场景,提供灵活的音频输入与预处理机制,便于开发者快速集成和扩展。

UNO

UNO是字节跳动推出的AI图像生成框架,支持单主体和多主体图像生成,解决多主体一致性难题。采用扩散变换器和渐进式跨模态对齐技术,结合通用旋转位置嵌入(UnoPE),实现高一致性与可控性。适用于虚拟试穿、产品设计、创意设计等多个领域,具备强大泛化能力,已开源并提供完整技术文档。

飞桨 | AI Studio

飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础,集深度学习核心训练和推理框架、基础模型库、端到端开发套件、丰富的工具组件于一体,是中国首个自主研发、功能丰富、开源开放的产业级深度学习平台。

Skywork R1V

Skywork R1V是昆仑万维推出的首个工业级多模态思维链推理模型,具备强大的视觉链式推理能力,可处理数学问题、科学现象分析、医学影像诊断等复杂任务。其技术基于文本推理能力的多模态迁移与混合式训练方法,在多项基准测试中表现优异。模型开源,适用于教育、医疗、科研、内容审核等多个领域,推动多模态人工智能的发展。

YT Navigator

YT Navigator 是一款基于 AI 的 YouTube 内容检索工具,支持自然语言查询、语义搜索和视频内容交互。用户可快速定位视频片段并获取时间戳,提升信息获取效率。适用于研究、学习、创作和分析等场景,具备频道管理、安全会话等功能。采用向量嵌入与 BM25 算法结合的搜索机制,提高搜索准确率,项目已开源。

Bark

Bark是一款开源的文本到音频转换模型,由Suno AI开发,能够生成逼真的多语言语音及多种音频类型,包括音乐和背景噪音,并支持非语言交流的声音。该模型提供预训练模型,适用于研究和商业用途。其主要功能涵盖文本到音频转换、多语言支持、音频多样性和非语言交流模拟。Bark在多语言内容创作、音频内容生成和非语言交流场景中具有广泛应用。