开源

BlinkShot

BlinkShot 是一款基于 AI 的实时图像生成工具,支持用户通过输入描述性提示快速生成高质量图像。它采用 Together AI 的 Flux Schnell 技术,提供自定义分辨率和生成步骤功能,适合艺术创作、设计、游戏开发、广告营销等多个领域。工具基于开源技术开发,具备良好的可扩展性和可观察性。

Reverb ASR

Reverb ASR是一款基于深度学习的开源自动语音识别与说话人分离工具,采用20万小时高质量英语语音数据训练,具备高精度语音转录能力,支持逐字稿控制及多种解码模式。其显著特点是擅长处理长时间语音内容,并在长篇幅识别任务中超越其他开源模型。Reverb ASR适用于播客、会议记录、法庭记录等多个应用场景,为用户提供灵活且高效的语音转文字解决方案。

谛韵DiffRhythm

DiffRhythm(谛韵)是一款由西北工业大学与香港中文大学(深圳)联合开发的端到端音乐生成工具,基于潜扩散模型技术,能在10秒内生成包含人声和伴奏的完整歌曲。用户只需提供歌词和风格提示,即可快速获得高质量音乐作品。其支持多语言输入,具备歌词对齐、风格定制、非自回归生成等技术优势,广泛应用于音乐创作、影视配乐、教育及个人创作等领域。

CodeGeeX

CodeGeeX是一款基于大模型的全能的智能编程助手。它可以实现代码的生成与补全、自动添加注释、代码翻译以及智能问答等功能,能够帮助开发者显著提高工作效率。

EmotiVoice

EmotiVoice是网易有道推出的开源文本到语音系统,支持中英文及2000+音色,能根据提示生成带情感的语音。具备情感合成、语音克隆、多语言支持等功能,提供Web界面和API接口,适用于有声读物、智能助手、教育、客服等场景,技术上支持高效部署与模型微调。

VLM

VLM-R1 是由 Om AI Lab 开发的视觉语言模型,基于 Qwen2.5-VL 架构,结合强化学习优化技术,具备精准的指代表达理解和多模态处理能力。该模型适用于复杂场景下的视觉分析,支持自然语言指令定位图像目标,并在跨域数据中表现出良好的泛化能力。其应用场景涵盖智能交互、无障碍辅助、自动驾驶、医疗影像分析等多个领域。

量子位

量子位,一家专注于人工智能与前沿科技领域的产业服务平台,追踪人工智能新趋势,报道科技行业新突破。

DeepWiki

DeepWiki是一款由Devin团队开发的AI代码阅读助手,基于自然语言处理技术,帮助用户理解GitHub代码库并提供详细的文档级解答。支持深度研究、交互式图表生成、私有仓库文档创建等功能,适用于开源项目学习、代码审查、团队协作及教育培训等场景。目前已索引超3万仓库,处理超40亿行代码,对开源项目免费开放。

EasyVideoTrans

EasyVideoTrans是一款开源的AI视频翻译工具,支持从视频中提取音频并翻译字幕,同时提供多样化的声音风格以实现自然的配音效果。它适用于视频创作者、教育机构、企业培训及品牌宣传等领域,能够快速生成高质量的中文版本视频,满足跨语言沟通的需求。