深度学习

Genmoai

Genmoai-smol 是一款专为单 GPU 设备设计的开源视频生成模型,能够将文本描述转化为高质量视频内容。其核心优势在于高保真度运动表现、强大的文本提示遵循能力及显存优化技术,支持用户在资源受限条件下开展视频创作。该工具提供了 Gradio UI 和命令行界面两种操作方式,并广泛应用于视频内容创作、超现实效果视频制作和技术研究等领域。

Mogao

Mogao是由字节跳动开发的多模态生成基础模型,结合双视觉编码器和先进位置嵌入技术,实现高质量的图像与文本生成。支持零样本图像编辑、多模态理解与生成、高分辨率图像输出以及优化的中文文本渲染。适用于内容创作、智能交互、医疗影像分析等多个领域,具备强大的跨模态处理能力和生成稳定性。

Ev

Ev-DeblurVSR是一款由多所高校联合开发的视频增强模型,利用事件相机数据提升视频去模糊和超分辨率效果。通过互惠特征去模糊模块和混合可变形对齐模块,实现高精度视频恢复。适用于监控、体育、自动驾驶等多个领域,支持快速部署与研究。

DeepWiki

DeepWiki是一款由Devin团队开发的AI代码阅读助手,基于自然语言处理技术,帮助用户理解GitHub代码库并提供详细的文档级解答。支持深度研究、交互式图表生成、私有仓库文档创建等功能,适用于开源项目学习、代码审查、团队协作及教育培训等场景。目前已索引超3万仓库,处理超40亿行代码,对开源项目免费开放。

析易

析易是一款面向科研人员的智能平台,提供0代码数据分析、AI论文写作、文献解析、数据清洗与建模等功能,助力科研工作高效开展。平台涵盖医学、工学等多领域支持,适合高校和医院研究人员使用,简化科研流程,提升成果产出质量。

Ingredients

Ingredients是一款基于多身份图像与视频扩散Transformer的视频生成框架,支持多身份特征的高效整合与动态分配。其核心模块包括面部提取器、多尺度投影器和ID路由器,能够保持身份一致性并生成高质量视频内容。无需额外训练即可实现个性化视频制作,适用于娱乐、广告、教育等多个领域。

Voice

Voice-Pro是一款开源的多功能音频处理工具,集成了语音转文字、文本转语音、实时翻译、YouTube视频下载和人声分离等功能,支持超过100种语言,广泛应用于教育、娱乐和商业领域,显著提升音频处理效率和便捷性。

百度智能云一见

百度智能云一见是一款面向视觉领域的大型模型平台,通过先进的深度学习、多模态学习及自动化机器学习技术,降低了模型生产的成本并提高了训练效率。该平台支持端到端效果调优自动化、零代码AI技能编排以及云边协同,广泛应用于工业质检、安全生产监控、餐饮连锁管理和零售分析等领域,助力企业实现智能化转型。

Reverb ASR

Reverb ASR是一款基于深度学习的开源自动语音识别与说话人分离工具,采用20万小时高质量英语语音数据训练,具备高精度语音转录能力,支持逐字稿控制及多种解码模式。其显著特点是擅长处理长时间语音内容,并在长篇幅识别任务中超越其他开源模型。Reverb ASR适用于播客、会议记录、法庭记录等多个应用场景,为用户提供灵活且高效的语音转文字解决方案。