深度学习

DeOldify

DeOldify是一款利用深度学习技术的AI工具,可为黑白照片和视频上色并增强其视觉效果。它支持静态图像转动态视频、跨时代人物模拟等功能,适用于家庭相册修复、历史档案管理、教育演示及影视制作等多个场景,帮助用户更生动地记录和分享历史记忆。

Reve Image

Reve Image 是一款基于 AI 的图像生成工具,具备强大的视觉表现力与精准的提示理解能力。支持文生图和图生图模式,适用于广告设计、社交媒体内容创作、艺术创作及产品设计等多种场景。模型在色彩、光影和排版上优化显著,可生成高质量且富有设计感的图像。

libcom

libcom是一款由上海交通大学BCMI实验室开发的图像合成工具箱,支持图像融合、和谐化、阴影生成、对象放置及生成式合成等功能,采用传统图像处理与深度学习技术相结合的方式,提供高质量的合成图像解决方案。适用于增强现实、艺术创作、电子商务、影视制作及游戏开发等多个领域。

TEN VAD

TEN VAD是一款高性能的实时语音活动检测系统,专为企业级应用设计。它基于深度学习技术,能够精确区分语音和非语音信号,具有低延迟、轻量级和高精度的特点。支持多种平台和编程接口,适用于智能助手、客服机器人等场景,帮助构建更高效、更智能的对话系统。

FlashMLA

FlashMLA 是 DeepSeek 开发的开源 MLA 解码内核,针对 NVIDIA Hopper 架构 GPU 优化,提升可变长度序列处理效率。支持 BF16 精度、页式 KV 缓存及分块调度,内存带宽达 3000 GB/s,算力达 580 TFLOPS。适用于大语言模型推理和 NLP 任务,具备高性能与低延迟特性,支持快速部署与性能验证。

World Labs

李飞飞联合创办的空间智能初创企业。World,Labs致力于构建能够感知、生成并与3D世界互动的大型世界模型,将AI模型从2D像素的平面提升到完整的3D世界。

百度智能云一见

百度智能云一见是一款面向视觉领域的大型模型平台,通过先进的深度学习、多模态学习及自动化机器学习技术,降低了模型生产的成本并提高了训练效率。该平台支持端到端效果调优自动化、零代码AI技能编排以及云边协同,广泛应用于工业质检、安全生产监控、餐饮连锁管理和零售分析等领域,助力企业实现智能化转型。

MARS

MARS是一款由字节跳动开发的优化框架,专注于提升大型模型训练效率。它融合了预条件梯度方法与方差减少技术,并通过缩放随机递归动量技术优化梯度估计。MARS支持多种Hessian近似方式,可生成基于AdamW、Lion和Shampoo的优化算法实例。该框架适用于深度神经网络、大规模语言模型、计算机视觉任务及强化学习等领域,能有效加速模型收敛并提高训练稳定性。

Emu3

Emu3是一款由北京智源人工智能研究院开发的原生多模态世界模型,结合了多模态自回归技术和单一Transformer架构,能够在图像、视频和文本之间实现无缝转换。它不仅能够根据文本生成高质量图像,还能预测视频发展并理解图文内容,广泛应用于内容创作、广告营销、教育、娱乐等多个领域。