ORM
Stable Diffusion 3
Stable Diffusion 3 是一款由 Stability AI 开发的先进文本到图像生成模型,通过改进的文本渲染能力、多主题提示支持、可扩展的参数量、图像质量提升及先进的架构技术,实现了高质量和多样性的图像生成。该模型在图像生成和文本理解方面取得了显著进展,并通过 Diffusion Transformer 架构和 Flow Matching 技术提升了模型效率和图像质量。
DanceFusion
DanceFusion是一款由清华大学开发的开源框架,专注于音频驱动的舞蹈动作生成与重建。它采用分层时空Transformer-VAE和扩散模型,能够处理不完整或嘈杂的数据,生成与音乐高度同步的逼真舞蹈动作。该工具支持多种应用场景,包括内容创作、虚拟现实、互动娱乐、舞蹈教育以及动画制作等,展现了其在多领域的应用价值。
ModernBERT
ModernBERT是一种基于Transformer架构的新型编码器-only模型,是对经典BERT模型的深度优化版本。它通过在大规模数据集上的训练,提升了对长上下文的理解能力,并在信息检索、文本分类、实体识别等多个自然语言处理任务中展现出卓越性能。此外,ModernBERT在速度和资源效率方面均有显著改进,适合应用于多个领域。
Mercury Coder
Mercury Coder 是 Inception Labs 推出的扩散型大语言模型,专为代码生成设计。它采用“从粗到细”机制,支持并行生成,每秒可处理超过 1000 个 token,效率显著高于传统模型。具备代码生成、补全、优化、多语言支持及可控生成等功能,适用于开发效率提升、教育辅助、代码优化及低代码平台集成等场景。
WorldDreamer
WorldDreamer 是一种基于 Transformer 的通用世界模型,具备理解与预测物理世界动态变化的能力,专注于视频生成任务。它支持多种应用场景,包括文本到视频、图像到视频、视频编辑和动作序列生成,利用视觉 Token 化、Transformer 架构和多模态提示技术,实现了高效且高质量的视频生成。
天工SkyMusic
天工SkyMusic是由昆仑万维公司推出的一款AI音乐生成模型,它基于昆仑万维的天工3.0超级大模型构建而成。
ProPainter
ProPainter是一款由南洋理工大学S-Lab团队开发的AI视频修复工具,其核心功能包括自动检测并移除视频中的不需要物体、修补缺失或损坏部分以及扩展视频视野。该工具采用了双域传播技术和蒙版引导的稀疏视频Transformer,旨在提供高质量的视频修复解决方案,广泛应用于电影后期制作、历史视频修复、社交媒体内容创作及虚拟现实等领域。
---
