训练

GameFactory

GameFactory 是由香港大学与快手科技联合研发的AI框架,专注于解决游戏视频生成中的场景泛化问题。它基于预训练视频扩散模型,结合开放域数据与高质量游戏数据,通过多阶段训练实现动作可控的多样化场景生成。具备高精度动作控制、交互式视频生成及丰富场景支持,适用于游戏开发、自动驾驶模拟及具身智能研究等领域。

Aero

Aero-1-Audio 是一款基于 Qwen-2.5-1.5B 的轻量级音频模型,拥有 1.5 亿参数,专注于长音频处理,支持连续 15 分钟音频输入并保持上下文连贯性。在语音识别、复杂音频分析及指令驱动任务中表现出色,具备高效的训练方法和多任务处理能力,适用于语音助手、实时转写、归档理解等场景。

Matryoshka Diffusion Models

Matryoshka Diffusion Models (MDM) 是一种由苹果公司开发的创新扩散模型,专为生成高分辨率图像和视频而设计。通过多尺度扩散机制与NestedUNet架构,MDM实现了高效的信息共享与渐进式训练,显著提升了模型的训练效率与生成质量。该模型适用于资源受限的环境,可减少训练步骤并保持生成图像的细节与清晰度。其主要功能包括高分辨率图像生成、多分辨率处理、特征共享以及渐进式训练

wcplusPro

wcplusPro 是一款支持多平台的微信公众号数据采集与分析工具,可采集文章、阅读数据等信息,并支持百万级数据管理与快速检索。提供多种数据导出格式,适用于 AI 训练、内容分析、市场研究等场景。具备数据报告、全文搜索、任务管理等功能,满足不同用户的多样化需求。

SwiftBrush V2

SwiftBrush V2 是一款基于文本到图像的单步扩散模型,通过改进权重初始化、LoRA训练及夹紧CLIP损失等技术,实现了与多步Stable Diffusion模型相媲美的性能。它无需真实图像数据即可训练,显著提升了生成速度和图像质量,广泛应用于艺术创作、游戏开发、虚拟现实等领域。

DreamOmni

DreamOmni是一款由香港中文大学、字节跳动与香港科技大学联合研发的统一图像生成与编辑模型。它集成了文本到图像生成(T2I)及多种编辑功能,包括指令式编辑、修复、拖拽编辑和参考图像生成。DreamOmni利用合成数据管道高效生成高质量编辑数据,并通过联合训练提升图像生成与编辑质量。该模型在多任务处理、复杂提示兼容性及训练效率优化上表现优异,适用于数字艺术、影视特效、广告设计等多个领域。

商汤日日新大模型

商汤日日新大模型体现了商汤科技在人工智能领域的深入研究和创新能力。通过结合大模型和大算力,商汤科技致力于提供全面的AI解决方案,推动通用人工智能技术的发展,并在多个应用...

Qwen3 Reranker

Qwen3 Reranker是阿里巴巴通义千问团队推出的文本重排序模型,属于Qwen3模型家族。它采用单塔交叉编码器架构,能够对文本对进行相关性评估并输出得分,支持超过100种语言。通过多阶段训练范式和高质量数据训练,模型在MTEB排行榜上表现优异。Qwen3 Reranker可用于语义检索、文本分类、情感分析和代码搜索等场景,提升信息检索效率和准确性。