训练

InstantMesh

一个基于单张图片,利用先进的稀疏视图大型重建模型(LRM)架构,快速生成3D网格(Mesh)的工具

MinT

MinT是一款基于时间基位置编码技术的多事件视频生成框架,允许用户通过文本提示生成包含多个事件的连贯视频,并支持对事件顺序及持续时间的精确控制。其核心技术ReRoPE使得模型能够有效关联文本提示与视频帧,同时结合预训练的视频扩散变换器(DiT)和大型语言模型(LLM)的提示增强功能,进一步提升了视频生成的质量与丰富度。MinT适用于娱乐、广告、教育等多个领域,为视频创作带来了创新性的解决方案。

Sync Labs

Sync Labs是一款基于AI技术的视频配音工具,其主要功能是实现实时唇形同步,支持多种语言。该工具无需用户进行额外的训练,通过简单的界面操作即可实现音频与视频的完美匹配。它适用于电影、播客、游戏和广告等多种视频内容制作,同时提供了开放API,方便集成到各类应用和服务中。

V-JEPA

创新的自监督学习模型,它通过预测视频帧的特征表示来学习视频的视觉表示。这种方法不仅能够处理视频内容,还能在图像任务上表现出色,具有广泛的应用潜力。

ChatLearn

ChatLearn是一款由阿里云开发的高效对齐训练框架,支持多种对齐训练方法,包括RLHF、DPO、OnlineDPO和GRPO。它提供灵活的编程接口、资源调度机制和分布式计算支持,适用于自动化对话系统训练及复杂多模型训练场景。用户可以自定义模型执行流程,实现个性化训练策略。

DrivingDojo

DrivingDojo是一个由中国科学院自动化研究所与美团无人车团队合作研发的数据集,包含18,000个视频片段,涵盖全面的驾驶操作、多智能体交互及开放世界驾驶知识。它定义了动作指令跟随(AIF)基准,用于评估世界模型的预测能力,并支持自动驾驶算法开发、世界模型训练、多智能体交互模拟及罕见事件处理等多个应用场景。

生成时代

AIGC 多模态 API 平台,提供 AIGC 图像生成、图像编辑、视频生成、视频编辑、音频生成、训推一体等 API,免去 GPU 和模型维护成本,帮助开发者快速搭建 AIGC 应用。

Skild Brain

Skild Brain 是 Skild AI 推出的具身智能基础模型,具备强大的泛化能力和多场景适应性,可应用于机器人控制、物体操作、环境导航等任务。其基于大规模数据训练,支持多种机器人平台,适用于工业自动化、物流、医疗及家庭服务等领域。

悟道·天鹰(Aquila)

悟道·天鹰(Aquila)是智源研究院开源的中英双语语言大模型,具备强大的语言理解和生成能力。模型在设计上注重商用和数据合规性,同时提供持续的开源更新和技术支持。