深度学习

Cube 3D

Cube 3D 是 Roblox 推出的 AI 驱动 3D 生成工具,可通过文本描述快速创建高质量 3D 模型和场景。其核心功能包括文本到 3D 模型生成、网格优化、场景布局预测以及开源扩展能力。基于深度学习与原生 3D 数据训练,Cube 3D 提升了 3D 内容创作效率,适用于游戏开发、虚拟环境设计、教育及个性化创作等多种场景。

EasyControl

EasyControl是基于扩散变换器(DiT)架构的高效控制框架,采用轻量级LoRA模块实现多条件控制,支持图像生成、风格转换、动画制作等任务。其具备位置感知训练范式和因果注意力机制,优化计算效率,提升生成质量与灵活性,适用于多种图像处理场景。

TripoSF

TripoSF是由VAST推出的新型3D基础模型,采用SparseFlex表示方法和稀疏体素结构,显著降低内存占用并提升高分辨率建模能力。其“视锥体感知的分区体素训练”策略优化了训练效率,使模型在细节捕捉、拓扑结构支持和实时渲染方面表现突出。实验数据显示,TripoSF在Chamfer Distance和F-score等关键指标上分别降低82%和提升88%。适用于视觉特效、游戏开发、具身智能及产品

Optimus

Optimus-1是一款由哈尔滨工业大学(深圳)和鹏城实验室联合开发的智能体框架,专为开放世界环境中的长期任务设计。它结合结构化知识与多模态经验,通过混合多模态记忆模块(HDKG与AMEP)提升任务规划与执行能力。主要功能包括知识引导规划、经验驱动反思、行动控制及自我进化,已在游戏、虚拟助理、工业自动化等领域得到验证。

MineWorld

MineWorld是由微软研究院开发的基于《我的世界》的实时交互式AI模型,采用视觉-动作自回归Transformer架构,实现高保真、可控性强的场景生成。通过并行解码算法,模型可在每秒4至7帧的速度下实现实时交互,适用于具身智能、强化学习、游戏代理及视频生成等场景。其核心技术包括图像与动作标记器、Transformer解码器以及优化的训练与推理流程。

PGTFormer

PGTFormer是一款先进的视频人脸修复框架,通过解析引导的时间一致性变换器恢复视频中的高保真细节,同时增强时间连贯性。该方法无需预对齐,通过语义解析选择最佳人脸先验,并结合时空Transformer模块和时序保真度调节器,实现了高效且自然的修复效果。其主要功能包括盲视频人脸修复、语义解析引导、时间一致性增强、时空特征提取、端到端修复和时序保真度调节。PGTFormer适用于电影和视频制作、视频

Dubbing AI

DubbingAI 语音生成器作为实时变声器,可以将任何语音转换为优质语音和克隆语音。从游戏玩家到直播主播和内容创作者。每个人都可以使用 Dubbing AI 生成跨年龄、语言和口音的逼真配音。

GPT-SoVITS

一个强大的语音合成工具,特别适合需要快速生成特定人声的场景。它通过先进的技术实现了高质量的语音克隆和文本到语音转换,支持多种语言,并提供了易于使用的WebUI工具。

TripoSR

TripoSR是一款由Stability AI与VAST联合开发的开源3D生成模型,能够在不到0.5秒内从单张2D图像生成高质量的3D模型。基于Transformer架构和大型重建模型(LRM)设计,采用先进的图像编码、三平面NeRF表示及优化训练策略,支持无GPU设备运行。适用于游戏开发、影视制作、建筑设计、产品设计等多个领域,具有高效、高精度和广泛适用性的特点。

URM

URM是由阿里妈妈开发的通用推荐模型,结合大语言模型与电商领域知识,提升推荐效果。其采用多模态融合与Sequence-In-Set-Out生成方式,支持多场景、多目标、长尾及发现性推荐。具备高效率、零样本学习能力,适用于工业级推荐系统,已应用于阿里妈妈展示广告场景,优化用户体验与商家投放效果。