深度学习
EasyControl
EasyControl是基于扩散变换器(DiT)架构的高效控制框架,采用轻量级LoRA模块实现多条件控制,支持图像生成、风格转换、动画制作等任务。其具备位置感知训练范式和因果注意力机制,优化计算效率,提升生成质量与灵活性,适用于多种图像处理场景。
Gemini Robotics
Gemini Robotics 是谷歌 DeepMind 基于 Gemini 2.0 开发的机器人系统,融合视觉-语言-动作模型,支持复杂任务执行与环境适应。具备三维空间理解、物体检测、轨迹预测和开放词汇指令执行能力,适用于工业制造、物流仓储、家庭服务、医疗健康等多个领域。系统通过数据驱动训练,结合真实操作与多模态信息,实现高效、灵活的机器人控制。