零样本 - 智狐AI导航

DreamGen

DreamGen是英伟达推出的机器人学习技术，基于AI视频世界模型生成合成数据，使机器人能在梦境中学习新技能。它通过微调视频世界模型、生成虚拟数据、提取虚拟动作和训练下游策略四步流程，实现机器人在新环境中的行为和环境泛化。DreamGen无需大量真实数据，仅凭文本指令即可完成复杂任务，提升学习效率和泛化能力。其支持多种机器人系统和策略架构，适用于工业生产、家庭服务、医疗护理等多个领域。

AI项目与工具 2025年06月11日 35 点赞 0 评论 896 浏览

Speech

Speech-02 是 MiniMax 推出的先进文本到语音模型，支持零样本语音克隆和高质量语音合成，具备多语言支持和情感控制功能。采用自回归 Transformer 和 Flow-VAE 架构提升语音自然度和相似度，适用于配音、有声读物、智能助手等多种场景。提供 HD 和 Turbo 两个版本，满足不同性能需求。

AI项目与工具 2025年06月11日 33 点赞 0 评论 524 浏览

MCA

MCA-Ctrl是由中科院计算所与国科大联合开发的图像定制生成框架，通过引入SAGI和SALQ注意力控制策略及主体定位模块，提升图像生成质量与一致性。支持零样本图像生成，适用于主体特征保持、背景一致性维护等多种任务，广泛应用于数字内容创作、广告设计、艺术创作等领域。

AI项目与工具 2025年06月11日 82 点赞 0 评论 516 浏览

ZeroSearch

ZeroSearch 是阿里巴巴通义实验室开发的基于大模型的搜索引擎框架，通过强化学习技术提升搜索能力，无需依赖真实搜索引擎。它能动态生成相关或噪声文档，显著降低训练成本（超80%），并支持多种模型和算法，适用于问答、内容创作、教育等多个场景。

AI项目与工具 2025年06月11日 90 点赞 0 评论 918 浏览

URM

URM是由阿里妈妈开发的通用推荐模型，结合大语言模型与电商领域知识，提升推荐效果。其采用多模态融合与Sequence-In-Set-Out生成方式，支持多场景、多目标、长尾及发现性推荐。具备高效率、零样本学习能力，适用于工业级推荐系统，已应用于阿里妈妈展示广告场景，优化用户体验与商家投放效果。

AI项目与工具 2025年06月11日 85 点赞 0 评论 852 浏览

Concept Lancet

Concept Lancet（CoLan）是一种基于潜在空间稀疏分解的图像编辑框架，能够实现零样本、即插即用的精确概念替换、添加与移除。它通过构建视觉概念字典，结合扩散模型生成高质量图像，保持视觉一致性。适用于创意设计、影视制作、游戏开发等多个领域，提供高效的图像编辑解决方案。

AI项目与工具 2025年06月11日 28 点赞 0 评论 837 浏览

Hummingbird

Hummingbird-0 是一款基于深度学习的 AI 口型同步工具，支持零样本学习，无需额外训练即可快速生成高质量口型同步视频。它兼容多种格式，支持最长 5 分钟视频处理，1 分钟内生成 10 秒视频，适用于影视制作、广告、本地化翻译及 AI 内容创作等场景。通过多模态融合技术，实现音频与视频的精准匹配，提升内容表现力。

AI项目与工具 2025年06月11日 42 点赞 0 评论 792 浏览

Aether

Aether是由上海AI Lab开发的生成式世界模型，基于合成数据训练，具备4D动态重建、动作条件视频预测和目标导向视觉规划等核心功能。它通过三维时空建模和多任务协同优化，实现对环境的精准感知与智能决策，具有出色的零样本泛化能力，适用于机器人导航、自动驾驶、虚拟现实等多个领域。

AI项目与工具 2025年06月11日 25 点赞 0 评论 823 浏览

Lipsync

Lipsync-2 是 Sync Labs 推出的全球首个零样本嘴型同步模型，无需预训练即可快速生成符合说话者风格的嘴型动作。支持多语言、个性化表达和温度参数调节，具备高精度、高真实感和高效处理能力，广泛应用于视频翻译、动画制作、多语言教育及 AI 内容生成等领域。

AI项目与工具 2025年06月12日 85 点赞 0 评论 661 浏览

MegaTTS 3

MegaTTS 3是由字节跳动与浙江大学合作开发的零样本文本到语音合成系统，采用轻量级扩散模型，支持中英文及混合语音合成，具备语音克隆、音色控制、韵律调节等功能。系统通过分解语音属性实现精准建模，可快速生成高质量语音，适用于教育、内容制作、语音交互等多个领域。

AI项目与工具 2025年06月12日 29 点赞 0 评论 709 浏览

零样本

首页

零样本

列表

默认

浏览次数

发布日期