学习 - 智狐AI导航

Stable Video 3D (SV3D)

Stable Video 3D（SV3D）是一款由Stability AI公司开发的多视角合成和3D生成模型，能够从单张图片生成一致的多视角图像，并进一步优化生成高质量的3D网格模型。该模型在视频扩散模型基础上进行改进，提供更好的质量和多视角体验。主要功能包括多视角视频生成、3D网格创建、轨道视频生成、相机路径控制以及新视角合成。SV3D在新视角合成方面取得显著进展，能够生成逼真且一致的视图，提升

AI项目与工具 2024年01月01日 39 点赞 0 评论 487 浏览

SUPIR

SUPIR是一种创新的图像修复和画质增强方法，基于大规模生成模型StableDiffusion-XL（SDXL）和模型扩展技术。它通过深度学习和多模态方法实现低质量图像的高质量恢复，支持通过文本提示进行图像恢复的精细控制。SUPIR适用于多种应用场景，如老照片修复、模糊图像增强、噪点去除和色彩校正与增强。

AI项目与工具 2024年01月01日 88 点赞 0 评论 627 浏览

VoiceCraft

VoiceCraft是一款开源的神经编解码器语言模型，专攻零样本语音编辑和文本到语音（TTS）任务。它采用Transformer架构，通过token重排过程结合因果掩蔽和延迟叠加技术，实现在现有音频序列内高效生成自然的语音。VoiceCraft在多种口音、风格和噪声条件下表现出色，适用于有声读物制作、视频内容创作、播客音频编辑及多语言内容生产等场景。

AI项目与工具 2024年01月01日 31 点赞 0 评论 641 浏览

Champ

Champ是由阿里巴巴、复旦大学和南京大学的研究人员共同开发的一款基于3D的AI工具，能够将人物图片转换为高质量的视频动画。Champ通过结合3D参数化模型和潜在扩散模型，精准捕捉和再现人体的3D形态和动态，保证动画的连贯性和视觉逼真度。此外，Champ还支持跨身份动画生成，并能与文本生成图像模型结合，使用户可以根据文本描述生成特定的角色外观和动作。

AI项目与工具 2024年01月01日 81 点赞 0 评论 698 浏览

Llama 3

Llama 3是Meta公司开发的一款最新大型语言模型，提供了8B和70B两种参数规模的模型。它通过增加参数规模、扩大训练数据集、优化模型架构和增强安全性等功能，显著提升了自然语言处理能力，适用于编程、问题解决、翻译和对话生成等多种应用场景。Llama 3在多个基准测试中表现出色，并且通过指令微调进一步增强了特定任务的表现。

AI项目与工具 2025年06月12日 40 点赞 0 评论 564 浏览

Hyper

Hyper-SD是由字节跳动研究人员开发的高效图像合成框架，通过轨迹分割一致性蒸馏（TSCD）、人类反馈学习（ReFL）和分数蒸馏等技术，显著降低了扩散模型在多步推理过程中的计算成本。该框架在保持高图像质量的同时，大幅减少了推理步骤，实现了快速生成高分辨率图像，推动了生成式AI技术的发展。

AI项目与工具 2025年06月12日 73 点赞 0 评论 432 浏览

Stable Artisan

Stable Artisan是一款基于Discord平台的图像和视频生成机器人服务，利用Stability AI的AI技术和模型，如Stable Diffusion 3和Stable Video Diffusion，使用户能够通过自然语言提示生成高质量的图像和视频。此外，它还提供了一系列图像编辑工具，包括搜索替换、背景去除、高清放大、扩展外延、控制素描和结构等功能，适用于创意人士、设计师、内容创作

AI项目与工具 2024年01月01日 46 点赞 0 评论 532 浏览

AniTalker

AniTalker是一款先进的AI工具，能将单张静态人像与音频同步转化为生动的动画对话视频。它通过自监督学习捕捉面部动态，采用通用运动表示和身份解耦技术减少对标记数据的依赖，同时结合扩散模型和方差适配器生成多样且可控的面部动画。AniTalker支持视频驱动和语音驱动两种方式，并具备实时控制动画生成的能力。

AI项目与工具 2025年06月12日 62 点赞 0 评论 764 浏览

Veo

Veo是Google DeepMind开发的一款视频生成模型，用户可以通过文本、图像或视频提示来指导其生成所需的视频内容。Veo具备深入的自然语言理解能力，能够准确解析用户的文本提示，生成高质量、高分辨率的视频。其主要功能包括高分辨率视频输出、自然语言处理、风格适应性、创意控制与定制、遮罩编辑功能、参考图像与风格应用、视频片段的剪辑与扩展以及视觉连贯性。Veo技术目前仍处于实验阶段，但已在电影制作

AI项目与工具 2024年01月01日 34 点赞 0 评论 556 浏览

MOFA

MOFA-Video是由腾讯AI实验室和东京大学研究人员开发的开源图像生成视频模型。该工具通过生成运动场适配器对图像进行动画处理，能够通过稀疏控制信号（如手动轨迹、面部关键点序列或音频）实现对视频生成过程中动作的精准控制。MOFA-Video支持零样本学习，能够将多种控制信号组合使用，生成复杂的动画效果，并能生成较长的视频片段。 ---

AI项目与工具 2025年06月12日 22 点赞 0 评论 516 浏览

学习

首页

学习

列表

默认

浏览次数

发布日期