视频

DynamicFace

DynamicFace是由小红书团队开发的视频换脸技术,结合扩散模型与时间注意力机制,基于3D面部先验知识实现高质量、一致性的换脸效果。通过四种精细的面部条件分解和身份注入模块,确保换脸后的人脸在不同表情和姿态下保持一致性。该技术适用于视频与图像换脸,广泛应用于影视制作、虚拟现实、社交媒体等内容创作领域,具备高分辨率生成能力和良好的时间连贯性。

闪剪

一款AI智能视频剪辑工具,数字人短视频创作平台。提供SAAS级企业应用的数字产品,并打造了APP和网页两种产品形态。

ViVa AI

Sora同架构视频生成模型,支持文本生成视频、图片生成视频以及 4K 分辨率放大功能,另外也支持提示词的自动优化。

Ovis2

Ovis2是阿里巴巴国际团队开发的多模态大语言模型,采用结构化嵌入对齐技术提升视觉与文本的融合效果。支持视频、图像和多语言处理,强化了思维链推理和复杂场景下的OCR能力。提供多个参数规模的版本,适用于研究、开发及各类应用场景,展现卓越性能。

FlagevalMM

FlagEvalMM是一个由北京智源人工智能研究院开发的开源多模态模型评测框架,专注于评估处理文本、图像、视频等多模态任务的模型性能。它支持多种任务和指标,采用解耦评测与推理的设计,提供统一的评测流程,集成丰富模型库并兼容多种后端引擎。该工具适用于学术研究、工业应用、模型开发、教育领域及内容创作等多个场景。

Deepfakes Creator

Deepfakes Creator,可以通过文本输入生成逼真的会说话的真人视频。用户只需要上传想要化身模仿的人的照片,并写一个剧本,工具就能创建出逼真的人物化身视频,模拟人物说话。

Infinity AI

Infinity AI是一款基于深度学习技术的人工智能工具,可将输入的剧本或对话内容转化为高质量视频。其核心功能包括生成式视频模型、数字人克隆技术和视频定制服务。用户可通过简单的操作实现一键视频生成,并利用AI克隆体制作个性化视频内容。这款工具广泛应用于教育、娱乐、新闻传媒、企业培训等场景,显著提升内容创作效率。

Tarsier2

Tarsier2是字节跳动研发的大规模视觉语言模型,擅长生成高精度视频描述并在多项视频理解任务中表现优异。其核心技术包括大规模数据预训练、细粒度时间对齐微调以及直接偏好优化(DPO)。该模型在视频问答、定位、幻觉检测及具身问答等任务中均取得领先成绩,支持多语言处理,具有广泛的应用潜力。

Pikadditions

Pikadditions是Pika推出的一项AI视频编辑工具,支持将图片无缝融入视频中,生成自然且引人入胜的效果。用户只需上传视频和图片,并输入简短提示,即可完成合成。功能操作简便,适用于创意视频制作、教育、影视、个人娱乐及企业宣传等多个领域,有效降低视频制作门槛和成本。

ShotAdapter

ShotAdapter是一款由Adobe与UIUC联合开发的文本到多镜头视频生成框架,通过过渡标记和局部注意力掩码策略,实现角色身份一致性和镜头内容精准控制。支持用户通过文本提示调节镜头数量、时长和背景,适用于影视、广告、教育、游戏等领域,具备高效、灵活和可扩展的技术特点。