视频

VideoChat

VideoChat是一款开源的实时数字人对话系统,支持语音输入与实时对话功能。用户可自定义数字人形象与音色,实现音色克隆。系统集成多种技术,包括语音识别、大语言模型生成及文本转语音,支持流式视频输出,适用于客户服务、在线教育、新闻播报、直播互动及娱乐等多个领域。

TemPolor

一款人工智能音乐生成器,TemPolor可以将您的文本转化为个性化音乐,创造属于您自己的音乐交响曲。用户使用文字、敲击或哼唱来提供旋律灵感,然后帮助将其生成一首歌。

InternVideo2.5

InternVideo2.5是一款由上海人工智能实验室联合多机构开发的视频多模态大模型,具备超长视频处理能力和细粒度时空感知。它支持目标跟踪、分割、视频问答等专业视觉任务,适用于视频检索、编辑、监控及自动驾驶等多个领域。模型通过多阶段训练和高效分布式系统实现高性能与低成本。

TransPixar

TransPixar是由多所高校及研究机构联合开发的开源文本到视频生成工具,基于扩散变换器(DiT)架构,支持生成包含透明度信息的RGBA视频。该技术通过alpha通道生成、LoRA微调和注意力机制优化,实现高质量、多样化的视频内容生成。适用于影视特效、广告制作、教育演示及虚拟现实等多个领域,为视觉内容创作提供高效解决方案。

Animode

Animode是一款利用3D技术和人工智能实现视频动漫化的创作工具,支持从图片或视频素材生成高质量的二次元风格内容。其核心功能包括动作捕捉、场景多样化选择、实时渲染优化及后期编辑支持,广泛应用于专业视频制作、自媒体创作、教育培训等领域,特别适合需要高效且高质量视觉呈现的场景。

抖商眼

【视频带货】领先的视频数据开放平台,为内容创作者在创作运营方面提供数据支持。

Motion Dreamer

Motion Dreamer是由香港科技大学(广州)研发的视频生成框架,采用两阶段架构生成物理合理的视频内容。通过引入“实例流”实现从稀疏到密集的运动控制,支持用户以少量提示生成时间连贯的视频。其随机掩码训练策略增强了模型的推理能力与泛化性能,已在多个数据集上验证其优越性。适用于视频创作、动画制作、VR/AR及自动驾驶等多个领域。

gling

Gling是一款集成了先进AI技术的视频编辑工具,主要功能涵盖自动去除不良拍摄片段、消除沉默及填充词、生成AI字幕、自动缩放画面、降低背景噪音等。它还能够为视频生成优化标题与章节,适用于个人视频博主、播客制作人、在线教育者及企业培训等多个领域,助力提升视频质量和效率。

sCM

sCM是一种由OpenAI开发的基于扩散模型的连续时间一致性模型,通过简化理论框架与优化采样流程,实现了图像生成速度的大幅提升。该模型仅需两步采样即可生成高质量图像,且速度比传统扩散模型快50倍。得益于连续时间框架和多项技术改进,sCM不仅提高了训练稳定性,还提升了生成质量。其应用场景广泛,包括视频生成、3D建模、音频处理及跨媒介内容创作,适用于艺术设计、游戏开发、影视制作等多个行业。