视频

视界一粟YiSu

北京极佳视界科技有限公司联合清华大学自动化系共同发布的Sora级视频生成大模型。

WorldSense

WorldSense是由小红书与上海交通大学联合开发的多模态基准测试工具,用于评估大型语言模型在现实场景中对视频、音频和文本的综合理解能力。该平台包含1662个同步视频、3172个问答对,覆盖8大领域及26类认知任务,强调音频与视频信息的紧密耦合。所有数据经专家标注并多重验证,确保准确性。适用于自动驾驶、智能教育、监控、客服及内容创作等多个领域,推动AI模型在多模态场景下的性能提升。

Video

Video-LLaVA2是一款由北京大学ChatLaw课题组开发的开源多模态智能理解系统。该系统通过时空卷积(STC)连接器和音频分支,显著提升了视频和音频的理解能力。其主要功能包括视频理解、音频理解、多模态交互、视频问答和视频字幕生成。时空建模和双分支框架是其核心技术原理。Video-LLaVA2广泛应用于视频内容分析、视频字幕生成、视频问答系统、视频搜索和检索、视频监控分析及自动驾驶等领域。

WUI.Ai

一款将可以将长视频转成适合社交媒体平台的短视频片段的视频编辑工具。WUI.ai提供自动识别视频中的亮点、添加字幕、优化内容格式等功能

拍我AI

拍我AI是爱诗科技推出的PixVerse国内版,是一款强大的AI视频生成平台。用户可通过文本提示或上传图片快速生成高质量动态视频,支持V4.5版本,提升视频质量与动画流畅度。平台提供多种特效模板和风格选择,支持文生视频、图生视频、首尾帧功能等,适用于社交媒体内容创作、电商营销、视频制作及企业应用。同时,开放API接口,助力企业高效生成营销视频和电商素材,降低传统视频制作成本和时间。

Video Diffusion Models

Video Diffusion Models项目展示了扩散模型在视频生成领域的潜力,通过创新的梯度条件方法和自回归扩展技术,生成了具有高度时间连贯性和质量的视频样本。

媒小三

媒小三 ,实用的新媒体工具大全,提供各种实用新媒体工具,如:AI配音,视频解析,短视频下载,文案提取,文章改写,标题生成等功能,帮助新媒体人一站式快捷操作。

AutomateClips

AutomateClips是一款人工智能视频生成器,专为社交媒体平台如TikTok、Instagram和YouTube设计,以自动化创建吸引人的视频内容。

RecCloud

一个人工智能驱动的多媒体服务平台,RecCloud专门为视频和音频处理提供一套全面的工具。

StableV2V

StableV2V是一款基于文本、草图和图片输入的开源视频编辑工具,利用Prompted First-frame Editor(PFE)、Iterative Shape Aligner(ISA)和Conditional Image-to-video Generator(CIG)三大模块,实现视频中物体的精准编辑与替换,同时保持编辑内容与原始视频在动作和深度信息上的高度一致性,适用于电影制作、教育、