视频处理

VideoRefer

VideoRefer是由浙江大学与阿里达摩院联合开发的视频对象感知与推理系统,基于增强型视频大型语言模型,实现对视频中对象的细粒度理解与分析。其核心包括大规模视频数据集、多功能空间-时间编码器和全面评估基准,支持对象识别、关系分析、推理预测及多模态交互等功能,适用于视频剪辑、教育、安防、机器人控制和电商等多个领域。

cre8tiveAI

Cre8tiveAI 是一款基于深度学习的人工智能平台,提供一系列创新工具,用于图像和视频的编辑与优化。其主要功能包括提高分辨率、优化人脸、生成个性化插图、人像裁剪、静态图像转动态视频等。适用于社交媒体内容创作、电子商务、广告营销、设计插画等多个领域,支持从个人用户到团队协作的不同需求。

FaceFancy

FaceFancy是一款集成AI换脸、图像编辑与创意生成功能的应用,支持照片和视频换脸、多种风格头像生成、年龄与性别变换、旧照修复及特效滤镜等功能,适用于创意娱乐、个人形象设计及社交分享等场景,提升用户创作体验。

Apollo

Apollo是一个由Meta和斯坦福大学合作研发的大型多模态模型,专注于视频内容的理解。其核心特性包括“Scaling Consistency”现象的应用、高效的视频理解评估基准ApolloBench、以及在处理长视频方面的卓越性能。Apollo模型家族涵盖多种规模,广泛应用于视频内容分析、搜索推荐、智能监控、自动驾驶及教育等领域。

BiliNote

BiliNote 是一款开源 AI 视频笔记工具,支持从多个平台导入视频链接并生成结构化的 Markdown 笔记。具备音频转写、大模型总结、截图插入、内容跳转链接等功能,适用于学习、创作、培训等场景。采用 FastAPI 和 React 技术栈,支持 Docker 部署,便于用户快速集成与使用。

Vace AI

Vace AI 是一款集成视频生成与编辑功能的 AI 工具,支持文本到视频、参考图像生成视频等功能,并提供风格转换、主体移除、画面扩展等编辑选项。基于先进模型技术,可精准保留关键视觉元素,生成高质量视频,适用于短视频制作、创意内容生成及广告设计等多种场景。

APISR

一个专注于动漫图像超分辨率的项目,旨在恢复和增强来自现实世界场景的低质量、低分辨率动漫图像和视频源。

ViLAMP

ViLAMP是由蚂蚁集团与中国人民大学联合开发的视觉语言模型,专为高效处理长视频设计。采用混合精度策略,支持在单张A100 GPU上处理长达3小时的视频,提升处理效率并降低计算成本。具备长视频理解、关键信息提取、多任务处理等功能,适用于教育、监控、直播、影视制作及智能客服等场景。技术上通过差分关键帧选择与特征合并优化性能,实现精准且高效的视频分析。

Linly

一款开源的多语言AI配音和视频翻译工具。Linly-Dubbing可以自动将视频翻译成其他语言并生成字幕、克隆视频中说话者的声音并自动配音、进行口型同步。