视频处理 - 智狐AI导航

卡卡字幕助手 | VideoCaptioner

一款基于 LLM 的智能字幕助手，无需GPU一键高质量字幕视频合成！支持生成、断句、优化、翻译全流程。卡卡字幕助手让视频字幕制作简单高效！优化、翻译，字幕视频全流程一键处理！

Ai开源项目 2025年06月05日 64 点赞 0 评论 543 浏览

TimeSuite是一种由上海AI Lab开发的框架，专注于提升多模态大型语言模型在长视频理解任务中的表现。它通过引入高效的长视频处理框架、高质量的视频数据集TimePro和Temporal Grounded Caption任务，提升了模型对视频内容的时间感知能力，减少了幻觉风险，并显著提高了长视频问答和时间定位任务的性能。其核心技术包括视频令牌压缩、时间自适应位置编码、U-Net结构及多样化任务

AI项目与工具 2025年06月12日 78 点赞 0 评论 539 浏览

LongVILA

LongVILA是一款专为长视频理解设计的视觉语言AI模型，由多家知名研究机构共同开发。它具备强大的长上下文处理能力和多模态序列并行性，能在大量GPU上高效训练，无需梯度检查点。LongVILA通过五阶段训练流程，结合大规模数据集构建和高性能推理，显著提升了长视频字幕的准确性和处理效率。此外，它还支持多种应用场景，包括视频字幕生成、内容分析、视频问答系统等。

AI项目与工具 2025年06月12日 52 点赞 0 评论 537 浏览

DynamicFace

DynamicFace是由小红书团队开发的视频换脸技术，结合扩散模型与时间注意力机制，基于3D面部先验知识实现高质量、一致性的换脸效果。通过四种精细的面部条件分解和身份注入模块，确保换脸后的人脸在不同表情和姿态下保持一致性。该技术适用于视频与图像换脸，广泛应用于影视制作、虚拟现实、社交媒体等内容创作领域，具备高分辨率生成能力和良好的时间连贯性。

AI项目与工具 2025年06月12日 84 点赞 0 评论 533 浏览