模型
DiffuEraser
DiffuEraser是一款基于稳定扩散模型的视频修复工具,具备未知像素生成、已知像素传播、时间一致性维护等功能。通过集成运动模块和优化网络架构,它能有效提升视频修复质量,减少噪声和幻觉。适用于影视后期制作、老电影修复、监控视频增强等多个领域,支持高精度和高连贯性的视频内容修复与增强。
VideoLLaMA3
VideoLLaMA3 是阿里巴巴开发的多模态基础模型,支持视频与图像的深度理解和分析。基于 Qwen 2.5 架构,结合先进视觉编码器与语言生成能力,具备高效时空建模与多语言处理能力。适用于视频内容分析、视觉问答、字幕生成等场景,提供多种参数版本,支持灵活部署。
Whisper Input
Whisper Input 是一款开源语音输入工具,基于 Python 和 OpenAI Whisper 模型开发,支持多语言语音识别与实时转录。用户可通过快捷键操作录音并生成文本,具备翻译、自动标点、高效处理及本地运行等功能。适用于会议记录、教育、智能交互及媒体制作等多种场景。
TokenVerse
TokenVerse 是一种基于扩散模型的多概念图像生成工具,支持从单图或多图中解耦并组合视觉元素,如物体、材质、姿势等。通过优化调制空间,实现对复杂概念的局部控制,无需微调模型即可生成个性化图像,适用于创意设计、艺术创作和内容生成等多种场景。