深度学习
VideoLLaMA3
VideoLLaMA3 是阿里巴巴开发的多模态基础模型,支持视频与图像的深度理解和分析。基于 Qwen 2.5 架构,结合先进视觉编码器与语言生成能力,具备高效时空建模与多语言处理能力。适用于视频内容分析、视觉问答、字幕生成等场景,提供多种参数版本,支持灵活部署。
SmartEraser
SmartEraser是中科大与微软亚洲研究院联合开发的图像编辑工具,采用“掩码区域引导”技术实现精准对象移除,同时保留周围上下文。基于Syn4Removal数据集训练,支持多种掩码输入,适用于复杂场景,广泛应用于照片编辑、设计、文物修复及科研等领域。