WorldSense WorldSense是由小红书与上海交通大学联合开发的多模态基准测试工具,用于评估大型语言模型在现实场景中对视频、音频和文本的综合理解能力。该平台包含1662个同步视频、3172个问答对,覆盖8大领域及26类认知任务,强调音频与视频信息的紧密耦合。所有数据经专家标注并多重验证,确保准确性。适用于自动驾驶、智能教育、监控、客服及内容创作等多个领域,推动AI模型在多模态场景下的性能提升。 AI项目与工具 2025年06月12日 61 点赞 0 评论 286 浏览
TurboScribe TurboScribe是一款利用AI技术实现高效音频和视频转录的服务平台,支持98种以上语言的文本转换,具备强大的文件处理能力和多格式兼容性。通过加密技术保障数据安全,提供多样化的成绩单导出选项,并支持说话人识别功能,广泛应用于播客制作、会议记录、学术研究等领域。 AI项目与工具 2025年06月12日 46 点赞 0 评论 290 浏览
Loopy AI 字节跳动和浙江大学联合开发的音频驱动的AI视频生成模型,能够将静态图像转化为动态视频,实现音频与面部表情、头部动作的完美同步。 Ai视频生成 2025年06月05日 93 点赞 0 评论 292 浏览
AutomateClips AutomateClips是一款人工智能视频生成器,专为社交媒体平台如TikTok、Instagram和YouTube设计,以自动化创建吸引人的视频内容。 Ai视频生成 1970年01月01日 0 点赞 0 评论 293 浏览
Video Video-LLaVA2是一款由北京大学ChatLaw课题组开发的开源多模态智能理解系统。该系统通过时空卷积(STC)连接器和音频分支,显著提升了视频和音频的理解能力。其主要功能包括视频理解、音频理解、多模态交互、视频问答和视频字幕生成。时空建模和双分支框架是其核心技术原理。Video-LLaVA2广泛应用于视频内容分析、视频字幕生成、视频问答系统、视频搜索和检索、视频监控分析及自动驾驶等领域。 AI项目与工具 2025年06月12日 50 点赞 0 评论 293 浏览
Ztalk.ai Ztalk.ai 是一款支持多语言实时语音翻译的AI桌面应用,具备低延迟、高清晰度和强兼容性,可与主流视频会议平台无缝连接。内置降噪、字幕及AI提示功能,确保沟通效率与质量。采用端到端加密,保障数据安全,适用于全球商务会议、跨境协作、客户互动及多语言培训等场景。 AI项目与工具 2025年06月11日 75 点赞 0 评论 294 浏览