多模态 - 智狐AI导航

MMAudio

MMAudio是一款基于多模态联合训练的音频合成工具，通过深度学习技术实现视频到音频、文本到音频的精准转换。它具备强大的同步模块，确保生成的音频与视频帧或文本描述时间轴完全对应，适用于影视制作、游戏开发、虚拟现实等多种场景，极大提升了跨模态数据处理的能力和应用效率。

AI项目与工具 2025年06月12日 68 点赞 0 评论 628 浏览

Ultravox

Ultravox 是一种多模态大型语言模型（LLM），能够直接处理文本和语音输入，无需额外的语音识别步骤。其核心技术包括多模态投影器，用于将音频数据转换为高维空间表示，显著提升语音理解和处理效率。该模型支持实时语音对话、多语言扩展及领域特定知识的学习，适用于智能客服、虚拟助手、语言学习、实时翻译及教育等领域。

AI项目与工具 2025年06月12日 51 点赞 0 评论 830 浏览

Project Mariner

Project Mariner是一款由谷歌DeepMind研发的浏览器助手工具，依托Gemini 2.0技术实现浏览器自动化。该工具能够解析并操作网页内容，涵盖像素、文本、图像及表单等多种形式的数据，支持复杂任务处理与自动化流程管理。此外，它强调用户体验与安全性，在执行关键操作时需获得用户授权。主要应用场景包括数据整理、在线购物、旅行规划及日常消费等领域。

AI项目与工具 2025年06月12日 90 点赞 0 评论 647 浏览

TEN Agent

TEN Agent 是一款开源的实时多模态 AI 框架，集成了 OpenAI 实时 API 和 RTC 技术，支持语音、文本和图像的多模态交互。它具备天气查询、网络搜索、视觉识别及 RAG 等功能，支持高性能实时通信和模块化扩展，适用于智能客服、语音助手、教育辅助、智能家居控制和健康咨询等多个领域。

AI项目与工具 2025年06月12日 25 点赞 0 评论 531 浏览

STIV

STIV是一款由苹果公司开发的视频生成大模型，具有8.7亿参数，擅长文本到视频（T2V）及文本图像到视频（TI2V）任务。它通过联合图像-文本分类器自由引导（JIT-CFG）技术提升生成质量，并结合时空注意力机制、旋转位置编码（RoPE）及流匹配训练目标优化性能。STIV支持多种应用场景，包括视频预测、帧插值、长视频生成等，适用于娱乐、教育、广告及自动驾驶等多个领域。

AI项目与工具 2025年06月12日 57 点赞 0 评论 484 浏览

DiffSensei是一款由北京大学、上海AI实验室及南洋理工大学联合开发的漫画生成框架，它结合了基于扩散的图像生成技术和多模态大型语言模型（MLLM）。该工具能够根据用户提供的文本提示和角色图像，生成具有高精度和视觉吸引力的黑白漫画面板，支持多角色场景下的互动与布局调整。其核心技术包括掩码交叉注意力机制、对话布局编码以及MLLM作为特征适配器等，广泛应用于漫画创作、个性化内容生成、教育和培训等领

AI项目与工具 2025年06月12日 47 点赞 0 评论 666 浏览