多模态 - 智狐AI导航

FastVLM

FastVLM是一款高效的视觉语言模型，采用FastViTHD混合视觉编码器，显著提升高分辨率图像处理速度并减少token数量。其在保持高性能的同时，降低了计算成本和模型复杂度。适用于视觉问答、图文匹配、文档理解、图像描述生成等多模态任务，具备良好的实用性和扩展性。

AI项目与工具 2025年06月11日 85 点赞 0 评论 736 浏览

OmniCam

OmniCam 是一种基于多模态输入的高级视频生成框架，结合大型语言模型与视频扩散模型，实现高质量、时空一致的视频内容生成。支持文本、视频或图像作为输入，精确控制摄像机运动轨迹，具备帧级操作、复合运动、速度调节等功能。采用三阶段训练策略提升生成效果，并引入 OmniTr 数据集增强模型性能。适用于影视、广告、教育及安防等多个领域，提高视频创作效率与质量。

AI项目与工具 2025年06月12日 18 点赞 0 评论 737 浏览

Movie Gen

Movie Gen是Meta开发的一款AI视频生成与编辑工具，支持根据文本提示生成高清视频并提供同步音频配制。该工具具备强大的视频生成能力，可创建长达16秒的高清视频，并支持照片定制化视频生成和精准编辑功能。此外，它还拥有先进的音频生成技术，能够生成高质量的环境音效和背景音乐。当前，Movie Gen主要服务于Meta内部团队及部分合作伙伴，未来有望推广至更广泛的用户群体。 ---

AI项目与工具 2025年06月12日 30 点赞 0 评论 737 浏览

YuE

YuE 是一款由香港科技大学与 Multimodal Art Projection 联合开发的开源 AI 音乐生成模型，支持多语言和多种音乐风格，如流行、金属、爵士、嘻哈等。通过语义增强音频分词器、双分词技术和三阶段训练方案，解决长上下文处理与音乐生成难题，生成结构连贯、旋律优美的歌曲。模型完全开源，用户可自由使用和定制，适用于音乐创作、影视配乐、游戏音效及社交媒体内容制作等多个场景。

AI项目与工具 2025年06月12日 23 点赞 0 评论 738 浏览

混元图生视频

混元图生视频是腾讯混元推出的开源图生视频模型，支持用户上传图片并输入描述生成5秒短视频，具备对口型、动作驱动和背景音效自动生成等功能。模型适用于多种风格与场景，参数量达130亿，已在腾讯云上线并开源，支持本地部署与定制开发，适用于创意视频、特效制作及动画开发等多个领域。

AI项目与工具 2025年06月12日 43 点赞 0 评论 738 浏览

AnimeGamer

AnimeGamer是一款由腾讯PCG与香港城市大学联合开发的动漫生活模拟系统，基于多模态大语言模型（MLLM），支持玩家通过自然语言指令操控动漫角色，沉浸于动态游戏世界中。系统能生成高一致性的动态动画视频，并实时更新角色状态，如体力、社交和娱乐值。其核心技术包括多模态表示、视频扩散模型及上下文一致性机制，适用于个性化娱乐、创意激发、教育辅助及游戏开发等多种场景。

AI项目与工具 2025年06月12日 49 点赞 0 评论 739 浏览

StreamBridge

StreamBridge是一款由苹果与复旦大学联合开发的端侧视频大语言模型框架，支持实时视频流的理解与交互。通过内存缓冲区和轮次衰减压缩策略，实现长上下文处理与主动响应。项目配套发布Stream-IT数据集，包含60万样本，适用于多种视频理解任务，展现出在视频交互、自动驾驶、智能监控等领域的应用前景。

AI项目与工具 2025年06月11日 41 点赞 0 评论 739 浏览

Talkie

Talkie是一款基于人工智能技术打造的虚拟伴侣应用，主打高度定制化虚拟角色和沉浸式互动体验。它支持用户通过文本、语音及图像与AI角色交流，并提供角色创建、卡牌收集、智能推荐等功能。自推出以来，Talkie迅速获得了全球用户的青睐，在个性化聊天、情感陪伴及沉浸式叙事方面展现出强大潜力。

AI项目与工具 2025年06月12日 17 点赞 0 评论 739 浏览

TextHarmony

TextHarmony是一款由华东师范大学与字节跳动联合开发的多模态生成模型，擅长视觉与文本信息的生成与理解。该模型基于Slide-LoRA技术，支持视觉文本生成、编辑、理解及感知等功能，广泛应用于文档分析、场景文本识别、视觉问题回答、图像编辑与增强以及信息检索等领域。通过高质量数据集的构建与多模态预训练，TextHarmony在视觉与语言生成任务中表现出色。

AI项目与工具 2025年06月12日 47 点赞 0 评论 740 浏览

ENEL

ENEL是一种无编码器架构的3D大型多模态模型，通过直接处理点云数据并结合LLM实现高效语义编码与几何结构理解。其核心技术包括LLM嵌入的语义编码和分层几何聚合策略，在3D对象分类、字幕生成和视觉问答等任务中表现出色，性能接近更大规模模型。该模型适用于工业自动化、虚拟现实及复杂3D结构分析等领域。

AI项目与工具 2025年06月12日 53 点赞 0 评论 740 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期