多模态 - 智狐AI导航

TEN Agent

TEN Agent 是一款开源的实时多模态 AI 框架，集成了 OpenAI 实时 API 和 RTC 技术，支持语音、文本和图像的多模态交互。它具备天气查询、网络搜索、视觉识别及 RAG 等功能，支持高性能实时通信和模块化扩展，适用于智能客服、语音助手、教育辅助、智能家居控制和健康咨询等多个领域。

AI项目与工具 2025年06月12日 25 点赞 0 评论 529 浏览

Character

Character-3 是 Hedra Studio 推出的全模态 AI 视频生成工具，支持图像、文本和音频输入，生成高质量动态视频。具备全身动作捕捉、情感控制、精准对口型等功能，适用于创意视频、虚拟形象、教育、营销等多个场景。采用多模态融合与先进 AI 技术，提升视频自然度与连贯性，提高内容创作效率。

AI项目与工具 2025年06月12日 66 点赞 0 评论 530 浏览

XMusic

XMusic是腾讯多媒体实验室开发的AI作曲框架，支持多模态输入（如图片、文字、视频等）生成情绪、风格、节奏可控的高质量音乐。其核心技术包括多模态解析、符号音乐表示与生成优化，具备商用级音乐生成能力。适用于视频配乐、互动娱乐、音乐教育、辅助创作及音乐治疗等多个场景，有效降低音乐创作门槛，提升创作效率与个性化体验。

AI项目与工具 2025年06月12日 77 点赞 0 评论 530 浏览

FLORA

FLORA是一款面向创意工作者的AI工具平台，通过节点式画布整合文本、图像和视频生成功能，支持故事分析、角色设计、分镜脚本生成及团队协作，提升创意流程效率，适用于视频创作、游戏开发、设计及教育等领域。

AI项目与工具 2025年06月12日 14 点赞 0 评论 530 浏览

Insert Anything

Insert Anything是由多所高校联合开发的图像插入框架，支持多种场景下的对象无缝融合，如艺术创作、虚拟试穿和影视特效等。基于大规模数据集训练，具备高分辨率输出与语义一致性保障。用户可通过掩码或文本指令实现精准控制，适用于创意设计与数字内容生成领域。

AI项目与工具 2025年06月11日 30 点赞 0 评论 530 浏览

VARGPT

VARGPT是一款多模态大语言模型，整合了视觉理解和生成任务于统一的自回归框架中。它通过next-token和next-scale预测机制，支持文本与图像的混合输入和输出，具备高效的视觉生成能力。模型采用三阶段训练策略，提升了在视觉问答、推理及图像生成任务中的表现。适用于多模态内容创作、指令到图像合成等场景。

AI项目与工具 2025年06月12日 17 点赞 0 评论 531 浏览

Samsung Gauss2

Samsung Gauss2是一款由三星推出的第二代多模态生成式AI模型，具备处理文本、代码和图像等多类型数据的能力。它通过引入知识图谱技术和专家混合技术，实现了个性化服务和高效的任务执行。此外，该模型还支持多种语言及编程语言，并能在无网络环境下独立运行，广泛适用于智能手机、平板电脑、笔记本电脑以及企业级应用场景。

AI项目与工具 2025年06月12日 17 点赞 0 评论 531 浏览

Firefly Image Model 4 是 Adobe 推出的图像生成模型，支持高分辨率（最高2K）图像生成，并提供对图像结构、风格、视角等的精细控制。其增强版 Firefly Image Model 4 Ultra 特别适用于复杂场景和细节处理。该模型基于深度学习技术，包括 GAN 和 Diffusion Model，能够根据文本描述或参考图像生成高质量图像。广泛应用于创意设计、广告、艺术、

AI项目与工具 2025年06月11日 27 点赞 0 评论 532 浏览

BGE

BGE-VL是由北京智源研究院联合高校开发的多模态向量模型，基于大规模合成数据MegaPairs训练，具备高效的多模态数据合成方法和强大的泛化能力。它支持图文检索、组合图像检索和多模态嵌入等功能，适用于智能搜索、内容推荐、图像编辑辅助等多个领域。模型在多种任务中表现优异，尤其在组合图像检索方面取得显著成果。

AI项目与工具 2025年06月12日 14 点赞 0 评论 532 浏览

PUMA

PUMA是一款先进的多模态大型语言模型，专注于通过整合多粒度视觉特征提升视觉生成与理解能力。它支持文本到图像生成、图像编辑、条件图像生成及多粒度视觉解码等功能，适用于艺术创作、媒体娱乐、广告营销等多个领域，凭借其强大的多模态预训练和微调技术，成为多模态AI领域的前沿探索。

AI项目与工具 2025年06月12日 72 点赞 0 评论 533 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期