模态融合 - 智狐AI导航

FLUX.1 Kontext

FLUX.1 Kontext是由Black Forest Labs推出的图像生成与编辑模型，支持上下文感知的图像处理。它基于文本和图像提示进行生成与编辑，具备对象修改、风格转换、背景替换、角色一致性保持和文本编辑等功能。FLUX.1 Kontext Pro版本支持快速迭代编辑，Kontext Max版本在提示词遵循和排版生成方面表现优异，而dev开源版本适合定制化开发。

AI项目与工具 2025年06月11日 15 点赞 0 评论 273 浏览

Liquid

Liquid是由华中科技大学、字节跳动和香港大学联合开发的多模态生成框架，通过VQGAN将图像编码为离散视觉token并与文本共享词汇空间，使大型语言模型无需修改结构即可处理视觉任务。该框架降低训练成本，提升视觉生成与理解性能，并在多模态任务中表现出色。支持图像生成、视觉问答、多模态融合等应用，适用于创意设计、内容创作及智能交互等领域。

AI项目与工具 2025年06月12日 82 点赞 0 评论 316 浏览

VersaGen

VersaGen是一款基于生成式AI的文本到图像合成工具，支持多样化视觉控制和灵活的创意表达。通过适配器训练和优化策略，VersaGen将视觉信息融入生成过程中，显著提升了图像质量和用户体验。该工具适用于创意设计、数字艺术、广告营销、游戏开发及影视制作等多个领域，为用户提供了高效且直观的视觉创作解决方案。

AI项目与工具 2025年06月12日 19 点赞 0 评论 374 浏览

Vidu Q1

Vidu Q1是清华大学朱军教授团队研发的高可控视频生成模型，支持1080p高清视频生成，具备精准音效控制、多主体一致性调节、局部超分重建等功能。在多项国际评测中表现优异，包括VBench和SuperCLUE榜单均获第一。模型基于扩散模型与U-ViT架构，融合文本、图像和视频信息，适用于影视制作、广告宣传及动画创作等领域。

AI项目与工具 2025年06月12日 96 点赞 0 评论 390 浏览

CoGenAV

CoGenAV是一种先进的多模态学习模型，专注于音频和视觉信号的对齐与融合。通过对比特征对齐和生成文本预测的双重目标进行训练，利用同步音频、视频和文本数据，学习捕捉时间对应关系和语义信息。CoGenAV具备音频视觉语音识别、视觉语音识别、噪声环境下的语音处理、语音重建与增强、主动说话人检测等功能，适用于智能助手、视频内容分析、工业应用和医疗健康等多个场景。

AI项目与工具 2025年06月11日 80 点赞 0 评论 420 浏览

NVLM

NVLM是NVIDIA研发的多模态大型语言模型，涵盖图像理解、语言理解、跨模态融合、图像描述生成、视觉推理及多模态翻译等功能。它具备多种架构（NVLM-D、NVLM-X、NVLM-H），并采用动态高分辨率输入、1-D平铺标签设计及多模态预训练与微调技术，广泛应用于图像描述、视觉问答、文档理解、多模态搜索及辅助驾驶等领域。

AI项目与工具 2025年06月12日 57 点赞 0 评论 427 浏览

Seer

Seer是一款由多家科研机构联合开发的端到端机器人操作模型，基于Transformer架构实现视觉预测与动作执行的高度协同。它能够融合多模态信息，具备强大的泛化能力和数据效率，在真实机器人任务中表现优异。Seer适用于工业自动化、服务机器人、医疗健康等多个领域，支持精准动作预测和未来状态预判，显著提升了机器人系统的智能化水平。

AI项目与工具 2025年06月12日 54 点赞 0 评论 443 浏览

FluxMusic

FluxMusic 是一个开源的音乐生成工具，能够将文本描述转化为音乐。它采用先进的扩散模型和Transformer架构，通过修正流技术提高音乐的自然度和质量。该工具支持多种规模的模型，具备文本到音乐生成、语义理解、多模态融合等功能，适用于音乐创作、影视配乐、游戏音乐生成等多种场景。

AI项目与工具 2025年06月12日 66 点赞 0 评论 467 浏览

OmniAudio

OmniAudio-2.6B是一款专为边缘设备设计的高性能音频语言模型，具备语音识别、转录、问答、对话生成及内容创作等核心功能。其技术优势在于多模态架构的高效集成、稀疏性利用以及三阶段训练流程，支持FP16和Q4_K_M量化版本，确保在资源受限的环境下仍能稳定运行。OmniAudio-2.6B可应用于智能助手、车载系统、会议记录、教育和医疗等多个领域，为用户提供便捷、高效的语音交互体验。

AI项目与工具 2025年06月12日 95 点赞 0 评论 504 浏览

Voyage Multimodal

Voyage Multimodal-3 是一款多模态嵌入模型，能够处理文本、图像以及它们的混合数据，无需复杂文档解析即可提取关键视觉特征。它在多模态检索任务中的准确率显著高于现有最佳模型，支持语义搜索和文档理解，适用于法律、金融、医疗等多个领域的复杂文档检索任务。

AI项目与工具 2025年06月12日 27 点赞 0 评论 507 浏览

模态融合

首页

模态融合

列表

默认

浏览次数

发布日期