多模态 - 智狐AI导航

OminiControl

OminiControl是一款高效且参数节约的图像生成框架，专为扩散变换器模型设计，支持主题驱动和空间控制。通过增加少量参数，它能够生成高质量图像并保持主题一致性，适用于多种应用场景，包括艺术创作、游戏开发和广告设计等。其强大的多模态注意力机制和灵活的架构使其成为图像生成领域的创新工具。

AI项目与工具 2025年06月12日 94 点赞 0 评论 868 浏览

EMOVA

EMOVA是一款由多所高校与企业联合研发的多模态全能型AI助手，具备处理图像、文本和语音的能力，支持情感化语音对话，并通过轻量级情感控制模块增强了人机交互的自然性。其核心技术包括连续视觉编码器、语义-声学分离的语音分词器及全模态对齐机制，广泛应用于客户服务、教育辅助、智能家居控制等多个领域。

AI项目与工具 2025年06月12日 55 点赞 0 评论 761 浏览

LongLLaVA是由香港中文大学（深圳）研究团队开发的多模态大型语言模型，结合Mamba和Transformer模块，利用2D池化技术压缩图像token，大幅提升处理大规模图像数据的效率。该模型在视频理解、高分辨率图像分析及多模态代理任务中表现优异，特别擅长检索、计数和排序任务。其技术亮点包括渐进式训练策略和混合架构优化，支持多种多模态输入处理，广泛应用于视频分析、医学影像诊断、环境监测等领域。

AI项目与工具 2025年06月12日 67 点赞 0 评论 503 浏览

NVLM

NVLM是NVIDIA研发的多模态大型语言模型，涵盖图像理解、语言理解、跨模态融合、图像描述生成、视觉推理及多模态翻译等功能。它具备多种架构（NVLM-D、NVLM-X、NVLM-H），并采用动态高分辨率输入、1-D平铺标签设计及多模态预训练与微调技术，广泛应用于图像描述、视觉问答、文档理解、多模态搜索及辅助驾驶等领域。

AI项目与工具 2025年06月12日 57 点赞 0 评论 652 浏览

ShowUI

ShowUI是一款由新加坡国立大学Show Lab与微软合作开发的视觉-语言-行动模型，旨在提升图形用户界面（GUI）助手的工作效率。该模型通过UI引导的视觉令牌选择、交错视觉-语言-行动流以及高质量数据集的运用，实现了高效的零样本截图定位和GUI自动化功能，广泛应用于网页自动化、移动应用测试、桌面软件自动化及游戏自动化等领域。

AI项目与工具 2025年06月12日 27 点赞 0 评论 764 浏览

Qwen2vl

Qwen2VL-Flux 是一款基于多模态图像生成的模型，结合了 Qwen2VL 和 FLUX 技术。它支持多种生成模式，包括变体生成、图像到图像转换、智能修复和 ControlNet 引导生成，并具备深度估计和线条检测功能。该模型提供灵活的注意力机制和高分辨率输出，适用于艺术创作、内容营销、游戏开发等多个领域。

AI项目与工具 2025年06月12日 99 点赞 0 评论 586 浏览

InfiMM

InfiMM-WebMath-40B是由字节跳动与中国科学院联合推出的大规模多模态数据集，涵盖大量数学和科学内容，包括文本、公式、符号及图像。该数据集通过筛选、清洗和标注优化，可显著提升多模态模型的数学推理能力。它适用于数学题库生成、学习工具开发、论文理解及科学研究等多个应用场景。 ---

AI项目与工具 2025年06月12日 100 点赞 0 评论 553 浏览

幻剪

幻剪是一款基于AI技术的视频创作工具，支持智能生成和剪辑视频，用户可通过输入文案快速获取成品，并通过二次编辑实现个性化定制。其功能涵盖多模态搜索、自动剪辑、配音及字幕设置等，广泛应用于个人、教育、团队协作及内容创作等领域，有效简化视频制作流程，提升创作效率。

AI项目与工具 2025年06月12日 90 点赞 0 评论 791 浏览

悦灵犀AI

悦灵犀AI是一款基于先进AI技术的创作平台，支持文生图、文生视频、背景替换、证件照生成及照片修复等多种功能。其智能助手和丰富工具使用户能够高效创作艺术作品，并广泛应用于艺术设计、广告营销、教育等领域。

AI项目与工具 2025年06月12日 51 点赞 0 评论 893 浏览

纳米搜索

纳米搜索是一款由360集团开发的多功能AI搜索引擎，支持文字、语音、拍照和视频等多种搜索方式，涵盖从简单到复杂的全方位解答方案。它整合了16款顶尖大模型能力，配备了智能工具，如写作、翻译和旅游规划助手，旨在提升多场景下的操作效率。此外，其独特的AI脱口秀功能，能将搜索结果转化为视频内容，为用户提供更直观的知识获取体验。

AI项目与工具 2025年06月12日 13 点赞 0 评论 804 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期