多模态 - 智狐AI导航

OmAgent

OmAgent是由Om AI与浙江大学滨江研究院联合开发的多模态语言代理框架，支持文本、图像、视频等多种输入形式，简化设备端智能代理的开发流程。它具备高效模型集成、灵活算法接口和复杂任务处理能力，适用于视频监控、内容推荐、教育辅助等场景，提升设备智能化水平和用户体验。

AI项目与工具 2025年06月12日 97 点赞 0 评论 662 浏览

Gemini

Gemini是Google DeepMind推出的全新AI模型，集成了多模态推理功能，超越了以往模型的性能，适用于科学文献洞察、竞争性编程等多种应用场景。

Ai平台模型 2025年06月05日 100 点赞 0 评论 662 浏览

VLM

VLM-R1 是由 Om AI Lab 开发的视觉语言模型，基于 Qwen2.5-VL 架构，结合强化学习优化技术，具备精准的指代表达理解和多模态处理能力。该模型适用于复杂场景下的视觉分析，支持自然语言指令定位图像目标，并在跨域数据中表现出良好的泛化能力。其应用场景涵盖智能交互、无障碍辅助、自动驾驶、医疗影像分析等多个领域。

AI项目与工具 2025年06月12日 42 点赞 0 评论 660 浏览

Movie Gen

Movie Gen是Meta开发的一款AI视频生成与编辑工具，支持根据文本提示生成高清视频并提供同步音频配制。该工具具备强大的视频生成能力，可创建长达16秒的高清视频，并支持照片定制化视频生成和精准编辑功能。此外，它还拥有先进的音频生成技术，能够生成高质量的环境音效和背景音乐。当前，Movie Gen主要服务于Meta内部团队及部分合作伙伴，未来有望推广至更广泛的用户群体。 ---

AI项目与工具 2025年06月12日 30 点赞 0 评论 660 浏览

FastVLM

FastVLM是一款高效的视觉语言模型，采用FastViTHD混合视觉编码器，显著提升高分辨率图像处理速度并减少token数量。其在保持高性能的同时，降低了计算成本和模型复杂度。适用于视觉问答、图文匹配、文档理解、图像描述生成等多模态任务，具备良好的实用性和扩展性。

AI项目与工具 2025年06月11日 85 点赞 0 评论 660 浏览

TextHarmony

TextHarmony是一款由华东师范大学与字节跳动联合开发的多模态生成模型，擅长视觉与文本信息的生成与理解。该模型基于Slide-LoRA技术，支持视觉文本生成、编辑、理解及感知等功能，广泛应用于文档分析、场景文本识别、视觉问题回答、图像编辑与增强以及信息检索等领域。通过高质量数据集的构建与多模态预训练，TextHarmony在视觉与语言生成任务中表现出色。

AI项目与工具 2025年06月12日 47 点赞 0 评论 659 浏览

TaoAvatar

TaoAvatar是阿里巴巴推出的高保真、轻量级3D全身虚拟人技术，基于3D高斯溅射（3DGS）实现照片级真实感的虚拟形象生成。支持多模态驱动，具备高帧率实时渲染能力，适用于AR、移动设备及高清显示平台。其轻量级架构结合深度学习优化，提升了运行效率与交互自然度，广泛应用于电商直播、全息通信、虚拟会议、在线教育及娱乐等领域。

AI项目与工具 2025年06月12日 29 点赞 0 评论 659 浏览

PaliGemma 2

PaliGemma 2是一款由Google DeepMind研发的视觉语言模型（VLM），结合了SigLIP-So400m视觉编码器与Gemma 2语言模型，支持多种分辨率的图像处理。该模型具备强大的知识迁移能力和出色的学术任务表现，在OCR、音乐乐谱识别以及医学图像报告生成等方面实现了技术突破。它能够处理多模态任务，包括图像字幕生成、视觉推理等，并支持量化和CPU推理以提高计算效率。

AI项目与工具 2025年06月12日 10 点赞 0 评论 658 浏览

YuE

YuE 是一款由香港科技大学与 Multimodal Art Projection 联合开发的开源 AI 音乐生成模型，支持多语言和多种音乐风格，如流行、金属、爵士、嘻哈等。通过语义增强音频分词器、双分词技术和三阶段训练方案，解决长上下文处理与音乐生成难题，生成结构连贯、旋律优美的歌曲。模型完全开源，用户可自由使用和定制，适用于音乐创作、影视配乐、游戏音效及社交媒体内容制作等多个场景。

AI项目与工具 2025年06月12日 23 点赞 0 评论 658 浏览

NeMo

NeMo 是一款基于 NVIDIA 技术的端到端云原生框架，专为生成式 AI 模型的设计与部署而打造。它具备模块化架构、多模态支持、优化算法及分布式训练能力，可应用于语音识别、自然语言处理、文本到语音转换、对话式 AI 等多个领域，同时支持预训练模型微调和端到端开发流程，为企业提供高效灵活的解决方案。

AI项目与工具 2025年06月12日 38 点赞 0 评论 658 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期