多模态 - 智狐AI导航

QVQ

QVQ是一个基于Qwen2-VL-72B的开源多模态推理模型，擅长处理文本、图像等多模态数据，具备强大的视觉理解和复杂问题解决能力。它在数学和科学领域的视觉推理任务中表现出色，但在实际应用中仍需解决语言切换、递归推理及图像细节关注等问题。QVQ可广泛应用于教育、自动驾驶、医疗图像分析、安全监控及客户服务等领域。

AI项目与工具 2025年06月12日 70 点赞 0 评论 578 浏览

Genesis

Genesis是一款基于开源架构的生成式物理引擎，具备高度准确的物理模拟能力，涵盖物体运动、流体力学、碰撞检测等领域。其显著特点包括超高速模拟、轻量级机器人仿真平台、照片级真实感渲染以及支持自然语言输入的数据生成功能。Genesis旨在推动通用机器人、具身AI及物理AI的发展，适用于机器人训练、游戏开发、影视特效制作等多个领域。

AI项目与工具 2025年06月12日 66 点赞 0 评论 578 浏览

SwiftChat

一款基于React Native开发的快速、安全、跨平台聊天应用，支持实时流式聊天功能和Markdown语法，还可以生成AI图像，兼容DeepSeek、Amazon Bedrock、Ollama和OpenAI等模型。

Ai开源项目 2025年06月05日 44 点赞 0 评论 577 浏览

HiDream AI

HiDream AI的目标是帮助用户零基础掌握AIGC的一站式能力，唤醒创造力、赋予作品生命感和价值感，同时解放生产力，提升全流程工作效率。

创作工具 2026年06月22日 0 点赞 0 评论 577 浏览

OpenAI 12天发布会内容全记录，一文快速捕捉亮点信息

OpenAI举办为期12天的系列发布活动，推出包括强化微调技术、Sora视频生成工具、ChatGPT Canvas和高级语音模式在内的多项创新功能，涵盖推理模型、搜索升级和跨平台集成，显著提升AI工具的性能与应用范围。

AI项目与工具 2025年06月12日 61 点赞 0 评论 576 浏览

腾讯混元

腾讯混元大模型是由腾讯研发的大语言模型，具备跨领域知识和自然语言理解能力，实现基于人机自然语言对话的方式，理解用户指令并执行任务，帮助用户实现人获取信息，知识和灵感。

Ai平台模型 2026年06月22日 0 点赞 0 评论 576 浏览

星火绘镜

一款由科大讯飞推出的AI文生视频创作平台，可以轻松地从文字描述生成短视频内容、将文本转换为视频分镜、扩展成完整的短视等。

Ai视频生成 2025年06月05日 13 点赞 0 评论 575 浏览

GPTBiz

GPTBiz代表着在人工智能领域的一次重要创新，它不仅仅是一个产品，而是一个为中国市场量身定制的大语言模型应用平台。随着人工智能技术的迅猛发展，对于能够快速、

AI写作对话 2025年06月05日 92 点赞 0 评论 573 浏览

Video

Video-LLaVA2是一款由北京大学ChatLaw课题组开发的开源多模态智能理解系统。该系统通过时空卷积（STC）连接器和音频分支，显著提升了视频和音频的理解能力。其主要功能包括视频理解、音频理解、多模态交互、视频问答和视频字幕生成。时空建模和双分支框架是其核心技术原理。Video-LLaVA2广泛应用于视频内容分析、视频字幕生成、视频问答系统、视频搜索和检索、视频监控分析及自动驾驶等领域。

AI项目与工具 2025年06月12日 50 点赞 0 评论 573 浏览

无限画

无限画是一款方便、快捷并基于人工智能技术的免费AI绘画和创作平台,提供多种AI绘画工具和AIGC创作功能，如文生图、图生图等。

Ai绘画生成 2025年06月05日 52 点赞 0 评论 573 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期

QVQ