多模态 - 智狐AI导航

ViDoRAG

ViDoRAG是阿里巴巴通义实验室联合高校开发的视觉文档检索增强生成框架，采用多智能体协作与动态迭代推理技术，提升复杂文档的检索与理解能力。通过高斯混合模型优化多模态信息整合，支持精准检索与高质量生成，适用于教育、金融、医疗等多个领域，显著提升文档处理效率与准确性。

AI项目与工具 2025年06月12日 26 点赞 0 评论 766 浏览

HumanOmni

HumanOmni 是一款面向人类中心场景的多模态大模型，融合视觉与听觉信息，具备情感识别、面部描述、语音理解等功能。基于大量视频与指令数据训练，采用动态权重调整机制，支持多模态交互与场景理解。适用于影视分析、教育、广告及内容创作等领域，具备良好的可扩展性和灵活性。

AI项目与工具 2025年06月12日 92 点赞 0 评论 826 浏览

AgiBot Digital World

AgiBot Digital World 是一款基于 NVIDIA Isaac-Sim 的高保真机器人仿真框架，支持多模态大模型驱动的任务与场景自动生成，具备真实感强的视觉与物理模拟能力。其提供多样化专家轨迹生成、域随机化与数据增强功能，助力机器人技能训练与算法优化，并开源了包含多种场景和技能的数据集，适用于工业自动化、服务机器人开发及人工智能研究等领域。

AI项目与工具 2025年06月12日 63 点赞 0 评论 843 浏览

Tanka

Tanka是一款具备长期记忆和上下文理解能力的AI通讯工具，旨在提升团队协作效率。它支持智能回复、任务提醒、多模态消息处理，并可集成多种通讯平台。适用于项目管理、客户服务、销售支持及知识管理等多个场景，助力企业实现高效、智能的沟通与信息管理。

AI项目与工具 2025年06月12日 78 点赞 0 评论 829 浏览

海螺视频APP

海螺视频APP是一款基于AI技术的视频生成工具，支持文生视频和图生视频功能，提供丰富的镜头控制选项，让用户能像专业导演一样创作动态视频。该工具适用于多种场景，如社交媒体、广告营销、影视制作等，操作简便，适合各类用户使用。

AI项目与工具 2025年06月12日 21 点赞 0 评论 859 浏览

星火医疗大模型X1

星火医疗大模型X1是科大讯飞开发的专注于医疗领域的深度推理模型，具备强大的复杂问题处理能力和循证推理能力，显著降低医疗幻觉问题。该模型支持个性化健康建议、辅助诊断、病历质控、多模态医疗应用及健康管理等多种功能，广泛应用于医院和健康服务平台，提升医疗效率与准确性。

AI项目与工具 2025年06月12日 41 点赞 0 评论 810 浏览

飞书知识问答

飞书知识问答是一款基于AI技术的企业级知识管理工具，支持多数据源接入与实时搜索，提供结构化答案生成、智能问答、标准问答库管理等功能。支持多模态回答，兼容多种AI模型，适用于知识管理、智能客服、团队协作等场景，提升信息处理效率与准确性。

AI项目与工具 2025年06月12日 59 点赞 0 评论 473 浏览

AIMv2

AIMv2是苹果公司开发的开源多模态自回归预训练视觉模型，通过图像与文本的深度融合提升视觉理解能力。其采用图像块与子词标记拼接的方式进行自回归预训练，支持多种参数规模，适用于不同设备。具备视觉问答、指代表达理解、图像字幕生成、多媒体检索等功能，并可无缝集成到大型语言模型中。模型在多个视觉任务中表现优异，具备良好的可扩展性和零样本适应能力。

AI项目与工具 2025年06月12日 48 点赞 0 评论 687 浏览

FLORA

FLORA是一款面向创意工作者的AI工具平台，通过节点式画布整合文本、图像和视频生成功能，支持故事分析、角色设计、分镜脚本生成及团队协作，提升创意流程效率，适用于视频创作、游戏开发、设计及教育等领域。

AI项目与工具 2025年06月12日 14 点赞 0 评论 533 浏览

腾讯混元Turbo S

腾讯混元Turbo S是腾讯推出的高效AI模型，采用Hybrid-Mamba-Transformer架构，提升推理效率并降低计算成本。支持快速响应、多领域推理、内容创作及多模态生成，适用于对话、代码、逻辑推理等场景。兼具短思维链与长思维链能力，性能对标行业领先模型。

AI项目与工具 2025年06月12日 86 点赞 0 评论 815 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期