多模态 - 智狐AI导航

Oumi

Oumi 是一个开源 AI 平台，支持从数据准备到模型部署的全流程开发。它提供零样板代码体验，支持多种训练方法和多模态模型，适用于自动驾驶、人机交互、学术研究等多个场景。平台具备高效的分布式训练能力和灵活的部署选项，适合企业和研究机构使用。

AI项目与工具 2025年06月12日 26 点赞 0 评论 614 浏览

MILS

MILS是由Meta AI开发的一种无需额外训练即可为大型语言模型（LLM）提供多模态能力的框架。它通过多步推理、评分反馈和迭代优化，实现图像、视频、音频等多模态内容的生成与理解。MILS支持零样本描述生成、风格迁移、跨模态推理等任务，适用于内容生成、多模态检索、视觉问答等多个场景，具备高效、灵活和无需训练的优势。

AI项目与工具 2025年06月12日 31 点赞 0 评论 487 浏览

OmniHuman

OmniHuman是字节跳动推出的多模态人类视频生成框架，基于单张图像和运动信号生成高逼真视频。支持音频、姿势及组合驱动，适用于多种图像比例和风格。采用混合训练策略和扩散变换器架构，提升生成效果与稳定性，广泛应用于影视、游戏、教育、广告等领域。

AI项目与工具 2025年06月12日 43 点赞 0 评论 542 浏览

MnnLlmApp

MnnLlmApp 是阿里巴巴基于 MNN-LLM 框架开发的开源 Android 应用，支持多种大语言模型在本地运行。具备多模态交互能力，可处理文本、图像、音频等多种输入输出任务。应用经过 CPU 推理优化，运行效率高，支持离线使用，保障数据安全。内置 Qwen、Gemma、Llama 等主流模型，适用于内容创作、智能助手、语言学习及创意设计等多种场景。

AI项目与工具 2025年06月12日 60 点赞 0 评论 672 浏览

Gemini 2.0 Pro

Gemini 2.0 Pro是Google推出的高性能AI模型，具备200万tokens的上下文窗口，支持复杂任务处理、多语言理解和代码生成。它能调用外部工具如Google搜索和代码执行环境，提升信息获取与问题解决能力。适用于编程辅助、数据分析、学术研究、教育及创意内容生成等多个领域，是当前Google系列模型中的佼佼者。

AI项目与工具 2025年06月12日 94 点赞 0 评论 651 浏览

Agentic Object Detection

Agentic Object Detection是由吴恩达团队研发的新型目标检测技术，通过智能代理系统实现无需标注数据的目标识别。用户输入文字提示后，AI可精准定位图像中的目标及其属性，支持内在属性、上下文关系及动态状态的识别。该技术无需复杂训练流程，适用于装配验证、作物检测、医疗影像分析、危险物品识别和商品管理等多种场景，显著提升了检测效率和准确性。

AI项目与工具 2025年06月12日 18 点赞 0 评论 817 浏览

Agno

Agno是一款轻量级智能代理开发框架，支持多模态输入与多代理协作，具备快速创建代理、模型无关性、内存管理及知识库支持等功能。其基于Python实现，架构简洁，兼容性强，适用于智能客服、内容推荐、教育、医疗及办公等多个场景。Agno提供结构化输出与实时监控，便于系统集成与性能优化。

AI项目与工具 2025年06月12日 79 点赞 0 评论 730 浏览

Ola

Ola是一款由多机构联合开发的全模态语言模型，支持文本、图像、视频和音频等多种输入形式。通过渐进式模态对齐策略，逐步扩展模型的多模态理解能力，同时采用流式解码技术提升交互体验。其架构融合多种编码器与解码器，结合局部-全局注意力机制，实现高效多模态处理，在多项任务中表现优异。

AI项目与工具 2025年06月12日 98 点赞 0 评论 624 浏览

EliGen

EliGen是由浙江大学与阿里巴巴集团联合开发的实体级可控图像生成框架，采用区域注意力机制实现对图像中实体的精确控制，支持多实体修复、风格化生成及交互式编辑。基于50万高质量注释样本训练，具备强大泛化能力，适用于虚拟场景、角色设计、数据合成及产品展示等场景。

AI项目与工具 2025年06月12日 97 点赞 0 评论 783 浏览

MVoT

MVoT是一种多模态推理框架，通过生成图像形式的推理痕迹，增强多模态大语言模型在复杂空间推理任务中的表现。其核心技术包括多模态推理范式、token discrepancy loss以及递归生成机制，有效提升推理准确性和可解释性。该工具适用于机器人导航、自动驾驶、智能教育、医疗影像分析及VR/AR交互等多个领域，具有广泛的应用潜力。

AI项目与工具 2025年06月12日 57 点赞 0 评论 656 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期