模型 - 智狐AI导航

Step

覆盖了从个人使用到企业级应用的多个方面的多模态大模型。

创作工具 2026年06月22日 0 点赞 0 评论 737 浏览

Agent

Agent-S 是一款基于图形用户界面（GUI）的人机交互自动化框架，通过经验增强的分层规划和代理-计算机接口（ACI），实现了复杂任务的自动化分解与执行。它结合多模态大型语言模型（MLLMs）进行推理和控制，并具备持续学习和跨操作系统通用性的特点，适用于办公自动化、网页交互、个人助理、客户服务和教育等多个场景。

AI项目与工具 2025年06月12日 50 点赞 0 评论 737 浏览

DiTCtrl

DiTCtrl是一种基于多模态扩散变换器架构的视频生成工具，能够利用多个文本提示生成连贯且高质量的视频内容，无需额外训练即可实现零样本多提示视频生成。它通过KV共享和潜在混合策略优化不同提示间的平滑过渡，同时在MPVBench基准上表现出色，适用于电影、游戏、广告及新闻等多个领域。

AI项目与工具 2025年06月12日 18 点赞 0 评论 736 浏览

AndroidLab

AndroidLab 是一款面向 Android 自主代理的训练与评估框架，集成了文本和图像模态操作环境，提供标准化的基准测试任务。它通过支持多种模型类型（LLMs 和 LMMs），覆盖九个应用场景的 138 项任务，有效提升了开源模型的性能。此外，AndroidLab 提供了丰富的评估指标和操作模式，助力研究者优化模型表现并推动开源解决方案的发展。

AI项目与工具 2025年06月12日 38 点赞 0 评论 735 浏览

AgentRefine

AgentRefine 是由北京邮电大学与美团联合开发的智能体合成框架，采用“精炼调整”方法提升基于大语言模型的智能体在多样化任务中的泛化能力。它通过轨迹中的观察实现错误纠正与自我优化，增强智能体在复杂环境中的适应性和鲁棒性。该框架支持多样化推理路径，广泛应用于自动化决策、游戏 AI、代码生成及自然语言处理等领域。

AI项目与工具 2025年06月12日 19 点赞 0 评论 735 浏览

MVoT

MVoT是一种多模态推理框架，通过生成图像形式的推理痕迹，增强多模态大语言模型在复杂空间推理任务中的表现。其核心技术包括多模态推理范式、token discrepancy loss以及递归生成机制，有效提升推理准确性和可解释性。该工具适用于机器人导航、自动驾驶、智能教育、医疗影像分析及VR/AR交互等多个领域，具有广泛的应用潜力。

AI项目与工具 2025年06月12日 57 点赞 0 评论 735 浏览

Lobe

Lobe通过一个免费、易于使用...

Ai平台模型 2026年06月22日 0 点赞 0 评论 735 浏览

Bamba

Bamba-9B是一种基于Mamba2架构的解码型语言模型，专注于提升大型语言模型的推理效率，尤其擅长处理长文本。它通过恒定的KV-cache设计解决了内存带宽瓶颈问题，并在多个开源平台上得到支持。Bamba-9B不仅具有高效的吞吐量和低延迟的特点，还支持模型量化及长上下文长度扩展，适用于多种应用场景，包括机器翻译、智能客服、内容推荐、自动摘要和社会媒体监控等。

AI项目与工具 2025年06月12日 26 点赞 0 评论 735 浏览

TANGLED

TANGLED是一种3D发型生成技术，可从多种风格和视角的图像中生成高质量发丝。其核心技术包括多视图线稿扩散框架与参数化后处理模块，支持复杂发型的细节修复。该工具具备文化包容性，适用于动画、AR及虚拟试妆等场景，提升发型设计效率与真实性。

AI项目与工具 2025年06月12日 71 点赞 0 评论 735 浏览

ThinkDiffusion

一个为用户提供专业级人工智能艺术工具的平台。它提供最新的稳定扩散用户界面，用户只需几个点击即可在任何设备上通过浏览器访问。

电商运营 2025年06月05日 63 点赞 0 评论 735 浏览

模型

首页

模型

列表

默认

浏览次数

发布日期