模型 - 智狐AI导航

SearchAgent

SearchAgent-X是由南开大学和伊利诺伊大学厄巴纳香槟分校（UIUC）研究人员开发的高效推理框架，旨在提升基于大型语言模型（LLM）的搜索Agent效率。通过高召回率的近似检索、优先级感知调度和无停顿检索等技术，显著提高系统吞吐量（1.3至3.4倍），降低延迟（降至原来的1/1.7至1/5），同时保持生成质量。该框架优化资源利用率，适用于智能客服、搜索引擎、企业知识管理等多种场景，为复杂A

AI项目与工具 2025年06月11日 56 点赞 0 评论 562 浏览

EVI 3

EVI 3是Hume AI推出的全新语音语言模型，能够同时处理文本和语音标记，实现自然、富有表现力的语音交互。它支持高度个性化，根据用户提示生成任何声音和个性，并实时调节情感和说话风格。在与GPT-4o等模型的对比中，EVI 3在情感理解、表现力、自然度和响应速度等方面表现更优，具备低延迟响应能力，可在300毫秒内生成语音回答。EVI 3适用于智能客服、语音助手、教育辅导、情感支持和内容创作等多个

AI项目与工具 2025年06月11日 45 点赞 0 评论 770 浏览

SignGemma

SignGemma是由谷歌DeepMind团队开发的全球最强大的手语翻译AI模型，专注于将美国手语（ASL）实时翻译成英语文本。通过多模态训练方法，结合视觉和文本数据，实现高准确率和低延迟的翻译，响应时间低于0.5秒。支持端侧部署，保护用户隐私，适用于教育、医疗和公共服务等场景。

AI项目与工具 2025年06月11日 24 点赞 0 评论 718 浏览

Circuit Tracer

Circuit Tracer 是 Anthropic 推出的开源工具，用于研究大型语言模型的内部工作机制。它通过生成归因图揭示模型在生成特定输出时的决策路径，帮助研究人员追踪模型的决策过程、可视化特征关系并测试假设。支持多种主流模型如 Gemma 和 Llama，提供交互式可视化界面，便于探索和分析模型行为。其功能包括生成归因图、可视化与交互、模型干预以及支持多种模型。

AI项目与工具 2025年06月11日 95 点赞 0 评论 845 浏览

从容大模型

从容大模型是云从科技推出的多模态AI模型，在国际评测中表现优异，具备视觉语言理解与推理能力。其核心技术包括多模态对齐、高效工程优化和原生多模态推理，支持复杂场景下的文本识别和开放域问答。该模型在医学健康、金融、制造、政务等多个领域实现规模化应用，助力智能化转型。

AI项目与工具 2025年06月11日 21 点赞 0 评论 862 浏览

DeepEyes

DeepEyes是由小红书团队和西安交通大学联合开发的多模态深度思考模型，基于端到端强化学习实现“用图思考”能力，无需依赖监督微调。它在推理过程中动态调用图像工具，增强对细节的感知与理解，在视觉推理基准测试V* Bench上准确率高达90.1%。具备图像定位、幻觉缓解、多模态推理和动态工具调用等功能，适用于教育、医疗、交通、安防和工业等多个领域。

AI项目与工具 2025年06月11日 21 点赞 0 评论 487 浏览

TrackVLA

TrackVLA是银河通用推出的端到端导航大模型，具备纯视觉环境感知、语言指令驱动、自主推理和零样本泛化能力。它能在复杂环境中自主导航、灵活避障，并根据自然语言指令识别和跟踪目标对象。无需提前建图，适用于多种场景，如陪伴服务、安防巡逻、物流配送等，为具身智能商业化提供支撑，推动机器人走向日常生活。

AI项目与工具 2025年06月11日 79 点赞 0 评论 829 浏览

Google AI Edge Gallery

Google AI Edge Gallery 是谷歌推出的实验性应用，支持在 Android 设备上本地运行机器学习和生成式人工智能模型，无需联网。用户可切换不同模型，进行图像问答、文本生成、多轮对话等操作，并实时查看性能指标。应用支持自带模型测试，提供丰富的开发者资源，助力探索设备端 AI 的强大功能。

AI项目与工具 2025年06月11日 75 点赞 0 评论 835 浏览

Bing Video Creator

Bing Video Creator是微软推出的AI视频生成工具，基于OpenAI的Sora模型，用户可通过输入文本描述快速生成5秒短视频。支持9:16格式，提供快速模式和标准模式，初始有10次免费生成机会。功能包括视频生成、多种风格选择、视频存储和分享等，适用于广告、教学、创意和个人娱乐等多种场景。

AI项目与工具 2025年06月11日 80 点赞 0 评论 858 浏览

VRAG

VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架，旨在提升视觉语言模型在处理视觉丰富信息时的检索、推理和理解能力。通过定义视觉感知动作空间，实现从粗粒度到细粒度的信息获取，并结合强化学习和综合奖励机制优化模型性能。该框架支持多轮交互推理，具备良好的可扩展性，适用于智能文档问答、视觉信息检索、多模态内容生成等多种场景。

AI项目与工具 2025年06月11日 84 点赞 0 评论 870 浏览

模型

首页

模型

列表

默认

浏览次数

发布日期