模型 - 智狐AI导航

PlayDiffusion

PlayDiffusion是Play AI推出的音频编辑模型，基于扩散模型技术实现音频的精细编辑和修复。它将音频编码为离散标记序列，通过掩码处理和去噪生成高质量音频，保持语音连贯性和自然性。支持局部编辑、高效文本到语音合成、动态语音修改等功能，具有非自回归特性，提升生成速度与质量。适用于配音纠错、播客剪辑、实时语音互动等场景。

AI项目与工具 2025年06月11日 94 点赞 0 评论 823 浏览

DeepSider

DeepSider 是一款集成在浏览器侧边栏的 AI 对话工具，支持多种顶级 AI 模型如 GPT-4o、Grok3 和 Claude 3.5。用户可通过简洁交互完成复杂任务，包括 AI 搜索、实时问答、内容创作、翻译和代码生成等。该工具支持文档上传分析，结合最新数据提供准确答案，具备快速响应和高效交互设计，适用于提升工作效率和学习效率。

AI项目与工具 2025年06月11日 63 点赞 0 评论 587 浏览

VRAG

VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架，旨在提升视觉语言模型在处理视觉丰富信息时的检索、推理和理解能力。通过定义视觉感知动作空间，实现从粗粒度到细粒度的信息获取，并结合强化学习和综合奖励机制优化模型性能。该框架支持多轮交互推理，具备良好的可扩展性，适用于智能文档问答、视觉信息检索、多模态内容生成等多种场景。

AI项目与工具 2025年06月11日 84 点赞 0 评论 877 浏览

Bing Video Creator

Bing Video Creator是微软推出的AI视频生成工具，基于OpenAI的Sora模型，用户可通过输入文本描述快速生成5秒短视频。支持9:16格式，提供快速模式和标准模式，初始有10次免费生成机会。功能包括视频生成、多种风格选择、视频存储和分享等，适用于广告、教学、创意和个人娱乐等多种场景。

AI项目与工具 2025年06月11日 80 点赞 0 评论 869 浏览

Google AI Edge Gallery

Google AI Edge Gallery 是谷歌推出的实验性应用，支持在 Android 设备上本地运行机器学习和生成式人工智能模型，无需联网。用户可切换不同模型，进行图像问答、文本生成、多轮对话等操作，并实时查看性能指标。应用支持自带模型测试，提供丰富的开发者资源，助力探索设备端 AI 的强大功能。

AI项目与工具 2025年06月11日 75 点赞 0 评论 840 浏览

TrackVLA

TrackVLA是银河通用推出的端到端导航大模型，具备纯视觉环境感知、语言指令驱动、自主推理和零样本泛化能力。它能在复杂环境中自主导航、灵活避障，并根据自然语言指令识别和跟踪目标对象。无需提前建图，适用于多种场景，如陪伴服务、安防巡逻、物流配送等，为具身智能商业化提供支撑，推动机器人走向日常生活。

AI项目与工具 2025年06月11日 79 点赞 0 评论 835 浏览

DeepEyes

DeepEyes是由小红书团队和西安交通大学联合开发的多模态深度思考模型，基于端到端强化学习实现“用图思考”能力，无需依赖监督微调。它在推理过程中动态调用图像工具，增强对细节的感知与理解，在视觉推理基准测试V* Bench上准确率高达90.1%。具备图像定位、幻觉缓解、多模态推理和动态工具调用等功能，适用于教育、医疗、交通、安防和工业等多个领域。

AI项目与工具 2025年06月11日 21 点赞 0 评论 493 浏览

从容大模型

从容大模型是云从科技推出的多模态AI模型，在国际评测中表现优异，具备视觉语言理解与推理能力。其核心技术包括多模态对齐、高效工程优化和原生多模态推理，支持复杂场景下的文本识别和开放域问答。该模型在医学健康、金融、制造、政务等多个领域实现规模化应用，助力智能化转型。

AI项目与工具 2025年06月11日 21 点赞 0 评论 869 浏览

Circuit Tracer

Circuit Tracer 是 Anthropic 推出的开源工具，用于研究大型语言模型的内部工作机制。它通过生成归因图揭示模型在生成特定输出时的决策路径，帮助研究人员追踪模型的决策过程、可视化特征关系并测试假设。支持多种主流模型如 Gemma 和 Llama，提供交互式可视化界面，便于探索和分析模型行为。其功能包括生成归因图、可视化与交互、模型干预以及支持多种模型。

AI项目与工具 2025年06月11日 95 点赞 0 评论 852 浏览

SignGemma

SignGemma是由谷歌DeepMind团队开发的全球最强大的手语翻译AI模型，专注于将美国手语（ASL）实时翻译成英语文本。通过多模态训练方法，结合视觉和文本数据，实现高准确率和低延迟的翻译，响应时间低于0.5秒。支持端侧部署，保护用户隐私，适用于教育、医疗和公共服务等场景。

AI项目与工具 2025年06月11日 24 点赞 0 评论 724 浏览

模型

首页

模型

列表

默认

浏览次数

发布日期