模型 - 智狐AI导航

VPP

VPP（Video Prediction Policy）是清华大学与星动纪元联合开发的AIGC机器人模型，基于视频扩散模型实现未来场景预测与动作生成。支持高频预测与跨机器人本体学习，显著降低对真实数据的依赖。在复杂任务中表现出色，适用于家庭、工业、医疗、教育等多个领域。其开源特性推动了具身智能机器人技术的发展。

AI项目与工具 2025年06月11日 61 点赞 0 评论 726 浏览

Diff

Diff-Instruct是一种基于积分Kullback-Leibler散度的知识迁移方法，用于从预训练扩散模型中提取知识并指导生成模型的训练。它能够在无需额外数据的情况下，通过最小化IKL散度提升生成模型的性能。Diff-Instruct适用于多种场景，包括预训练扩散模型的蒸馏、现有GAN模型的优化以及视频生成等。

AI项目与工具 2025年06月12日 61 点赞 0 评论 726 浏览

ACTalker

ACTalker 是一种基于视频扩散模型的端到端工具，可生成高质量、自然的说话人头部视频。支持多信号控制（如音频、表情），采用并行 Mamba 结构和门控机制，实现跨时间和空间的精准面部动作控制。实验表明其在音频同步性和视频质量上表现优异，适用于虚拟主播、远程会议、在线教育等多种场景。

AI项目与工具 2025年06月12日 99 点赞 0 评论 726 浏览

AI Creator

AI Creator 元偶AI创作平台。

Ai绘画生成 2025年06月05日 74 点赞 0 评论 726 浏览

豆包大模型1.5

豆包大模型1.5是字节跳动推出的高性能AI模型，采用大规模稀疏MoE架构，具备卓越的综合性能和多模态能力。支持文本、语音、图像等多种输入输出方式，适用于智能辅导、情感分析、文本与视频生成等场景。模型训练数据完全自主，性能优于GPT-4o和Claude 3.5 Sonnet等主流模型，且具备成本优势。

AI项目与工具 2025年06月12日 23 点赞 0 评论 726 浏览

OmniAudio

OmniAudio-2.6B是一款专为边缘设备设计的高性能音频语言模型，具备语音识别、转录、问答、对话生成及内容创作等核心功能。其技术优势在于多模态架构的高效集成、稀疏性利用以及三阶段训练流程，支持FP16和Q4_K_M量化版本，确保在资源受限的环境下仍能稳定运行。OmniAudio-2.6B可应用于智能助手、车载系统、会议记录、教育和医疗等多个领域，为用户提供便捷、高效的语音交互体验。

AI项目与工具 2025年06月12日 95 点赞 0 评论 725 浏览

OmniSQL

OmniSQL 是一款开源的文本到 SQL 转换工具，能将自然语言问题精准转化为 SQL 查询语句。它基于大规模数据集 SynSQL-2.5M 进行训练，涵盖 250 万条样本，覆盖 16,000 余个跨领域数据库。支持多种复杂查询类型，提供思维链推理过程，并提供 7B、14B 和 32B 三种模型版本。适用于企业数据分析、教育及跨领域应用，提升数据访问效率与学习体验。

AI项目与工具 2025年06月12日 47 点赞 0 评论 725 浏览

MCP

MCP（Model Context Protocol）是一项由Anthropic开源的协议，专注于实现大型语言模型（LLM）与外部数据源和工具的无缝集成。其核心功能包括数据集成、工具集成、模板化交互、安全性、开发者支持及上下文维护，支持双向数据流并内置安全机制。MCP适用于AI驱动的集成开发环境、增强聊天界面、自定义AI工作流、ERP系统集成及CRM系统增强等场景。

AI项目与工具 2025年06月12日 59 点赞 0 评论 725 浏览

书生

书生通用大模型体系是一套全面、高效的AI解决方案，涵盖了语言处理、多模态分析、气象预报、翼型设计和三维建模等多个领域。

Ai平台模型 2026年06月23日 0 点赞 0 评论 724 浏览

BenTsao本草

BenTsao本草是一个专注于中文医学领域的大语言模型，它通过指令微调和丰富的医学知识库，为医疗健康专业人士提供了一个强大的信息处理和决策支持工具。

Ai平台模型 2026年06月23日 0 点赞 0 评论 723 浏览

模型

首页

模型

列表

默认

浏览次数

发布日期

VPP