AI模型 - 智狐AI导航

Tarsier2

Tarsier2是字节跳动研发的大规模视觉语言模型，擅长生成高精度视频描述并在多项视频理解任务中表现优异。其核心技术包括大规模数据预训练、细粒度时间对齐微调以及直接偏好优化（DPO）。该模型在视频问答、定位、幻觉检测及具身问答等任务中均取得领先成绩，支持多语言处理，具有广泛的应用潜力。

AI项目与工具 2025年06月12日 59 点赞 0 评论 447 浏览

PP

PP-DocBee是百度飞桨推出的多模态文档理解模型，基于ViT+MLP+LLM架构，支持文字、表格、图表等多类型文档内容的精准识别与解析。具备高效的推理性能和高质量输出，适用于文档问答、信息提取等场景，支持灵活部署，为文档处理提供智能化解决方案。

AI项目与工具 2025年06月12日 56 点赞 0 评论 445 浏览

讯飞星火X1

讯飞星火X1是科大讯飞推出的基于全国产算力平台训练的大型语言模型，具备深度推理和“慢思考”能力，适用于数学、代码、逻辑推理、文本生成等任务。支持快慢思考统一模型，部署简便，算力需求低。广泛应用于教育、医疗、健康管理等领域，提供精准的智能服务与解决方案。

AI项目与工具 2025年06月12日 99 点赞 0 评论 442 浏览

Chichi

一个专注于AI生成图像的日本网站，只要针对动漫爱好者、数字艺术家和影像设计师群体，生成动漫风格的插图、写实照片以及日本流行的写真风格。

Ai绘画生成 2025年06月05日 55 点赞 0 评论 441 浏览

Granite 4.0 Tiny Preview是IBM推出的轻量级语言模型，具备高效计算能力和紧凑结构，支持在消费级GPU上运行多个长上下文任务。采用混合Mamba-2/Transformer架构，结合高效与精准优势，支持无位置编码（NoPE）处理128K tokens上下文。内存需求降低72%，推理时仅激活1B参数，适用于边缘设备部署、长文本分析及企业级应用开发，适合资源受限环境下的AI研究与

AI项目与工具 2025年06月11日 42 点赞 0 评论 440 浏览

WorldPM

WorldPM是由阿里巴巴Qwen团队与复旦大学联合开发的偏好建模模型系列，基于1500万条数据训练，适用于对话系统、推荐系统等任务。模型支持多种微调版本，具备强大的泛化能力和鲁棒性，适用于低资源和高规模场景。支持Hugging Face平台部署，适用于语言生成优化、个性化推荐、智能客服及内容审核等应用场景。

AI项目与工具 2025年06月11日 51 点赞 0 评论 440 浏览

源2.0

源2.0-M32是由浪潮信息开发的一种混合专家模型（MoE），包含32个专家，采用“注意力路由器”技术，显著提升了模型的效率和准确性。该模型在代码生成、数学问题解决、科学推理等多个领域表现出色，尤其在ARC-C和MATH基准测试中超越了其他模型。源2.0-M32具有高效的计算能力和广泛的适用性，适用于多种复杂任务。

AI项目与工具 2025年06月12日 31 点赞 0 评论 437 浏览

MobileVD

MobileVD是Qualcomm AI Research团队开发的首个面向移动端优化的视频扩散模型，基于Stable Video Diffusion架构，通过降低帧分辨率、多尺度时间表示和剪枝技术，显著提升模型效率。其具备高效的去噪能力和低资源消耗，适用于短视频生成、视频编辑、游戏动画及互动视频等多种应用场景，为移动设备上的视频生成提供了强大支持。

AI项目与工具 2025年06月12日 61 点赞 0 评论 434 浏览

SpeciesNet

SpeciesNet 是 Google 开发的 AI 模型，用于识别相机陷阱图像中的动物物种，支持超过 2000 种标签分类，涵盖动物、分类群及非生物对象。基于 6500 万张图像训练，具备高效数据处理和跨场景识别能力，适用于野生动物监测、生物多样性研究及生态保护。模型开源，可在 GitHub 获取，支持开发人员部署与优化。

AI项目与工具 2025年06月12日 39 点赞 0 评论 429 浏览

Gemini 2.0

Gemini 2.0 是谷歌推出的原生多模态AI模型，具备快速处理文本、音频和图像的能力，支持多语言输出和实时音视频流输入。通过Agent技术和工具调用，Gemini 2.0 能够自主理解任务并提供解决方案，已在编程、数据分析、游戏等领域展示应用潜力。目前提供免费试用，计划逐步开放更多功能。

AI项目与工具 2025年06月12日 63 点赞 0 评论 427 浏览

AI模型

首页

AI模型

列表

默认

浏览次数

发布日期