基准测试 - 智狐AI导航

VSI

VSI-Bench是一种用于评估多模态大型语言模型（MLLMs）视觉空间智能的基准测试工具，包含超过5000个问题-答案对，覆盖多种真实室内场景视频。其任务类型包括配置型任务、测量估计和时空任务，可全面评估模型的空间认知、理解和记忆能力，并提供标准化的测试集用于模型性能对比。 ---

AI项目与工具 2025年06月12日 10 点赞 0 评论 651 浏览

DeepSeek Coder

中国人工智能公司深度求索（DeepSeek）推出的开源代码生成大模型系列，通过深度学习技术提升代码生成和理解能力，提升开发者的编程效率。

Ai编程建站 2025年06月05日 24 点赞 0 评论 669 浏览

OlympicArena

OlympicArena是由多所高校与研究机构联合开发的多学科认知推理基准测试框架，包含11,163道国际奥赛双语题目，覆盖数学、物理、化学、生物、地理、天文学和计算机科学等7大领域。该平台通过答案级与过程级评估，全面衡量AI模型的逻辑与视觉推理能力，支持多模态输入并具备数据泄漏检测机制，适用于AI模型评估、训练优化、教育辅助及科研应用。

AI项目与工具 2025年06月12日 58 点赞 0 评论 686 浏览

EvalsOne Ai

一个功能强大而简单易用的一站式评估平台，EvalsOne Ai用于迭代优化生成式AI的应用程序。它可以帮助克服AI生成中的不确定性，简化工作流程，增强团队信心，确保

Ai平台模型 2025年06月05日 38 点赞 0 评论 712 浏览

AndroidLab

AndroidLab 是一款面向 Android 自主代理的训练与评估框架，集成了文本和图像模态操作环境，提供标准化的基准测试任务。它通过支持多种模型类型（LLMs 和 LMMs），覆盖九个应用场景的 138 项任务，有效提升了开源模型的性能。此外，AndroidLab 提供了丰富的评估指标和操作模式，助力研究者优化模型表现并推动开源解决方案的发展。

AI项目与工具 2025年06月12日 38 点赞 0 评论 731 浏览

Phi-3是由微软研究院开发的一系列小型语言模型，包括phi-3-mini、phi-3-small和phi-3-medium三个版本。这些模型通过优化的数据集和算法，在保持较小参数规模的同时，展现出与大型模型相当的语言理解和推理能力。phi-3-mini模型仅有3.8亿参数，但在多项基准测试中表现优异，甚至能在智能手机上运行。Phi-3系列模型的研发体现了在数据工程和模型优化领域的最新进展，为未来

AI项目与工具 2024年01月01日 42 点赞 0 评论 740 浏览

SuperGPQA

SuperGPQA是由字节跳动豆包团队与M-A-P联合开发的知识推理基准测试集，覆盖285个研究生级学科，包含26529道题目。其核心功能是评估大语言模型的泛化能力和真实推理水平，42.33%的题目涉及数学计算或形式推理。该测试集采用专家与大语言模型协同构建的方式，确保题目质量，并涵盖STEM与非STEM领域，填补了长尾学科评估的空白。适用于模型性能评估、优化指导及跨学科研究等多种应用场景。

AI项目与工具 2025年06月12日 11 点赞 0 评论 768 浏览

Reflection 70B

Reflection 70B是一款基于Meta的Llama 3.1 70B Instruct构建的开源AI大模型，采用“Reflection-Tuning”技术，能够在生成最终回答前检测并纠正错误，显著提高输出的准确性。该模型特别适用于需要高精度推理的任务，并具备出色的零样本推理能力。用户可以通过引入特殊token，以更结构化的方式与模型交互。此外，Reflection 70B支持通过Huggin

AI项目与工具 2025年06月12日 98 点赞 0 评论 782 浏览

DNA-RENDERING数字人库

DNA-Rendering是一个具有高多样性和高保真度的神经演员渲染库，它为广泛的研究任务提供了丰富的数据和高质量的注释。

Ai视频生成 2026年06月21日 0 点赞 0 评论 793 浏览

Pixtral 12B

Pixtral 12B是一款由法国初创企业Mistral开发的多模态AI模型，能够同时处理图像和文本数据。该模型包含120亿参数，大小约为24GB，基于Nemo 12B文本模型构建。它具备强大的图像和文本处理能力，能够执行图像描述生成、统计照片中的物体数量等任务，并在多个基准测试中表现出色。Pixtral 12B将根据Apache 2.0许可证开源，用户可以自由下载和微调该模型。应用场景广泛，包括

AI项目与工具 2025年06月12日 69 点赞 0 评论 796 浏览

基准测试

首页

基准测试

列表

默认

浏览次数

发布日期

VSI