基准测试 - 智狐AI导航

HealthBench

HealthBench是OpenAI推出的开源医疗评估工具，用于衡量大型语言模型在医疗保健领域的表现和安全性。它包含5000个由医生设计的多轮对话，涵盖多种健康场景，并通过多维度评分标准评估模型的准确性、沟通质量等。支持按主题和行为维度进行细分分析，帮助开发者识别模型优势与不足，指导优化方向。适用于模型性能评估、安全测试及医疗AI工具选择。

AI项目与工具 2025年06月11日 79 点赞 0 评论 585 浏览

xbench

xbench是红杉中国推出的AI基准测试工具，采用双轨评估体系，追踪模型的理论能力上限与实际落地价值。其长青评估机制动态更新测试内容，确保时效性。xbench包含科学问题解答和中文互联网深度搜索两个核心评估集，按季度或每月更新题目。工具还提供垂直领域智能体评测、实时更新与LeaderBoard功能，适用于模型能力评估、真实效用量化、产品迭代指导等场景，推动AI系统在真实场景中的效用提升。

AI项目与工具 2025年06月11日 33 点赞 0 评论 562 浏览

EvalsOne Ai

一个功能强大而简单易用的一站式评估平台，EvalsOne Ai用于迭代优化生成式AI的应用程序。它可以帮助克服AI生成中的不确定性，简化工作流程，增强团队信心，确保

Ai平台模型 2025年06月05日 38 点赞 0 评论 713 浏览

DeepSeek Coder

中国人工智能公司深度求索（DeepSeek）推出的开源代码生成大模型系列，通过深度学习技术提升代码生成和理解能力，提升开发者的编程效率。

Ai编程建站 2025年06月05日 24 点赞 0 评论 669 浏览

基准测试

首页

基准测试

列表

默认

浏览次数

发布日期

HealthBench

xbench

EvalsOne Ai

DeepSeek Coder

基准测试 首页 基准测试

列表 默认 浏览次数 发布日期

HealthBench

xbench

EvalsOne Ai

DeepSeek Coder

基准测试

首页

基准测试

列表

默认

浏览次数

发布日期