评估 - 智狐AI导航

GTA

GTA是一项由上海交通大学与上海AI实验室合作研发的基准测试，专注于评估大型语言模型在真实世界环境中的工具调用能力。它包含229个精心设计的问题，涉及多个领域，并通过多模态输入输出和细粒度评估指标，全面衡量模型的工具使用效率与准确性。GTA可应用于智能助理开发、多模态交互、自动化客户服务、教育及科研等多个领域，助力提升人工智能系统的综合性能。

AI项目与工具 2025年06月12日 20 点赞 0 评论 826 浏览

艺恩娱数

艺恩数据推出的一款开放数据产品，专注于电影行业的数据分析，艺恩娱数集合了丰富的行业数据资源，提供全面的票房统计、排片分析、观众行为研究等服务。

数据分析 2025年06月05日 24 点赞 0 评论 833 浏览

ChatLaw

ChatLaw是一款针对中文法律领域的大型语言模型，它通过定制化的设计和智能分析功能，为法律专业人士提供了一个强大的工具。

Ai平台模型 2026年06月21日 0 点赞 0 评论 836 浏览

唤醒食物

唤醒食物是一个基于AI技术的个性化食疗方案平台。它提供1781种食物的营养成分查询，科学食疗方案以及补充剂的真实作用评估。平台还提供食物对比工具和营养速查榜，帮助用户优化饮食计划。此外，唤醒食物还提供全球健康资讯，旨在助力用户的健康管理。

AI项目与工具 2025年06月12日 65 点赞 0 评论 840 浏览

Gemma 2

Gemma 2是一款由谷歌DeepMind开发的开源人工智能模型，提供90亿和270亿参数版本。它具有卓越的性能、高效的推理速度和广泛的硬件兼容性，适用于各种应用场景。Gemma 2不仅支持多种AI框架，还提供了丰富的资源和工具，以支持开发者和研究人员负责任地构建和部署AI。

AI项目与工具 2025年06月12日 57 点赞 0 评论 843 浏览

DET Practice

一个专注于多邻国英语测试的在线平台，提供丰富的题库、模拟考试及AI纠正服，帮助用户高效备考多邻国英语测试。

教育学习 2025年06月05日 34 点赞 0 评论 843 浏览

讯飞星辰MaaS

讯飞星辰MaaS是一个AI大模型定制微调平台，提供从数据管理到模型微调、评估、托管及推理服务的全流程支持。平台支持多种行业知名模型的零代码微调，具有高度灵活性和可扩展性，适用于逻辑推理、数据管理和多模态应用等场景，为企业提供高效、专业的AI解决方案。

AI项目与工具 2025年06月12日 88 点赞 0 评论 844 浏览

CursorCore

CursorCore 是一款基于大型语言模型的编程辅助工具，通过对话式交互支持代码补全、修改和错误修复。它整合代码历史、上下文信息及用户指令，利用自动化数据生成管道和基准测试优化模型性能，适用于日常编码、代码审查、教学学习及遗留代码维护等多个场景。

AI项目与工具 2025年06月12日 47 点赞 0 评论 846 浏览

LOKI

LOKI是一个由中山大学与上海AI实验室联合推出的合成数据检测基准，用于评估大型多模态模型在识别视频、图像、3D模型、文本及音频等多模态合成数据方面的性能。它包含超过18,000个问题，涵盖26个子类别，支持多层次标注和细粒度异常注释，并通过自然语言解释增强模型的可解释性。LOKI还通过对比多种开源和闭源模型的表现，揭示了这些模型在合成数据检测任务中的优势与不足。

AI项目与工具 2025年06月12日 50 点赞 0 评论 849 浏览

VQAScore

VQAScore是一种基于视觉问答（VQA）模型的评估工具，用于衡量文本提示生成图像的质量。它通过计算回答“是”概率的方式评估图像与文本提示的对齐程度，无需额外标注，提供更精确的结果。VQAScore支持多种生成任务，包括图像、视频及3D模型，并能作为多模态学习的研究工具，在自动化测试和质量控制中发挥重要作用。

AI项目与工具 2025年06月12日 86 点赞 0 评论 852 浏览

评估

首页

评估

列表

默认

浏览次数

发布日期

GTA