AgentSociety AgentSociety是由清华大学开发的基于大语言模型的社会模拟平台,通过构建具有“类人心智”的智能体,模拟复杂的社会行为与现象。平台支持城市环境建模、大规模社会模拟和科研工具集成,适用于社会舆论传播、政策评估、社会极化分析及灾害响应研究。其技术特点包括异步模拟架构、分布式计算和MQTT通信,具备高度可扩展性和实时交互能力。 AI项目与工具 2025年06月12日 21 点赞 0 评论 499 浏览
MME MME-CoT 是一个用于评估大型多模态模型链式思维推理能力的基准测试框架,涵盖数学、科学、OCR、逻辑、时空和一般场景六大领域,包含1,130个问题,每题均附关键推理步骤和图像描述。该框架引入推理质量、鲁棒性和效率三大评估指标,全面衡量模型推理能力,并揭示当前模型在反思机制和感知任务上的不足,为模型优化和研究提供重要参考。 AI项目与工具 2025年06月12日 36 点赞 0 评论 475 浏览
SuperGPQA SuperGPQA是由字节跳动豆包团队与M-A-P联合开发的知识推理基准测试集,覆盖285个研究生级学科,包含26529道题目。其核心功能是评估大语言模型的泛化能力和真实推理水平,42.33%的题目涉及数学计算或形式推理。该测试集采用专家与大语言模型协同构建的方式,确保题目质量,并涵盖STEM与非STEM领域,填补了长尾学科评估的空白。适用于模型性能评估、优化指导及跨学科研究等多种应用场景。 AI项目与工具 2025年06月12日 11 点赞 0 评论 388 浏览
URO URO-Bench 是一个面向端到端语音对话模型的综合评估工具,支持多语言、多轮对话及副语言信息处理。它包含基础和高级两个赛道,分别涵盖16个和20个数据集,覆盖开放性问答、情感生成、多语言任务等。支持多种评估指标,提供简单易用的评估流程,并兼容多种语音对话模型。适用于智能家居、个人助理、语言学习等多个实际应用场景。 AI项目与工具 2025年06月12日 47 点赞 0 评论 172 浏览
Math24o Math24o 是 SuperCLUE 开源的高中奥林匹克数学竞赛级别数学推理测评基准,基于 2024 年全国高中数学竞赛预赛试题,包含 21 道高难度解答题。评测通过程序自动判断答案一致性,客观评估模型正确率。支持自动化评估流程,适用于教育、学术研究和模型优化等领域,为数学推理能力的提升提供重要工具。 AI项目与工具 2025年06月12日 22 点赞 0 评论 145 浏览
易途AI面试官 易途AI面试官是一款基于AI技术的模拟面试工具,支持多种岗位和行业,提供真实面试场景、智能追问及多维度评估功能。它能帮助求职者提升面试技巧,同时为企业提高招聘效率和精准度,具备个性化练习与流程优化等特点。 AI项目与工具 2025年06月12日 29 点赞 0 评论 452 浏览
WorldScore WorldScore是由斯坦福大学推出的统一世界生成模型评估基准,支持3D、4D、图像到视频(I2V)和文本到视频(T2V)等多种模态。它从可控性、质量和动态性三个维度进行评估,涵盖3000个测试样本,包括静态与动态、室内与室外、逼真与风格化等多种场景。WorldScore具备多场景生成、长序列支持、图像条件生成、多风格适配等功能,适用于图像到视频、图像到3D生成以及自动驾驶场景模拟等应用,为研究 AI项目与工具 2025年06月12日 87 点赞 0 评论 487 浏览
PaperBench PaperBench是OpenAI开发的AI智能体评测基准,用于评估其复现顶级机器学习论文的能力。它涵盖从理解论文、编写代码到执行实验的全流程,具备8316个评分节点和自动评分系统。支持多种智能体配置,提供标准化测试环境,适用于模型优化、学术验证及教育实践等领域,推动AI研究的标准化发展。 AI项目与工具 2025年06月12日 31 点赞 0 评论 335 浏览
OlympicArena OlympicArena是由多所高校与研究机构联合开发的多学科认知推理基准测试框架,包含11,163道国际奥赛双语题目,覆盖数学、物理、化学、生物、地理、天文学和计算机科学等7大领域。该平台通过答案级与过程级评估,全面衡量AI模型的逻辑与视觉推理能力,支持多模态输入并具备数据泄漏检测机制,适用于AI模型评估、训练优化、教育辅助及科研应用。 AI项目与工具 2025年06月12日 58 点赞 0 评论 337 浏览
口语精灵 口语精灵是一款基于人工智能的英语口语学习工具,提供1V1智能对话练习,涵盖生活、工作、考试等多场景,支持多种英语口音。其具备发音评估、语法纠错、语句优化等功能,帮助用户提升口语表达的准确性和自然度。同时,该工具提供个性化学习方案和考试备考支持,适用于不同学习阶段的用户。 AI项目与工具 2025年06月12日 61 点赞 0 评论 203 浏览