评估

SocraticLM

SocraticLM 是一款基于苏格拉底教学法的人工智能模型,由中科大与科大讯飞联合开发。它通过提问引导学生主动思考,具备多轮对话能力和个性化教学功能。模型在 SocraTeach 数据集上训练,教学性能优于 GPT-4,整体质量提升 12%。其综合评估系统涵盖五项教学维度,适用于数学教学、个性化辅导及在线教育平台,为教育技术发展提供了新思路。

CAD

CAD-MLLM 是一款基于多模态输入生成参数化 CAD 模型的系统,融合了文本、图像和点云等多种数据形式。它通过命令序列与大型语言模型的结合,实现了高效的数据对齐与处理,并提出了创新的评估指标。CAD-MLLM 具备强大的鲁棒性和交互式设计能力,适用于工业设计、建筑设计、汽车制造等多个领域。

CodeElo

CodeElo 是一款基于 Elo 评级系统的编程能力评估工具,用于衡量大型语言模型在编程竞赛中的表现。它从 CodeForces 平台选取题目,按难度和算法分类,并通过直接提交代码进行测试,确保评估的准确性。该工具可比较模型与人类程序员的水平,适用于模型优化、教学辅助及开发应用,为 LLMs 编程能力研究提供可靠参考。

ValidatorAi

输入您的创业想法,我们的人工智能将为您验证它,并为您提供重要的考虑事项。从营销到客户开发和分析竞争,我们的人工智能将帮助您采取步骤和考虑因素。

数英指数

由数英DIGITALING推出的指数型工具,根据入驻企业在数英平台的多维度数据综合得出的指数型工具,用以评估代理商的综合实力、品牌的营销表现。

Math24o

Math24o 是 SuperCLUE 开源的高中奥林匹克数学竞赛级别数学推理测评基准,基于 2024 年全国高中数学竞赛预赛试题,包含 21 道高难度解答题。评测通过程序自动判断答案一致性,客观评估模型正确率。支持自动化评估流程,适用于教育、学术研究和模型优化等领域,为数学推理能力的提升提供重要工具。

scite

scite是一款利用深度学习技术的文献分析工具,具备智能引文分类、上下文分析及可视化引文网络等功能。它支持用户快速评估文献质量,追踪引用动态,适用于文献综述、研究验证及学术出版等场景。通过支持、反对和提及分类,scite显著提升了文献引用的效率和准确性,同时提供了强大的自定义面板和消息提醒功能。

ImBD

ImBD是一种用于检测机器修订文本的AI工具,采用风格偏好优化(SPO)和风格条件概率曲率(Style-CPC)技术,能有效区分人类写作与机器修订内容。该工具具备多场景适应能力,支持多种文本类型和领域,训练效率高、数据需求低,适用于学术、新闻、出版、教育等多个应用场景,提升文本检测的准确性与可靠性。

LMEval

LMEval是谷歌推出的开源框架,用于简化大型语言模型(LLMs)的跨提供商评估。它支持多模态(文本、图像、代码)和多指标评估,兼容Google、OpenAI、Anthropic等主流模型提供商。LMEval基于增量评估引擎,节省时间和计算资源,并通过自加密的SQLite数据库安全存储评估结果。LMEvalboard提供交互式可视化界面,帮助用户分析模型性能并直观比较不同模型的优缺点。

OmniThink.AI

OmniThink.AI是一款面向零售和消费品行业的AI平台,整合预测性与生成性AI技术,助力企业加速产品设计、营销及供应链管理。平台支持自然语言解释、全球数据模型、多系统集成,并提供可持续性评估与个性化推荐功能,提升运营效率与市场响应速度。