评估 - 智狐AI导航

FlagEval

FlagEval作为一个专业的语言模型评估平台，为用户提供了一个可靠、标准化的评测环境。通过这个平台，研究人员和开发者可以全面了解模型的性能，推动语言模型技术的不断进步和创新。

创作工具 2026年06月21日 0 点赞 0 评论 644 浏览

AlphaEvolve

AlphaEvolve是谷歌DeepMind开发的通用科学代理，结合大型语言模型与进化算法，用于设计和优化复杂算法。它在数据中心调度、硬件设计、AI训练和数学问题解决等领域取得显著成果，如优化矩阵乘法、提升系统效率等。系统采用自动化评估机制，支持跨领域应用，具备高效计算和持续优化能力。

AI项目与工具 2025年06月11日 98 点赞 0 评论 643 浏览

OmniThink.AI

OmniThink.AI是一款面向零售和消费品行业的AI平台，整合预测性与生成性AI技术，助力企业加速产品设计、营销及供应链管理。平台支持自然语言解释、全球数据模型、多系统集成，并提供可持续性评估与个性化推荐功能，提升运营效率与市场响应速度。

AI项目与工具 2025年06月12日 59 点赞 0 评论 642 浏览

MMBench

MMBench-Video是一个由多家高校和机构联合开发的长视频多题问答基准测试平台，旨在全面评估大型视觉语言模型（LVLMs）在视频理解方面的能力。平台包含约600个YouTube视频片段，覆盖16个类别，并配备高质量的人工标注问答对。通过自动化评估机制，MMBench-Video能够有效提升评估的精度和效率，为模型优化和学术研究提供重要支持。

AI项目与工具 2025年06月12日 52 点赞 0 评论 638 浏览

Kimi学术搜索

Kimi学术搜索是一款基于人工智能技术的学术研究辅助工具，通过深度推理、信息整合及实时交互等功能，帮助用户高效地获取学术资源。其主要特点包括多语言支持、自我评估改进机制以及对复杂任务的精准响应能力，广泛应用于学术研究、市场分析、学习辅导和技术支持等领域。

AI项目与工具 2025年06月12日 37 点赞 0 评论 638 浏览

LLM Course

一个关于LLMs课程的集合，包含学习路线图和Colab笔记本，帮助用户从基础到高级逐步掌握LLMs的知识和应用。

Ai学习资源 2025年06月05日 85 点赞 0 评论 638 浏览

FACTS Grounding

FACTS Grounding是一款由谷歌DeepMind研发的基准测试工具，专门用于评估大型语言模型在生成事实准确文本方面的能力。它通过设置包含多个领域的复杂任务，要求模型基于长文档生成响应，并采用两阶段评估流程验证事实准确性及避免“幻觉”。FACTS Grounding不仅支持信息检索与问答，还能应用于内容摘要生成、文档改写以及客户服务等领域，为模型提供全面而可靠的性能评估。

AI项目与工具 2025年06月12日 38 点赞 0 评论 633 浏览

Crawl4LLM

Crawl4LLM是由清华与CMU联合开发的智能爬虫系统，通过评估网页对大语言模型预训练的价值，提升数据获取效率。支持多种爬取模式，具备状态保存、数据可视化功能，并与DCLM框架兼容。采用多维度评分机制优化爬取策略，减少低价值内容抓取，降低对网站负担，适用于LLM预训练、数据集构建等场景。

AI项目与工具 2025年06月12日 55 点赞 0 评论 608 浏览

沃研Turbo大模型

沃恩智慧公司专为大学生设计的科研大模型，有期刊推荐、文献摘要、论文精读、翻译润色、创新点评估、个性化论文推荐以及AI降重等功能。

Ai平台模型 2025年06月05日 51 点赞 0 评论 604 浏览

零克追踪

零克追踪是专业的小红书笔记质量分析工具,可以对小红书笔记的推送人群,笔记的关键词和分类进行检测!

数据分析 2025年06月05日 60 点赞 0 评论 600 浏览

评估

首页

评估

列表

默认

浏览次数

发布日期