评估
Sitespeak.ai
SiteSpeakAI可以通过使用您网站的内容、文档、知识自定义 AI 聊天机器人,训练一个可以回答你产品和服务的24/7 全天候实时提供服务的聊天机器人。
FACTS Grounding
FACTS Grounding是一款由谷歌DeepMind研发的基准测试工具,专门用于评估大型语言模型在生成事实准确文本方面的能力。它通过设置包含多个领域的复杂任务,要求模型基于长文档生成响应,并采用两阶段评估流程验证事实准确性及避免“幻觉”。FACTS Grounding不仅支持信息检索与问答,还能应用于内容摘要生成、文档改写以及客户服务等领域,为模型提供全面而可靠的性能评估。
咕噜口语SpeakGuru
SpeakGuru是一款由清华团队开发的AI口语练习工具,通过与虚拟人物对话提升英语口语能力。支持中文辅助、语法优化、发音评估等功能,涵盖100+真实场景,适配不同英语水平用户。内置错题本、词汇统计、个性化学习计划等模块,帮助用户全面掌握学习进度。已接入DeepSeek R1模型,提升智能化学习体验。
ARCHITEChTURES
ARCHITEChTURES是一个基于AI的建筑设计平台,专注于自动化处理建筑设计中的重复性任务,如建模、测量和计算,以提高设计效率和质量。它支持多户型住宅建筑设计,提供CAD和BIM绘图功能,并具备测量、预算以及快速设计与共享能力。此外,平台还支持多种应用场景,包括可行性研究、场地规划、商业评估和概念迭代等。
PromptBench
一个基于 Pytorch 的 Python 包,用于评估和理解大型语言模型的统一库。它为研究人员提供了用户友好的 API,以便对 LLM 进行评估。