OpenAI
BrowseComp
BrowseComp 是 OpenAI 开源的 AI 浏览能力评估基准,包含 1266 个高难度问题,覆盖多个领域。它要求 AI 代理进行多步骤推理和跨网站信息整合,测试其搜索、分析和适应能力。Deep Research 模型在其中表现优异,准确率达 51.5%。该工具适用于企业知识库、电商导购、政府服务及 AI 研究等领域,推动智能浏览技术发展。
Whisper语音识别模型
Whisper 是一种通用的语音识别模型。它在不同音频的大型数据集上进行训练,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。