数据集

LOKI

LOKI是一个由中山大学与上海AI实验室联合推出的合成数据检测基准,用于评估大型多模态模型在识别视频、图像、3D模型、文本及音频等多模态合成数据方面的性能。它包含超过18,000个问题,涵盖26个子类别,支持多层次标注和细粒度异常注释,并通过自然语言解释增强模型的可解释性。LOKI还通过对比多种开源和闭源模型的表现,揭示了这些模型在合成数据检测任务中的优势与不足。

GTSinger

GTSinger是一项由浙江大学研发的开源高质量歌声数据集,包含80.59小时的多语言专业录音棚歌声数据,支持歌声合成、技巧识别、风格迁移和语音到歌声转换等多种任务。它通过音素级标注和真实乐谱支持,为歌唱技巧的研究和应用提供了强大工具。

Wren AI

Wren AI 是一个开源的文本到 SQL 工具,基于自然语言处理技术,允许用户通过自然语言提问来执行数据库查询,无需编写 SQL 代码。它支持多种数据库和数据源,具有语义理解能力,能准确解析业务上下文并提供精确的结果。Wren AI 的核心功能包括语义引擎、向量数据库和大型语言模型,支持数据集成、安全性和结果导出,广泛应用于业务智能分析、数据探索、报告生成等领域。

HelloBench

HelloBench 是一款开源基准测试工具,专注于评估大型语言模型在长文本生成任务中的表现。它基于布鲁姆分类法设计了五个子任务,并采用 HelloEval 方法实现高效自动化评估。该工具支持多领域应用,包括模型开发、学术研究、产品测试等,同时揭示了现有模型在长文本生成中的局限性。

CCI 3.0

CCI 3.0是一项由智源研究院开发的大规模中文互联网语料库,包含1000GB主数据集及498GB高质量子集。该语料库覆盖新闻、社交媒体、博客等领域,数据规模较前代扩大近一倍,来源增至20余家机构。通过多维度标注与数据清洗技术,CCI 3.0筛选出高价值数据,适用于自然语言处理、大模型训练、知识图谱构建、内容推荐系统以及教育科研等多种应用场景。

Chatbond

Chatbond 是一款专为企业设计的 AI 聊天机器人开发平台,支持多语言、个性化定制及多数据源集成,具备自动重新训练功能以保障信息准确性。其应用场景涵盖客户服务、电子商务、教育、人力资源和医疗保健等领域,能够显著提升运营效率和服务质量。

GameGen

GameGen-O 是一款基于 Transformer 架构的AI工具,专注于开放世界游戏视频的生成。它具备角色生成、环境构建、动作模拟及交互式控制等功能,通过两阶段训练方法提升了生成质量和灵活性,可应用于游戏原型设计、场景生成及开发辅助等领域,有助于降低开发成本并提高创作效率。

MMRole

MMRole是一个由中国人民大学高瓴人工智能学院研究团队开发的多模态角色扮演智能体(MRPA)框架。该框架通过整合图像和文本,使智能体能够以特定角色进行更为自然和沉浸式的对话。MMRole框架包括一个大规模、高质量的多模态数据集和一个全面的评估方法,用于开发和评估MRPAs的性能。该框架为创建能够理解和生成与图像相关对话内容的智能体提供了新的可能,并扩展了其在教育、娱乐、客户服务、社交模拟和内容创

Docmatix

Docmatix 是一个专为文档视觉问答任务设计的大规模数据集,包含240万张图像和950万个问题-答案对,源自130万个PDF文档。数据集覆盖广泛,包括扫描图片、PDF文件和数字文档,且具有高质量的问答对。Docmatix 支持模型训练和微调,可用于训练视觉语言模型,提高其在理解和回答与文档内容相关问题方面的性能。应用场景包括自动化客户服务、智能文档分析、教育和学术研究以及业务流程自动化等。

OmniCorpus

OmniCorpus是上海人工智能实验室联合多家知名高校和研究机构共同创建的一个大规模多模态数据集,包含86亿张图像和16960亿个文本标记,支持中英双语。它通过整合来自网站和视频平台的文本和视觉内容,提供了丰富的数据多样性。OmniCorpus不仅规模庞大,而且数据质量高,适合多模态机器学习模型的训练和研究。它广泛应用于图像识别、视觉问答、图像描述生成和内容推荐系统等领域。