数据集
AgiBot World
AgiBot World是一个由智元机器人开发的百万真机数据集,专注于具身智能技术的研究。它涵盖了80多种日常生活技能,涉及家居、餐饮、工业、商超及办公五大场景,数据规模和质量均领先于谷歌的Open X-Embodiment。数据采集利用了智元自建的工厂和实验基地,通过8个摄像头和6自由度灵巧手等先进硬件,确保了全域真实场景下的高质量数据获取。项目还计划开源仿真数据、发布具身基座大模型及配套工具链
HelloBench
HelloBench 是一款开源基准测试工具,专注于评估大型语言模型在长文本生成任务中的表现。它基于布鲁姆分类法设计了五个子任务,并采用 HelloEval 方法实现高效自动化评估。该工具支持多领域应用,包括模型开发、学术研究、产品测试等,同时揭示了现有模型在长文本生成中的局限性。
OmniCorpus
OmniCorpus是上海人工智能实验室联合多家知名高校和研究机构共同创建的一个大规模多模态数据集,包含86亿张图像和16960亿个文本标记,支持中英双语。它通过整合来自网站和视频平台的文本和视觉内容,提供了丰富的数据多样性。OmniCorpus不仅规模庞大,而且数据质量高,适合多模态机器学习模型的训练和研究。它广泛应用于图像识别、视觉问答、图像描述生成和内容推荐系统等领域。