数据集 - 智狐AI导航

OmniCam

OmniCam 是一种基于多模态输入的高级视频生成框架，结合大型语言模型与视频扩散模型，实现高质量、时空一致的视频内容生成。支持文本、视频或图像作为输入，精确控制摄像机运动轨迹，具备帧级操作、复合运动、速度调节等功能。采用三阶段训练策略提升生成效果，并引入 OmniTr 数据集增强模型性能。适用于影视、广告、教育及安防等多个领域，提高视频创作效率与质量。

AI项目与工具 2025年06月12日 18 点赞 0 评论 737 浏览

TokenFD是由上海交通大学与美团联合开发的细粒度图文对齐基础模型，专为文档理解任务设计。通过图像与语言Token的统一特征空间对齐，支持Token级图文交互，提升了多模态任务性能。其基于自研的TokenIT数据集进行训练，涵盖2000万张图像和18亿高质量Token-Mask对，覆盖多种文本图像类型。TokenFD可用于文档处理、图像审查、文字检索及大模型知识增强等多个领域，具有广泛的适用性和

AI项目与工具 2025年06月12日 90 点赞 0 评论 660 浏览

Motion Anything

Motion Anything 是一款由多所高校与企业联合研发的多模态运动生成框架，可基于文本、音乐或两者结合生成高质量人类运动。其核心在于基于注意力的掩码建模和跨模态对齐技术，实现对运动序列的精细控制与动态优先级调整。该工具支持影视动画、VR/AR、游戏开发、人机交互及教育等多个应用场景，并配套提供 Text-Music-Dance (TMD) 数据集，推动多模态运动生成技术的发展。

AI项目与工具 2025年06月12日 23 点赞 0 评论 725 浏览

VideoPainter

VideoPainter是由多所高校及科研机构联合开发的视频修复与编辑框架，采用双分支架构，结合轻量级上下文编码器和扩散模型，实现高效背景保留与前景生成。支持插件式操作，具备长视频对象一致性维持能力，并构建了大规模视频修复数据集，广泛应用于影视、广告、教育等领域。

AI项目与工具 2025年06月12日 33 点赞 0 评论 626 浏览

AVD2

AVD2是由多所高校联合开发的自动驾驶事故视频理解框架，通过生成高质量事故视频并结合自然语言描述与推理，提升对复杂事故场景的理解能力。其功能涵盖事故视频生成、原因分析、预防建议及数据集增强，支持自动驾驶系统的安全优化与研究。基于先进模型如Open-Sora 1.2和ADAPT，AVD2在多项评估中表现优异，为自动驾驶安全提供了重要技术支撑。

AI项目与工具 2025年06月12日 62 点赞 0 评论 779 浏览

OmniAlign

OmniAlign-V是由多所高校联合开发的多模态大语言模型对齐数据集，包含约20万个多模态样本，涵盖自然图像和信息图表。其核心功能包括提供高质量训练数据、提升模型的开放式问答能力、增强推理与创造力，并支持模型持续优化。数据集通过图像筛选、任务设计及后处理优化确保数据质量，适用于多模态对话系统、图像辅助问答、创意生成等多个应用场景。

AI项目与工具 2025年06月12日 99 点赞 0 评论 673 浏览

Sourcetable

Sourcetable 是一款基于AI的电子表格与数据分析工具，支持数据清理、公式生成、图表创建、实时同步及自然语言交互。具备超过500种公式支持，可自动生成SQL查询与数据报告，适用于财务、市场、科研等多场景，提升数据处理效率与协作能力。

AI项目与工具 2025年06月12日 46 点赞 0 评论 990 浏览

AgiBot Digital World

AgiBot Digital World 是一款基于 NVIDIA Isaac-Sim 的高保真机器人仿真框架，支持多模态大模型驱动的任务与场景自动生成，具备真实感强的视觉与物理模拟能力。其提供多样化专家轨迹生成、域随机化与数据增强功能，助力机器人技能训练与算法优化，并开源了包含多种场景和技能的数据集，适用于工业自动化、服务机器人开发及人工智能研究等领域。

AI项目与工具 2025年06月12日 63 点赞 0 评论 843 浏览

PandaAI

PandaAI 是一款基于自然语言处理技术的智能数据分析平台，支持用户通过自然语言提问实现快速数据处理与可视化。它具备多数据源集成、智能图表生成、团队协作等功能，适用于商业分析、数据科学及数据管理等场景。平台提供免费与付费版本，满足不同用户需求，结合 LLM 与 RAG 技术提升数据分析效率。

AI项目与工具 2025年06月12日 65 点赞 0 评论 547 浏览

GRUtopia 2.0

GRUtopia 2.0是上海人工智能实验室推出的通用具身智能仿真平台，提供模块化框架、场景自动生成与高效数据采集功能。用户可使用“三行代码”快速定义任务，平台内置百万级标准化物体资产，支持复杂场景的一键生成。同时具备大规模3D场景数据集、AI驱动的NPC系统及基准测试平台，适用于机器人训练、社交互动、导航与操作等任务，推动具身智能从仿真走向现实。

AI项目与工具 2025年06月12日 16 点赞 0 评论 835 浏览

数据集

首页

数据集

列表

默认

浏览次数

发布日期