WorldScore WorldScore是由斯坦福大学推出的统一世界生成模型评估基准,支持3D、4D、图像到视频(I2V)和文本到视频(T2V)等多种模态。它从可控性、质量和动态性三个维度进行评估,涵盖3000个测试样本,包括静态与动态、室内与室外、逼真与风格化等多种场景。WorldScore具备多场景生成、长序列支持、图像条件生成、多风格适配等功能,适用于图像到视频、图像到3D生成以及自动驾驶场景模拟等应用,为研究 AI项目与工具 2025年06月12日 87 点赞 0 评论 613 浏览
链企AI 由浙江链企智能技术有限公司推出的AI商业搜索工具, 链企AI提供企业信息、招投标、知识产权等多维度的商业查询服务,通过自研的大模型技术,帮助用户快速、准确地获取全面的商业信息。 AI服务商 2025年06月05日 56 点赞 0 评论 609 浏览
TrackVLA TrackVLA是银河通用推出的端到端导航大模型,具备纯视觉环境感知、语言指令驱动、自主推理和零样本泛化能力。它能在复杂环境中自主导航、灵活避障,并根据自然语言指令识别和跟踪目标对象。无需提前建图,适用于多种场景,如陪伴服务、安防巡逻、物流配送等,为具身智能商业化提供支撑,推动机器人走向日常生活。 AI项目与工具 2025年06月11日 79 点赞 0 评论 608 浏览
Vision Search Assistant Vision Search Assistant (VSA) 是一种结合视觉语言模型与网络代理的框架,旨在提升模型对未知视觉内容的理解能力。它通过网络检索,使 VLMs 能够处理和回答有关未见图像的问题。VSA 在开放集和封闭集问答测试中表现出色,支持图像描述生成、网络知识搜索、协作生成等功能,可应用于图像识别、新闻分析、教育、电商和旅游等多个领域。 AI项目与工具 2025年06月12日 100 点赞 0 评论 605 浏览
腾讯元宝电脑版 腾讯公司推出的一款基于混元大模型的AI助手,拥有AI搜索、AI总结、AI写作等功能,并提供了多个特色AI应用,如AI头像、口语陪练、超能翻译等。 AI写作对话 2025年06月05日 69 点赞 0 评论 602 浏览
AnimateAnything AnimateAnything是一项由浙江大学与北京航空航天大学联合研发的统一可控视频生成技术。它能够根据相机轨迹、文本提示及用户动作注释等多样化控制信号生成高质量视频,并通过多尺度特征融合网络将这些信号转化为逐帧光流进行精准引导。此外,为解决大范围运动带来的视频闪烁问题,该技术采用了基于频率的稳定模块,显著增强了视频的时间稳定性。主要应用于影视制作、虚拟现实、游戏开发以及教育培训等多个领域。 AI项目与工具 2025年06月12日 36 点赞 0 评论 602 浏览
Manus Slides Manu发布的新功能。它可以通过单个提示快速生成结构化的PPT,通过 Manus 强大的AI代理能力,可自动生成与主题匹配的PPT结构,并优化内容布局。 PPT资源 2025年06月05日 71 点赞 0 评论 599 浏览
LLaVA LLaVA-OneVision是字节跳动开发的开源多模态AI模型,主要功能包括多模态理解、任务迁移、跨场景能力、开源贡献及高性能。该模型采用多模态架构,集成了视觉和语言信息,通过Siglip视觉编码器和Qwen-2语言模型,实现高效特征映射和任务迁移学习。广泛应用于图像和视频分析、内容创作辅助、聊天机器人、教育和培训以及安全监控等领域。 AI项目与工具 2025年06月12日 34 点赞 0 评论 599 浏览