场景
VideoLLaMB
VideoLLaMB 是一个创新的长视频理解框架,通过引入记忆桥接层和递归记忆令牌来处理视频数据,确保在分析过程中不会丢失关键的视觉信息。该模型专为理解长时间视频内容而设计,能够保持语义上的连续性,并在多种任务中表现出色,例如视频问答、自我中心规划和流式字幕生成。VideoLLaMB 能够有效处理视频长度的增加,同时保持高性能和成本效益,适用于学术研究和实际应用。
---
HelloBench
HelloBench 是一款开源基准测试工具,专注于评估大型语言模型在长文本生成任务中的表现。它基于布鲁姆分类法设计了五个子任务,并采用 HelloEval 方法实现高效自动化评估。该工具支持多领域应用,包括模型开发、学术研究、产品测试等,同时揭示了现有模型在长文本生成中的局限性。
DNA-RENDERING数字人库
DNA-Rendering是一个具有高多样性和高保真度的神经演员渲染库,它为广泛的研究任务提供了丰富的数据和高质量的注释。
Vision Search Assistant
Vision Search Assistant (VSA) 是一种结合视觉语言模型与网络代理的框架,旨在提升模型对未知视觉内容的理解能力。它通过网络检索,使 VLMs 能够处理和回答有关未见图像的问题。VSA 在开放集和封闭集问答测试中表现出色,支持图像描述生成、网络知识搜索、协作生成等功能,可应用于图像识别、新闻分析、教育、电商和旅游等多个领域。