多模态
AnimeGamer
AnimeGamer是一款由腾讯PCG与香港城市大学联合开发的动漫生活模拟系统,基于多模态大语言模型(MLLM),支持玩家通过自然语言指令操控动漫角色,沉浸于动态游戏世界中。系统能生成高一致性的动态动画视频,并实时更新角色状态,如体力、社交和娱乐值。其核心技术包括多模态表示、视频扩散模型及上下文一致性机制,适用于个性化娱乐、创意激发、教育辅助及游戏开发等多种场景。
StreamBridge
StreamBridge是一款由苹果与复旦大学联合开发的端侧视频大语言模型框架,支持实时视频流的理解与交互。通过内存缓冲区和轮次衰减压缩策略,实现长上下文处理与主动响应。项目配套发布Stream-IT数据集,包含60万样本,适用于多种视频理解任务,展现出在视频交互、自动驾驶、智能监控等领域的应用前景。
TextHarmony
TextHarmony是一款由华东师范大学与字节跳动联合开发的多模态生成模型,擅长视觉与文本信息的生成与理解。该模型基于Slide-LoRA技术,支持视觉文本生成、编辑、理解及感知等功能,广泛应用于文档分析、场景文本识别、视觉问题回答、图像编辑与增强以及信息检索等领域。通过高质量数据集的构建与多模态预训练,TextHarmony在视觉与语言生成任务中表现出色。
