Transfusion
Transfusion是由Meta公司开发的多模态AI模型,能够同时生成文本和图像,并支持图像编辑功能。该模型通过结合语言模型的下一个token预测和扩散模型,在单一变换器架构上处理混合模态数据。Transfusion在预训练阶段利用了大量的文本和图像数据,表现出强大的扩展性和优异的性能。其主要功能包括多模态生成、混合模态序列训练、高效的注意力机制、模态特定编码、图像压缩、高质量图像生成、文本生成
WorldSense
WorldSense是由小红书与上海交通大学联合开发的多模态基准测试工具,用于评估大型语言模型在现实场景中对视频、音频和文本的综合理解能力。该平台包含1662个同步视频、3172个问答对,覆盖8大领域及26类认知任务,强调音频与视频信息的紧密耦合。所有数据经专家标注并多重验证,确保准确性。适用于自动驾驶、智能教育、监控、客服及内容创作等多个领域,推动AI模型在多模态场景下的性能提升。
yourmove.ai
YourMove.ai 是一款基于 AI 技术的约会助手,可帮助用户优化个人资料、生成个性化开场白及回复建议,提升在线约会的匹配率和沟通效率。其核心功能包括 AI 照片增强、数据驱动的资料优化建议以及多场景下的对话支持,适用于初识、持续交流、资料完善等不同阶段,帮助用户更高效地进行社交互动。