模型
Transfusion
Transfusion是由Meta公司开发的多模态AI模型,能够同时生成文本和图像,并支持图像编辑功能。该模型通过结合语言模型的下一个token预测和扩散模型,在单一变换器架构上处理混合模态数据。Transfusion在预训练阶段利用了大量的文本和图像数据,表现出强大的扩展性和优异的性能。其主要功能包括多模态生成、混合模态序列训练、高效的注意力机制、模态特定编码、图像压缩、高质量图像生成、文本生成
Poly Haven
基于CC0共享协议的高质量3D模型、纹理贴图资源下载网站,Poly Haven无需注册账户直接下载,可免费商用。
AbletonMCP
AbletonMCP 是一个开源工具,通过模型上下文协议(MCP)将 Ableton Live 与 Claude AI 连接,实现音乐制作过程中的 AI 辅助。支持双向通信,允许用户通过 AI 创建和编辑 MIDI 与音频轨道、选择乐器和效果、控制播放等。技术上采用 JSON 协议和套接字通信,适用于音乐创作、实时制作、教学及音频后期处理等多种场景。
POINTS 1.5
POINTS 1.5 是腾讯微信开发的多模态大模型,基于LLaVA架构设计,包含视觉编码器、投影器和大型语言模型。它在复杂场景OCR、推理、关键信息提取、数学问题解析及图片翻译等方面表现突出,适用于票据识别、自动客服、新闻摘要、学术论文处理、旅游翻译和在线教育等多个领域。该模型通过高效的数据处理和特征融合技术,实现了跨模态任务的精准处理与高效输出。
