模型

FaceLift

FaceLift是一种由Adobe与加州大学默塞德分校联合开发的AI工具,能够从单张人脸图像中重建出高精度的3D头部模型。其核心技术包括多视图扩散模型和GS-LRM重建器,支持多视角一致性、身份保持和4D新视图合成,适用于虚拟现实、数字娱乐、远程交互等多个领域。该工具具备强大的几何与纹理细节表现能力,且可与2D面部重动画技术集成,广泛应用于内容创作与科研场景。

AIMv2

AIMv2是苹果公司开发的开源多模态自回归预训练视觉模型,通过图像与文本的深度融合提升视觉理解能力。其采用图像块与子词标记拼接的方式进行自回归预训练,支持多种参数规模,适用于不同设备。具备视觉问答、指代表达理解、图像字幕生成、多媒体检索等功能,并可无缝集成到大型语言模型中。模型在多个视觉任务中表现优异,具备良好的可扩展性和零样本适应能力。

k1.5

k1.5 是月之暗面推出的多模态思考模型,具备强大的数学、代码、视觉推理能力。在 short-CoT 模式下,性能超越主流模型 550%,在 long-CoT 模式下达到 OpenAI o1 水平。支持文本与图像的联合处理,适用于复杂推理、跨模态分析、教育、科研等领域。通过长上下文扩展和策略优化,提升推理效率与准确性。

孟子 GPT 大语言模型

孟子 GPT 大语言模型是澜舟科技推出的一款强大的AI工具,它具备处理复杂NLP任务的能力,支持多语言和多模态输入,并在多个领域内展现出卓越的性能。

Moonshine

Moonshine是一款专为资源受限设备设计的高效语音识别模型,支持实时语音转文本,具有低延迟、高准确率的特点。它基于编码器-解码器架构和旋转位置嵌入技术,适应不同长度的音频输入,计算需求随音频长度变化而调整,适合边缘设备部署。主要应用于会议转录、语音助手、听力辅助及多语言翻译等领域。

MetaMorph

MetaMorph是一款基于多模态大模型的工具,通过Visual-Predictive Instruction Tuning(VPiT)技术实现文本和视觉token的生成。它在视觉理解和生成领域表现优异,能够克服其他生成模型的常见失败模式,同时有效处理专业术语和复杂语义问题。MetaMorph展示了统一建模方法的优势,支持多模态数据的高效处理,并在视觉生成与理解基准测试中取得竞争力表现。

360AI助手

360AI助手是一款由360集团联合15家国内顶尖AI大模型厂商推出的创新型AI产品,集成了包括Kimi、智谱AI、豆包、商汤科技、讯飞星火、文心一言和通义千问等多个AI大模型。无需安装插件,用户即可在360的产品中直接享受AI服务。其主要功能包括多模型集成、结果对比验证、智能意图识别、一站式AI办公解决方案等,适用于学生、教师、办公人员、程序员和内容创作者等多种人群。

琴乐大模型

琴乐大模型是一款由腾讯AI Lab与腾讯TME天琴实验室联合开发的人工智能音乐创作工具。该工具能够根据用户输入的关键词、描述性语句或音频,生成高质量的立体声音频或多轨乐谱,并支持自动编辑功能。琴乐大模型采用先进的技术框架,包括音频文本对齐、乐谱/音频表征提取、大语言模型预测以及流匹配和声码器技术,确保生成的音乐符合音乐理论和人类审美标准。

StochSync

StochSync是一种基于扩散同步(DS)和分数蒸馏采样(SDS)的图像生成技术,适用于360°全景图和3D纹理生成。它通过引入最大随机性与多步去噪方法,兼顾图像细节与连贯性,无需额外训练即可生成高质量图像。支持高分辨率输出,适用于复杂几何纹理化任务。

VideoRefer

VideoRefer是由浙江大学与阿里达摩院联合开发的视频对象感知与推理系统,基于增强型视频大型语言模型,实现对视频中对象的细粒度理解与分析。其核心包括大规模视频数据集、多功能空间-时间编码器和全面评估基准,支持对象识别、关系分析、推理预测及多模态交互等功能,适用于视频剪辑、教育、安防、机器人控制和电商等多个领域。