模型

Lobe Vidol

Lobe Vidol是一个开源的数字人创作平台,支持用户轻松创建和定制虚拟偶像。它具备流畅的对话交互、背景设定、动作库、角色编辑功能,还支持MMD舞蹈和PMX舞台加载。通过TTS与STT技术,Lobe Vidol实现了语音与文本的双向转换,提供沉浸式用户体验。 ---

LOKI

LOKI是一个由中山大学与上海AI实验室联合推出的合成数据检测基准,用于评估大型多模态模型在识别视频、图像、3D模型、文本及音频等多模态合成数据方面的性能。它包含超过18,000个问题,涵盖26个子类别,支持多层次标注和细粒度异常注释,并通过自然语言解释增强模型的可解释性。LOKI还通过对比多种开源和闭源模型的表现,揭示了这些模型在合成数据检测任务中的优势与不足。

VFusion3D

VFusion3D 是一个由Meta和牛津大学研究团队共同开发的AI生成3D模型工具,可以从单张图片或文本描述生成高质量的3D对象。它通过微调预训练的视频AI模型生成合成的3D数据,解决了3D训练数据稀缺的问题。该工具具备快速生成3D模型、多视角渲染、高质量输出等功能,并广泛应用于虚拟现实、游戏开发、电影制作和3D打印等领域。

浪潮海若大模型

浪潮海若大模型是一个多功能、高效率的行业解决方案,它通过整合先进的大数据和人工智能技术,为不同行业提供定制化的服务。

TechGPT

TechGPT是一个强大的垂直领域大语言模型,具备处理专业领域文本的能力,并在信息抽取、智能问答和序列生成等方面表现出色。

Llama 4

Llama 4 是 Meta 推出的多模态 AI 模型系列,采用混合专家(MoE)架构,提升计算效率。包含 Scout 和 Maverick 两个版本,分别适用于不同场景。Scout 支持 1000 万 token 上下文,Maverick 在图像理解和创意写作方面表现优异。Llama 4 支持 200 种语言,具备强大的语言生成与多模态处理能力,适用于对话系统、文本生成、代码辅助、图像分析等多个

Phraser

Phraser 是一款人工智能驱动的工具,专为 Midjourney、Dall-E、Stable Diffusion、Disco Diffusion 和 Craiyon 等领先艺术生成器的快速创作而设计。

Playground v3

Playground v3是一款基于大型语言模型(LLM)的文本到图像生成工具,具备240亿参数量的潜扩散架构(LDM),能够精准理解和生成复杂的图像内容,支持RGB颜色控制和多语言文本生成。其核心功能包括文本到图像生成、图形设计、RGB颜色控制和多语言支持,广泛应用于设计、内容创作、游戏开发、广告等多个领域。

RDT

RDT是清华大学AI研究院推出的一款双臂机器人操作任务扩散基础模型,拥有十亿参数量,可自主完成复杂任务,如调酒和遛狗。该模型基于模仿学习,具备强大的泛化能力和操作精度,支持多种模态输入和少样本学习。RDT已在餐饮、家庭、医疗、工业及救援等领域展现广泛应用前景,推动机器人技术发展。