模型

浦语灵笔

浦语灵笔IXC-2.5是一款由上海人工智能实验室开发的多模态大模型,具备7B规模的大型语言模型后端,能够处理长上下文、超高分辨率图像和细粒度视频理解,支持多轮多图像对话。该模型可以自动生成网页代码和高质量图文内容,在多模态基准测试中表现出色,性能可与OpenAI的GPT-4V相媲美。

InspireMusic

InspireMusic是由阿里巴巴通义实验室开发的AI音乐生成工具,支持通过文字描述或音频提示生成多种风格的音乐作品。其核心技术包括音频 tokenizer、自回归 Transformer 模型、扩散模型(CFM)和 Vocoder,实现文本到音乐的转换、音乐续写及高质量音频输出。该工具支持长音频生成、多种采样率,并提供快速与高音质两种推理模式,适用于音乐创作、音频处理及个性化音乐生成等场景。

哩布哩布AI

liblibai哩布哩布AI,原创AI模型分享社区,这里有最新、热门的模型素材,10万+模型免费下载。欢迎每一位创作者加入,分享你的作品。与中国原创模型作者交流,共同探索AI绘画。

无问芯穹

​无问芯穹致力于提供卓越的AGI算力解决方案,以大模型能效优化工具包为核心,向下联动多家国产芯片公司,向上通过智算云服务、智算一体机多种方式服务大模型算法企业,协同算力、算法、生态推动行业大模型的高效落地,构建AGI时代的大模型基础设施。

SoraWebui

一个开源项目,允许用户使用 OpenAI Sora 模型使用文本在线生成视频,从而简化视频创建,并具有轻松的一键网站部署功能。

Aether

Aether是由上海AI Lab开发的生成式世界模型,基于合成数据训练,具备4D动态重建、动作条件视频预测和目标导向视觉规划等核心功能。它通过三维时空建模和多任务协同优化,实现对环境的精准感知与智能决策,具有出色的零样本泛化能力,适用于机器人导航、自动驾驶、虚拟现实等多个领域。

MineWorld

MineWorld是由微软研究院开发的基于《我的世界》的实时交互式AI模型,采用视觉-动作自回归Transformer架构,实现高保真、可控性强的场景生成。通过并行解码算法,模型可在每秒4至7帧的速度下实现实时交互,适用于具身智能、强化学习、游戏代理及视频生成等场景。其核心技术包括图像与动作标记器、Transformer解码器以及优化的训练与推理流程。

Concept Lancet

Concept Lancet(CoLan)是一种基于潜在空间稀疏分解的图像编辑框架,能够实现零样本、即插即用的精确概念替换、添加与移除。它通过构建视觉概念字典,结合扩散模型生成高质量图像,保持视觉一致性。适用于创意设计、影视制作、游戏开发等多个领域,提供高效的图像编辑解决方案。

SketchVideo

SketchVideo是一款基于草图和文本提示的视频生成与编辑框架,由多所高校与企业联合研发。它利用DiT模型和草图控制网络,实现对视频内容的精细控制,支持动态调整与细节保留。该工具适用于多种场景,如影视制作、教育、游戏开发等,具备高效生成与高质量输出能力。