模型

讯飞AI大学堂

讯飞开放平台打造的AI专业学习、交流和培训的AI课堂。为AI领域开发者、爱好者提供专业、有趣、实用的AI培训课程,致力于推动AI技术的普及和应用。

GAS

GAS是一种从单张图像生成高质量、视角一致且时间连贯虚拟形象的AI工具,结合3D人体重建与扩散模型技术,支持多视角合成与动态姿态动画。其统一框架提升模型泛化能力,适用于游戏、影视、体育及时尚等领域,具备高保真度与真实感。

Objaverse-3D物体数据集

Objaverse 是一个为3D领域提供巨大资源的数据库,它不仅支持 AI 模型的训练和3D内容的生成,还与流行的3D编辑软件 Blender 兼容。

CogVideo

目前最大的通用领域文本生成视频预训练模型,含94亿参数。CogVideo将预训练文本到图像生成模型(CogView2)有效地利用到文本到视频生成模型,并使用了多帧率分层训练策略。

Raphael AI

一款基于 ​​FLUX.1-Dev 模型​​ 的免费 AI 图像生成工具,主打 ​​无需注册、无限生成、隐私保护​​ 等特点,适合个人创作者和企业使用。

SUPIR

SUPIR是一种创新的图像修复和画质增强方法,基于大规模生成模型StableDiffusion-XL(SDXL)和模型扩展技术。它通过深度学习和多模态方法实现低质量图像的高质量恢复,支持通过文本提示进行图像恢复的精细控制。SUPIR适用于多种应用场景,如老照片修复、模糊图像增强、噪点去除和色彩校正与增强。

Westlake

Westlake-Omni是西湖心辰推出的一款开源中文情感端到端语音交互大模型,融合了语音识别、自然语言处理、情感理解和对话管理等功能,具备实时性和端到端交互特性。它通过深度学习技术和离散表示法,实现从语音输入到语音输出的全流程自动化,生成自然流畅的语音回应,并广泛应用于智能助手、客户服务、教育辅助、健康医疗等领域。

phenaki

phenaki一种从文本生成视频的模型,提示可以随时间变化,视频可以长达数分钟。

DiffusionGPT

DiffusionGPT是一款基于大型语言模型的开源文本到图像生成系统,由字节跳动与中山大学联合开发。它采用思维树和优势数据库技术,能够解析和处理多样化的文本提示,生成高质量图像。系统通过多模型的选择与集成、基于人类反馈的优化以及高效的图像生成执行,实现了从文本到图像的无缝转换。DiffusionGPT适用于多种应用场景,具有广泛适用性和灵活性。

CAR

CAR(Certainty-based Adaptive Reasoning)是字节跳动联合复旦大学推出的自适应推理框架,旨在提升大型语言模型(LLM)和多模态大型语言模型(MLLM)的推理效率与准确性。该框架通过动态切换短答案和长形式推理,根据模型对答案的置信度(PPL)决定是否进行详细推理,从而在保证准确性的同时节省计算资源。CAR适用于视觉问答(VQA)、关键信息提取(KIE)等任务,在数学