模型

Raphael AI

一款基于 ​​FLUX.1-Dev 模型​​ 的免费 AI 图像生成工具,主打 ​​无需注册、无限生成、隐私保护​​ 等特点,适合个人创作者和企业使用。

讯飞AI大学堂

讯飞开放平台打造的AI专业学习、交流和培训的AI课堂。为AI领域开发者、爱好者提供专业、有趣、实用的AI培训课程,致力于推动AI技术的普及和应用。

GAS

GAS是一种从单张图像生成高质量、视角一致且时间连贯虚拟形象的AI工具,结合3D人体重建与扩散模型技术,支持多视角合成与动态姿态动画。其统一框架提升模型泛化能力,适用于游戏、影视、体育及时尚等领域,具备高保真度与真实感。

CAR

CAR(Certainty-based Adaptive Reasoning)是字节跳动联合复旦大学推出的自适应推理框架,旨在提升大型语言模型(LLM)和多模态大型语言模型(MLLM)的推理效率与准确性。该框架通过动态切换短答案和长形式推理,根据模型对答案的置信度(PPL)决定是否进行详细推理,从而在保证准确性的同时节省计算资源。CAR适用于视觉问答(VQA)、关键信息提取(KIE)等任务,在数学

Objaverse-3D物体数据集

Objaverse 是一个为3D领域提供巨大资源的数据库,它不仅支持 AI 模型的训练和3D内容的生成,还与流行的3D编辑软件 Blender 兼容。

Westlake

Westlake-Omni是西湖心辰推出的一款开源中文情感端到端语音交互大模型,融合了语音识别、自然语言处理、情感理解和对话管理等功能,具备实时性和端到端交互特性。它通过深度学习技术和离散表示法,实现从语音输入到语音输出的全流程自动化,生成自然流畅的语音回应,并广泛应用于智能助手、客户服务、教育辅助、健康医疗等领域。

CogVideo

目前最大的通用领域文本生成视频预训练模型,含94亿参数。CogVideo将预训练文本到图像生成模型(CogView2)有效地利用到文本到视频生成模型,并使用了多帧率分层训练策略。

VLM

VLM-R1 是由 Om AI Lab 开发的视觉语言模型,基于 Qwen2.5-VL 架构,结合强化学习优化技术,具备精准的指代表达理解和多模态处理能力。该模型适用于复杂场景下的视觉分析,支持自然语言指令定位图像目标,并在跨域数据中表现出良好的泛化能力。其应用场景涵盖智能交互、无障碍辅助、自动驾驶、医疗影像分析等多个领域。

SUPIR

SUPIR是一种创新的图像修复和画质增强方法,基于大规模生成模型StableDiffusion-XL(SDXL)和模型扩展技术。它通过深度学习和多模态方法实现低质量图像的高质量恢复,支持通过文本提示进行图像恢复的精细控制。SUPIR适用于多种应用场景,如老照片修复、模糊图像增强、噪点去除和色彩校正与增强。

phenaki

phenaki一种从文本生成视频的模型,提示可以随时间变化,视频可以长达数分钟。