模型 - 智狐AI导航

SmolVLM

SmolVLM是一款由Hugging Face开发的轻量级视觉语言模型，专为设备端推理设计。该模型具有三个版本，包括SmolVLM-Base、SmolVLM-Synthetic和SmolVLM-Instruct，分别适用于不同的应用场景。SmolVLM借鉴了Idefics3的理念，采用SmolLM2 1.7B作为语言主干，并通过像素混洗技术提升视觉信息的压缩效率。其训练数据集包括Cauldron和

AI项目与工具 2025年06月12日 62 点赞 0 评论 700 浏览

悟道大模型

北京智源研究院开发的一系列超大规模智能模型系统，悟道大模型旨在在语言处理领域达到或超越国际先进水平。

Ai平台模型 2025年06月05日 62 点赞 0 评论 700 浏览

Raphael AI

一款基于 FLUX.1-Dev 模型的免费 AI 图像生成工具，主打无需注册、无限生成、隐私保护等特点，适合个人创作者和企业使用。

Ai绘画生成 2025年06月05日 74 点赞 0 评论 700 浏览

Baichuan4

Baichuan4-Finance是一款针对金融领域的增强型大语言模型，融合了通用与专业能力。它支持金融知识的理解与生成、金融认证问题解答、多轮对话交互、文档处理以及数据分析等功能，并通过领域自约束训练、混合数据策略及强化学习等技术手段优化性能。该模型适用于智能投顾、自动化客户服务、风险评估与管理等多个应用场景，旨在促进金融行业的智能化转型。

AI项目与工具 2025年06月12日 63 点赞 0 评论 701 浏览

IMAGPose

IMAGPose是由南京理工大学开发的统一条件框架，用于人体姿态引导的图像生成。其核心功能包括多场景适应、细节与语义融合、灵活对齐及全局一致性保障。通过FLC、ILC和CVA模块，解决了传统方法在生成多样姿态图像时的局限性，适用于虚拟现实、影视制作、电商展示等多个领域。

AI项目与工具 2025年06月12日 42 点赞 0 评论 701 浏览

FluxMusic

FluxMusic 是一个开源的音乐生成工具，能够将文本描述转化为音乐。它采用先进的扩散模型和Transformer架构，通过修正流技术提高音乐的自然度和质量。该工具支持多种规模的模型，具备文本到音乐生成、语义理解、多模态融合等功能，适用于音乐创作、影视配乐、游戏音乐生成等多种场景。

AI项目与工具 2025年06月12日 66 点赞 0 评论 701 浏览

Seaweed APT

Seaweed APT是字节跳动研发的对抗性后训练模型，支持图像和视频的一站式生成。其通过在真实数据上进行对抗性训练，实现单步高质量输出，包括1024px图像和1280×720、24fps视频。该模型采用先进的生成器和判别器设计，结合近似R1正则化技术，提升训练稳定性和生成质量。适用于视频广告、影视创作、社交媒体等内容生产场景。

AI项目与工具 2025年06月12日 52 点赞 0 评论 701 浏览

爱享绘画

日常电脑可用的快速文生图免费软件，无需显卡和python，爱享绘画支持快速安装和各种模型加速技术，支持显卡加速和质量模式。

Ai绘画生成 2025年06月05日 64 点赞 0 评论 702 浏览

Llasa TTS

Llasa TTS是基于LLaMA架构的开源文本转语音模型，支持高质量语音合成、情感表达和音色克隆。采用单层VQ编解码器和Transformer结构，具备多语言支持及长文本处理能力，适用于智能助手、有声读物、游戏娱乐等场景。模型提供不同参数规模版本，支持零样本学习，提升语音自然度和表现力。

AI项目与工具 2025年06月12日 71 点赞 0 评论 702 浏览

Gemma 3n

Gemma 3n 是谷歌 I/O 开发者大会推出的端侧多模态 AI 模型，基于 Gemini Nano 架构，采用逐层嵌入技术，将内存占用压缩至 2-4B 参数模型水平。支持文本、图像、短视频和音频输入，可生成结构化文本输出，并具备音频转录、情感分析等功能。可在本地设备运行，响应时间低至 50 毫秒，适用于语音助手、内容生成和学术任务定制。

AI项目与工具 2025年06月11日 87 点赞 0 评论 702 浏览

模型

首页

模型

列表

默认

浏览次数

发布日期