模型 - 智狐AI导航

Mirage Studio

一款基于自研全模态基础模型的AI视频生成工具，可根据音频、文本、图像等输入自动生成具有真实情感和动作的虚拟角色视频。

Ai视频生成 2025年06月05日 44 点赞 0 评论 706 浏览

网易AI创意工坊

网易AI创意工坊是一款优秀的人工智能绘画工具，用户无需部署、无需安装即可体验Stable Diffusion。

Ai绘画生成 2025年06月05日 91 点赞 0 评论 707 浏览

Sonauto AI

一款AI音乐生成器，允许用户通过将文本提示、歌词或旋律转换为完整的不同风格的歌曲。它采用了潜在扩散模型，这使得它与其他人工智能音乐生成模型相比更加可控。

Ai语音工具 2025年06月05日 94 点赞 0 评论 707 浏览

LCVD

LCVD是一种由四川大学开发的高保真肖像动画生成框架，支持光照可控的动态视频生成。它通过分离肖像的内在与外在特征，并结合多条件分类器自由引导机制，实现对光照和姿态的精细控制。LCVD在图像质量、视频一致性和光照真实感方面表现突出，适用于虚拟现实、视频会议、影视制作及内容创作等多个领域。

AI项目与工具 2025年06月12日 93 点赞 0 评论 707 浏览

Imagen 4是谷歌推出的最新图像生成AI模型，支持高达2K分辨率的图像生成，具备出色的细节呈现能力，可清晰展示复杂织物纹理、水滴折射及动物毛发质感。其文本渲染能力显著提升，适合广告、漫画等设计场景。支持多种艺术风格，包括超现实、抽象、插图和摄影，满足多样化创作需求。同时，Imagen 4拥有快速生成模式和高效的特征蒸馏技术，提升了生成速度，并已集成到Gemini应用、Google Worksp

AI项目与工具 2025年06月11日 76 点赞 0 评论 708 浏览

Ola

Ola是一款由多机构联合开发的全模态语言模型，支持文本、图像、视频和音频等多种输入形式。通过渐进式模态对齐策略，逐步扩展模型的多模态理解能力，同时采用流式解码技术提升交互体验。其架构融合多种编码器与解码器，结合局部-全局注意力机制，实现高效多模态处理，在多项任务中表现优异。

AI项目与工具 2025年06月12日 98 点赞 0 评论 708 浏览

ASAP

ASAP是一种由卡内基梅隆大学与英伟达联合开发的两阶段框架，用于解决仿人机器人在模拟与现实之间动力学不匹配的问题。它通过预训练阶段在模拟环境中学习运动策略，并在后训练阶段利用真实数据训练Delta动作模型，补偿动力学差异。该框架提高了机器人在复杂任务中的敏捷性、协调性和运动精度，支持多种应用场景，如体育、救援、工业、家庭服务及虚拟现实等，为仿人机器人的实际应用提供了高效的技术方案。

AI项目与工具 2025年06月12日 19 点赞 0 评论 708 浏览

Unique3D

Unique3D是一款由清华大学团队开发的开源框架，专注于单张图像到3D模型的转换。它利用多视图扩散模型和法线扩散模型，结合多级上采样策略和ISOMER算法，能够在短时间内生成高保真度且纹理丰富的3D网格模型。Unique3D能够从单个2D图像生成3D网格模型、多个正交视图图像和法线贴图，并通过多级上采样过程提高图像分辨率，最终实现颜色和几何细节的高度整合。

AI项目与工具 2025年06月12日 28 点赞 0 评论 708 浏览

Parakeet TDT 0.6B

Parakeet TDT 0.6B 是一款由英伟达开发的开源自动语音识别（ASR）模型，采用 FastConformer 和 TDT 架构，具备高速转录、高精度识别、歌词转录、文本格式化等功能。模型在 Hugging Face Open ASR Leaderboard 中表现优异，实时因子高达 3386，适用于会议记录、法律医疗、字幕生成及音乐索引等多种场景。

AI项目与工具 2025年06月11日 36 点赞 0 评论 708 浏览

DianJin

DianJin-R1是由阿里云与苏州大学联合开发的金融领域推理增强型大模型，基于CFLUE、FinQA和CCC等高质量数据集训练，通过监督微调和强化学习优化，提升金融任务的推理能力。模型支持结构化输出，具备高效推理与低计算成本优势，在合规检查、金融问答、考试辅助等领域表现优异，适用于多种金融应用场景。

AI项目与工具 2025年06月11日 68 点赞 0 评论 709 浏览

模型

首页

模型

列表

默认

浏览次数

发布日期