模型 - 智狐AI导航

OmniAlign

OmniAlign-V是由多所高校联合开发的多模态大语言模型对齐数据集，包含约20万个多模态样本，涵盖自然图像和信息图表。其核心功能包括提供高质量训练数据、提升模型的开放式问答能力、增强推理与创造力，并支持模型持续优化。数据集通过图像筛选、任务设计及后处理优化确保数据质量，适用于多模态对话系统、图像辅助问答、创意生成等多个应用场景。

AI项目与工具 2025年06月12日 99 点赞 0 评论 676 浏览

谛韵DiffRhythm

DiffRhythm（谛韵）是一款由西北工业大学与香港中文大学（深圳）联合开发的端到端音乐生成工具，基于潜扩散模型技术，能在10秒内生成包含人声和伴奏的完整歌曲。用户只需提供歌词和风格提示，即可快速获得高质量音乐作品。其支持多语言输入，具备歌词对齐、风格定制、非自回归生成等技术优势，广泛应用于音乐创作、影视配乐、教育及个人创作等领域。

AI项目与工具 2025年06月12日 70 点赞 0 评论 750 浏览

NotaGen

NotaGen 是由多所高校联合研发的音乐生成模型，基于预训练、微调和强化学习技术，可生成高质量古典乐谱。支持通过“时期-作曲家-乐器”等条件控制音乐风格，具备高度音乐性与可控性。采用 CLaMP-DPO 方法优化生成质量，无需人工标注。适用于音乐创作、教育、影视配乐等多种场景，提供多种模型规模选择，满足不同需求。

AI项目与工具 2025年06月12日 66 点赞 0 评论 824 浏览

SpeciesNet

SpeciesNet 是 Google 开发的 AI 模型，用于识别相机陷阱图像中的动物物种，支持超过 2000 种标签分类，涵盖动物、分类群及非生物对象。基于 6500 万张图像训练，具备高效数据处理和跨场景识别能力，适用于野生动物监测、生物多样性研究及生态保护。模型开源，可在 GitHub 获取，支持开发人员部署与优化。

AI项目与工具 2025年06月12日 39 点赞 0 评论 512 浏览

SuperGPQA

SuperGPQA是由字节跳动豆包团队与M-A-P联合开发的知识推理基准测试集，覆盖285个研究生级学科，包含26529道题目。其核心功能是评估大语言模型的泛化能力和真实推理水平，42.33%的题目涉及数学计算或形式推理。该测试集采用专家与大语言模型协同构建的方式，确保题目质量，并涵盖STEM与非STEM领域，填补了长尾学科评估的空白。适用于模型性能评估、优化指导及跨学科研究等多种应用场景。

AI项目与工具 2025年06月12日 11 点赞 0 评论 775 浏览

Image

Image-01 是一款由 MiniMax 开发的文本到图像生成模型，能够根据文本描述精准生成高质量、高分辨率图像，支持多种纵横比输出。具备优秀的人物与物体渲染能力，适用于艺术创作、广告设计、影视制作等多个领域。支持高效批量生成，单次最多输出 9 张图像，每分钟处理 10 个请求，提升创作效率。采用扩散模型与 Transformer 架构，结合线性注意力与 MoE 技术，确保图像质量与生成效率。

AI项目与工具 2025年06月12日 95 点赞 0 评论 836 浏览

Fractal Generative Models

Fractal Generative Models 是一种基于分形架构的图像生成技术，通过递归调用“原子模块”实现逐像素生成高分辨率图像。该模型结合 Transformer 模块，采用分而治之策略，大幅提升计算效率。不仅适用于图像生成，还可扩展至分子结构、蛋白质等高维数据建模，具有广泛的应用潜力。

AI项目与工具 2025年06月12日 69 点赞 0 评论 691 浏览

MiniMind

MiniMind 是一款轻量级开源语言模型项目，具备极低的训练成本和高效的训练流程。其最小模型仅需 25.8M 参数，可在普通 GPU 上运行，支持多模态能力，如视觉语言模型 MiniMind-V。项目提供完整的训练代码，涵盖预训练、微调、LoRA、DPO 和模型蒸馏，兼容主流框架，适合初学者和开发者快速上手并应用于多个领域。

AI项目与工具 2025年06月12日 77 点赞 0 评论 810 浏览

MindLLM

MindLLM是由多所高校联合开发的AI模型，可将功能性磁共振成像（fMRI）信号解码为自然语言文本。其采用主体无关的fMRI编码器与大型语言模型结合，并引入脑指令调优技术，实现跨个体的高精度解码。该模型在多项任务中表现优异，具备广泛的应用潜力，包括医疗康复、脑机接口、神经科学研究及人机交互等领域。

AI项目与工具 2025年06月12日 58 点赞 0 评论 543 浏览

CogView4

CogView4是一款由智谱推出的开源文生图模型，具有60亿参数，支持中英文输入与高分辨率图像生成。在DPG-Bench基准测试中表现优异，达到当前开源模型的领先水平。模型具备强大的语义理解能力，尤其在中文文字生成方面表现突出，适用于广告设计、教育、儿童绘本及电商等领域。其技术架构融合扩散模型与Transformer，并采用显存优化技术提升推理效率。

AI项目与工具 2025年06月12日 83 点赞 0 评论 805 浏览

模型

首页

模型

列表

默认

浏览次数

发布日期