模型 - 智狐AI导航

LatentLM

LatentLM是一款由微软与清华大学合作开发的多模态生成模型，能够统一处理文本、图像、音频等多种数据类型。它基于变分自编码器（VAE）和因果Transformer架构，支持自回归生成与跨模态信息共享，特别擅长图像生成、多模态语言模型及文本到语音合成等任务，其提出的σ-VAE进一步提升了模型的鲁棒性。

AI项目与工具 2025年06月12日 67 点赞 0 评论 725 浏览

AMD

AMD-135M是一款由AMD开发的小型语言模型，基于LLaMA2架构，具有文本生成、代码生成、自然语言理解和多平台兼容性等特点。该模型通过推测解码技术提高了推理速度，降低了内存占用，并在多项自然语言处理任务中表现出色。适用于聊天机器人、内容创作、编程辅助、语言翻译和文本摘要等多种应用场景。

AI项目与工具 2025年06月12日 100 点赞 0 评论 725 浏览

Finedefics

Finedefics是由北京大学彭宇新教授团队开发的细粒度多模态大模型，专注于提升多模态大语言模型在细粒度视觉识别任务中的表现。该模型通过引入对象的细粒度属性描述，结合对比学习方法，实现视觉对象与类别名称的精准对齐。在多个权威数据集上表现出色，准确率达76.84%。其应用场景涵盖生物多样性监测、智能交通、零售管理及工业检测等领域。

AI项目与工具 2025年06月12日 10 点赞 0 评论 725 浏览

CorrDiff

CorrDiff是NVIDIA开发的生成式AI模型，用于将低分辨率天气数据提升至高分辨率，提升天气预测的精度和效率。采用UNet与扩散模型结合的两步法，显著提升计算速度并降低能耗。支持多变量预测和极端天气模拟，适用于灾害预警和高精度气象分析，具备良好的部署灵活性。

AI项目与工具 2025年06月12日 87 点赞 0 评论 725 浏览

MHA2MLA

MHA2MLA是一种由多所高校与研究机构联合开发的数据高效微调方法，基于多头潜在注意力机制（MLA）优化Transformer模型的推理效率。通过Partial-RoPE和低秩近似技术，显著减少KV缓存内存占用，同时保持模型性能稳定。仅需少量数据即可完成微调，适用于边缘设备、长文本处理及模型迁移等场景，具备高兼容性和低资源消耗优势。

AI项目与工具 2025年06月12日 47 点赞 0 评论 724 浏览

MiniMind

MiniMind 是一款轻量级开源语言模型项目，具备极低的训练成本和高效的训练流程。其最小模型仅需 25.8M 参数，可在普通 GPU 上运行，支持多模态能力，如视觉语言模型 MiniMind-V。项目提供完整的训练代码，涵盖预训练、微调、LoRA、DPO 和模型蒸馏，兼容主流框架，适合初学者和开发者快速上手并应用于多个领域。

AI项目与工具 2025年06月12日 77 点赞 0 评论 724 浏览

Kaedim

无论您是构建VR游戏还是3D艺术，Kaedim都可以为您生成高清3D模型。不需要建模经验

创作工具 1970年01月01日 0 点赞 0 评论 724 浏览

CleanS2S

CleanS2S是一款流式语音到语音交互智能体原型，通过集成自动语音识别（ASR）、大型语言模型（LLM）、文本到语音（TTS）以及WebSockets等技术，提供高质量、实时的语音交互体验。它支持全双工交互和打断功能，可整合网络搜索和RAG模型以增强回答能力，适用于客户服务、智能家居控制、教育辅助、健康咨询及车载系统等多个领域。

AI项目与工具 2025年06月12日 99 点赞 0 评论 724 浏览

Gemini 2.0 Flash

Gemini 2.0 Flash是Google推出的多模态AI模型，支持文本与图像生成及对话式编辑，能根据自然语言生成连贯图像，并保持上下文一致性。其在长文本渲染方面表现优异，适用于广告、社交媒体、教育等领域。开发者可通过Google AI Studio或Gemini API进行测试和集成，广泛应用于创意插图、互动故事、设计辅助等场景。

AI项目与工具 2025年06月12日 18 点赞 0 评论 723 浏览

NoteLLM

NoteLLM 是一款基于多模态大型语言模型的笔记推荐框架，支持文本与图像信息的融合处理。通过自动生成标签、压缩嵌入、对比学习和指令微调等技术，提升推荐准确性与相关性。其升级版 NoteLLM-2 引入多模态上下文学习与晚期融合机制，增强视觉信息处理能力，适用于个性化推荐、冷启动优化及内容创作辅助等场景。

AI项目与工具 2025年06月11日 84 点赞 0 评论 722 浏览

模型

首页

模型

列表

默认

浏览次数

发布日期