模型 - 智狐AI导航

LegoGPT

LegoGPT是一款由卡内基梅隆大学开发的AI工具，可根据文本描述生成稳定、可组装的乐高积木模型。它结合自回归语言模型与大规模数据集，支持自动纹理上色、物理稳定性验证及手动或机器人组装。该工具能有效提升创意设计效率，适用于教育、玩具开发及自动化生产等多个场景。

AI项目与工具 2025年06月11日 73 点赞 0 评论 578 浏览

LTXV

LTXV-13B 是 Lightricks 推出的开源 AI 视频生成模型，拥有 130 亿参数，可在消费级显卡上高效运行，生成速度比同类产品快 30 倍。支持文本、图像转视频及多关键帧调节，具备多尺度渲染和高压缩率技术，适用于影视、广告、游戏、教育等多个领域，提升内容创作效率与质量。

AI项目与工具 2025年06月11日 18 点赞 0 评论 911 浏览

PixelHacker

PixelHacker是一款由华中科技大学与VIVO AI Lab联合开发的图像修复模型，采用潜在类别引导机制，通过线性注意力实现结构与语义一致性的高质量修复。基于大规模数据集训练并经过多基准微调，支持多种图像类型与分辨率。适用于照片修复、对象移除、艺术创作、医学影像及文化保护等领域。

AI项目与工具 2025年06月11日 50 点赞 0 评论 672 浏览

Seed1.5

Seed1.5-Embedding 是由字节跳动推出的高性能向量模型，基于 Seed1.5 训练优化，具有强大的语义编码和检索能力。模型采用 Siamese 双塔结构，支持多种向量维度，并通过两阶段训练提升表征能力。它适用于信息检索、文本分类、推荐系统、聚类分析等多种任务，尤其在复杂查询和推理任务中表现突出，具备良好的灵活性和可扩展性。

AI项目与工具 2025年06月11日 37 点赞 0 评论 671 浏览

FastVLM

FastVLM是一款高效的视觉语言模型，采用FastViTHD混合视觉编码器，显著提升高分辨率图像处理速度并减少token数量。其在保持高性能的同时，降低了计算成本和模型复杂度。适用于视觉问答、图文匹配、文档理解、图像描述生成等多模态任务，具备良好的实用性和扩展性。

AI项目与工具 2025年06月11日 85 点赞 0 评论 744 浏览

Audio

Audio-SDS是由NVIDIA研发的音频处理技术，基于文本提示引导音频生成，支持音效生成、音源分离、FM合成及语音增强等多种任务。该技术无需重新训练模型，即可将预训练音频扩散模型扩展为多功能工具，具备高效推理能力，适用于游戏、音乐制作、教育及智能家居等多个领域。

AI项目与工具 2025年06月11日 81 点赞 0 评论 660 浏览

PrimitiveAnything

PrimitiveAnything是由腾讯AIPD与清华大学联合开发的3D形状生成框架，通过将复杂3D形状分解为基本基元并自回归生成，实现高质量、高保真度的3D模型重建。其支持从文本或图像生成内容，具备高效存储、模块化设计及良好的泛化能力，适用于3D建模、游戏开发、UGC创作及VR/AR应用等领域。

AI项目与工具 2025年06月11日 14 点赞 0 评论 773 浏览

OptoChat AI

OptoChat AI是国内首款面向光子领域的AI大模型，整合超30万条光子芯片相关数据资源，具备强大的数据分析与智能算法能力。可实现光子芯片设计优化、工艺验证、文献检索等功能，显著提升研发效率，缩短设计周期。适用于科研、制造、教育及市场分析等多个场景，推动光子产业智能化发展。

AI项目与工具 2025年06月11日 33 点赞 0 评论 890 浏览

Muyan

Muyan-TTS是一款面向播客场景的开源文本转语音工具，基于超10万小时播客数据训练，支持零样本语音合成与说话人适配，可在0.33秒内生成1秒音频，适合实时与长内容合成。支持本地部署与API调用，应用于播客、有声书、视频配音、AI角色及新闻播报等领域，兼具高效性与灵活性。

AI项目与工具 2025年06月11日 94 点赞 0 评论 530 浏览

ViLAMP

ViLAMP是由蚂蚁集团与中国人民大学联合开发的视觉语言模型，专为高效处理长视频设计。采用混合精度策略，支持在单张A100 GPU上处理长达3小时的视频，提升处理效率并降低计算成本。具备长视频理解、关键信息提取、多任务处理等功能，适用于教育、监控、直播、影视制作及智能客服等场景。技术上通过差分关键帧选择与特征合并优化性能，实现精准且高效的视频分析。

AI项目与工具 2025年06月11日 37 点赞 0 评论 655 浏览

模型

首页

模型

列表

默认

浏览次数

发布日期