模型 - 智狐AI导航

FireRedASR

FireRedASR是小红书推出的工业级自动语音识别（ASR）模型系列，支持普通话、中文方言和英语，具备高精度和高效推理能力。其包含FireRedASR-LLM和FireRedASR-AED两个版本，分别聚焦于极致精度和计算效率。模型在多个场景如智能助手、视频字幕生成、歌词识别和语音输入中表现出色，且已开源，推动语音识别技术的发展。

AI项目与工具 2025年06月12日 82 点赞 0 评论 737 浏览

MVoT

MVoT是一种多模态推理框架，通过生成图像形式的推理痕迹，增强多模态大语言模型在复杂空间推理任务中的表现。其核心技术包括多模态推理范式、token discrepancy loss以及递归生成机制，有效提升推理准确性和可解释性。该工具适用于机器人导航、自动驾驶、智能教育、医疗影像分析及VR/AR交互等多个领域，具有广泛的应用潜力。

AI项目与工具 2025年06月12日 57 点赞 0 评论 735 浏览

DynVFX

DynVFX是一种基于文本指令的视频增强技术，能够将动态内容自然地融入真实视频中。它结合了文本到视频扩散模型与视觉语言模型，通过锚点扩展注意力机制和迭代细化方法，实现新内容与原始视频的像素级对齐和融合。无需复杂输入或模型微调，即可完成高质量的视频编辑，适用于影视特效、内容创作及教育等多个领域。

AI项目与工具 2025年06月12日 85 点赞 0 评论 974 浏览

WorldSense

WorldSense是由小红书与上海交通大学联合开发的多模态基准测试工具，用于评估大型语言模型在现实场景中对视频、音频和文本的综合理解能力。该平台包含1662个同步视频、3172个问答对，覆盖8大领域及26类认知任务，强调音频与视频信息的紧密耦合。所有数据经专家标注并多重验证，确保准确性。适用于自动驾驶、智能教育、监控、客服及内容创作等多个领域，推动AI模型在多模态场景下的性能提升。

AI项目与工具 2025年06月12日 61 点赞 0 评论 595 浏览

Kiln AI

Kiln AI 是一款开源 AI 开发工具，支持多平台使用，提供零代码微调、合成数据生成及团队协作功能。内置交互式工具，兼容多种模型和 AI 提供商，支持 Git 版本控制与自动部署，适用于智能客服、医疗、教育、金融等场景，注重数据隐私与安全性。

AI项目与工具 2025年06月12日 59 点赞 0 评论 700 浏览

MotionCanvas

MotionCanvas是一种图像到视频生成工具，能将静态图像转化为动态视频。它提供相机与物体运动的联合控制，支持复杂轨迹设计和局部运动调整，具备3D感知能力，可生成高质量长视频。适用于电影制作、动画创作、VR/AR、游戏开发及教育等多个领域。

AI项目与工具 2025年06月12日 79 点赞 0 评论 729 浏览

LangBot

LangBot 是一款开源的多平台即时通讯机器人，支持多种主流通信工具及大语言模型。具备多模态交互、多轮对话、插件扩展和安全管理等功能，适用于企业客服、个人助理、社区管理、教育辅导和内容创作等场景，提供灵活、安全的自动化服务。

AI项目与工具 2025年06月12日 18 点赞 0 评论 598 浏览

LLMDet

LLMDet是一款基于大型语言模型协同训练的开放词汇目标检测器，能够识别训练阶段未见过的目标类别。其通过结合图像和文本信息，实现高精度的零样本检测，并支持图像描述生成与多模态任务优化，适用于多种实际应用场景。

AI项目与工具 2025年06月12日 68 点赞 0 评论 541 浏览

VisoMaster

VisoMaster 是一款基于 AI 的面部编辑与换脸工具，支持图片、视频及直播场景，能生成自然逼真的换脸效果。采用 GPU 加速与自定义模型功能，适用于影视、广告、视频创作等领域。核心技术包括深度学习与 GANs，实现高精度面部特征提取与图像合成，支持实时预览与参数调整，提升用户体验与效率。

AI项目与工具 2025年06月12日 82 点赞 0 评论 847 浏览

ACE++ 是阿里巴巴通义实验室推出的图像生成与编辑工具，支持指令化操作和上下文感知内容填充。其包含多个专用模型，如 ACE++ Portrait 用于人物肖像生成，ACE++ Subject 保证主题一致性，ACE++ LocalEditing 实现局部图像修改。支持虚拟试穿、风格化编辑、照片修复等多种任务，适用于艺术创作、广告设计及影视制作等领域。技术上采用改进的 LCU++ 架构与两阶段训练

AI项目与工具 2025年06月12日 56 点赞 0 评论 683 浏览

模型

首页

模型

列表

默认

浏览次数

发布日期