模型 - 智狐AI导航

StreamBridge

StreamBridge是一款由苹果与复旦大学联合开发的端侧视频大语言模型框架，支持实时视频流的理解与交互。通过内存缓冲区和轮次衰减压缩策略，实现长上下文处理与主动响应。项目配套发布Stream-IT数据集，包含60万样本，适用于多种视频理解任务，展现出在视频交互、自动驾驶、智能监控等领域的应用前景。

AI项目与工具 2025年06月11日 41 点赞 0 评论 741 浏览

Whisper语音识别模型

Whisper 是一种通用的语音识别模型。它在不同音频的大型数据集上进行训练，也是一个多任务模型，可以执行多语言语音识别以及语音翻译和语言识别。

Ai开源项目 2025年06月05日 90 点赞 0 评论 741 浏览

Venturekit AI

可为企业家和企业主生成全面且量身定制的商业计划的AI工具，只需回答几个关于您的业务的问题，Venturekit 就会为您制定一份全面的商业计划。

创业营销 2025年06月05日 80 点赞 0 评论 740 浏览

日日新SenseNova V6

日日新SenseNova V6是商汤科技推出的第六代多模态大模型，基于6000亿参数架构，支持文本、图像、视频的原生融合。具备强推理、长记忆与情感表达能力，适用于视频分析、教育辅导、智能客服、具身智能等多个领域，提升交互体验与内容处理效率。

AI项目与工具 2025年06月11日 19 点赞 0 评论 739 浏览

Joy industrial

Joy Industrial是京东工业推出的行业首个以供应链为核心的工业大模型，基于“工业大模型+供应链场景应用”双引擎，构建全栈产品矩阵。该模型提供需求代理、运营代理、商品专家、集成专家、关务代理等AI产品，解决数据孤岛、协同冲突等问题，助力产业降本增效、合规保供，推动产业链结构性变革，支持制造业供应链优化、商品质量与合规管理、企业数字化转型及出海支持等场景。

AI项目与工具 2025年06月11日 72 点赞 0 评论 739 浏览

AvatarGO

AvatarGO是由南洋理工大学、上海AI Lab和香港大学联合开发的AI框架，能够根据文本描述生成高质量的4D人体与物体交互场景。其核心在于利用LLM引导的接触重定位、空间感知的分数蒸馏采样和运动优化技术，实现精确的接触识别与动画生成，有效解决穿透问题。支持多种人物与物体组合，适用于虚拟导购、展厅讲解、VR/AR内容创作等多个领域。

AI项目与工具 2025年06月12日 17 点赞 0 评论 739 浏览

VideoDrafter

一个高质量视频生成的开放式扩散模型，相比之前的生成视频模型，VideoDrafter最大的特点是能在主体不变的基础上，一次性生成多个场景的视频。

Ai开源项目 2025年06月05日 89 点赞 0 评论 739 浏览

NeMo

NeMo 是一款基于 NVIDIA 技术的端到端云原生框架，专为生成式 AI 模型的设计与部署而打造。它具备模块化架构、多模态支持、优化算法及分布式训练能力，可应用于语音识别、自然语言处理、文本到语音转换、对话式 AI 等多个领域，同时支持预训练模型微调和端到端开发流程，为企业提供高效灵活的解决方案。

AI项目与工具 2025年06月12日 38 点赞 0 评论 739 浏览

FireRedASR

FireRedASR是小红书推出的工业级自动语音识别（ASR）模型系列，支持普通话、中文方言和英语，具备高精度和高效推理能力。其包含FireRedASR-LLM和FireRedASR-AED两个版本，分别聚焦于极致精度和计算效率。模型在多个场景如智能助手、视频字幕生成、歌词识别和语音输入中表现出色，且已开源，推动语音识别技术的发展。

AI项目与工具 2025年06月12日 82 点赞 0 评论 738 浏览

DiTCtrl

DiTCtrl是一种基于多模态扩散变换器架构的视频生成工具，能够利用多个文本提示生成连贯且高质量的视频内容，无需额外训练即可实现零样本多提示视频生成。它通过KV共享和潜在混合策略优化不同提示间的平滑过渡，同时在MPVBench基准上表现出色，适用于电影、游戏、广告及新闻等多个领域。

AI项目与工具 2025年06月12日 18 点赞 0 评论 737 浏览

模型

首页

模型

列表

默认

浏览次数

发布日期