模型 - 智狐AI导航

Aero

Aero-1-Audio 是一款基于 Qwen-2.5-1.5B 的轻量级音频模型，拥有 1.5 亿参数，专注于长音频处理，支持连续 15 分钟音频输入并保持上下文连贯性。在语音识别、复杂音频分析及指令驱动任务中表现出色，具备高效的训练方法和多任务处理能力，适用于语音助手、实时转写、归档理解等场景。

AI项目与工具 2025年06月11日 43 点赞 0 评论 563 浏览

深言科技

深言科技是一家由孙茂松教授和其学生一同创办的创业公司，致力于使用世界领先的人工智能和自然语言处理技术，为数亿脑力劳动深言科技（DeepLang AI）者和数千万组织的信息处理全流...

创作工具 2026年06月22日 0 点赞 0 评论 563 浏览

Lyra

Lyra是一款由香港中文大学、SmartMore和香港科技大学联合研发的高效多模态大型语言模型（MLLM）。它通过整合视觉、语音和文本三种模态的信息，实现了强大的跨模态理解和推理能力。Lyra不仅擅长处理长语音数据，还支持流式文本-语音生成及跨模态信息交互，适用于智能助手、客户服务、教育培训、医疗健康等多个领域。

AI项目与工具 2025年06月12日 18 点赞 0 评论 563 浏览

Open-Sora是一个开源视频生成模型，基于DiT架构，通过三个阶段的训练（大规模图像预训练、大规模视频预训练和高质量视频数据微调），生成与文本描述相符的视频内容。该模型包括预训练的VAE、文本编码器和STDiT（Spatial-Temporal Diffusion Transformer）核心组件，利用空间-时间注意力机制和交叉注意力模块实现视频生成。项目旨在提供全面的视频生成模型训练过程，供

AI项目与工具 2024年01月01日 97 点赞 0 评论 563 浏览