ViT - 智狐AI导航

Fish Speech

Fish Speech是一款开源的文本到语音（TTS）工具，支持中文、英文和日文。它通过大约15万小时的多语种数据训练，实现了接近人类水平的语音合成效果。该工具的特点包括低显存需求（仅需4GB）、快速推理速度、高自定义性和灵活性。Fish Speech支持多种语音生成模型，如VITS2、Bert-VITS2等，适用于智能助手、自动客服、语言学习等多个领域。

AI项目与工具 2025年06月12日 14 点赞 0 评论 778 浏览

EfficientTAM是一款由Meta AI研发的轻量级视频对象分割与跟踪模型，基于非层次化Vision Transformer（ViT）构建，通过引入高效记忆模块显著降低了计算复杂度。它能够实现高质量的视频对象分割与多目标跟踪，同时保持较低的延迟和较小的模型尺寸，特别适用于移动设备上的实时视频处理。该模型已在多个视频分割基准测试中表现出色，并支持多种应用场景，包括移动视频编辑、视频监控、增强现

AI项目与工具 2025年06月12日 65 点赞 0 评论 669 浏览

Fish Speech 1.5

Fish Speech 1.5是一款基于深度学习的文本转语音（TTS）工具，支持多语言文本输入，通过Transformer、VITS、VQVAE和GPT等技术实现高质量语音合成。它具备零样本和少样本语音合成能力，延迟时间短，无需依赖音素，泛化性强，且支持本地化部署。Fish Speech 1.5可应用于有声读物、辅助技术、语言学习及客户服务等多个领域。

AI项目与工具 2025年06月12日 14 点赞 0 评论 692 浏览

ViTPose

ViTPose 是一种基于 Transformer 架构的人体姿态估计模型，通过图像块处理和特征提取实现关键点定位。提供多种版本，适用于不同任务需求。模型结构简洁，支持灵活扩展和参数调整，具备知识迁移能力。ViTPose+ 拓展至动物姿态估计，提升适用范围。在多个数据集上达到 SOTA 性能，广泛应用于运动分析、虚拟现实等领域。

AI项目与工具 2025年06月12日 28 点赞 0 评论 772 浏览