多语言支持

Whisper Input

Whisper Input 是一款开源语音输入工具，基于 Python 和 OpenAI Whisper 模型开发，支持多语言语音识别与实时转录。用户可通过快捷键操作录音并生成文本，具备翻译、自动标点、高效处理及本地运行等功能。适用于会议记录、教育、智能交互及媒体制作等多种场景。

AI项目与工具 2025年06月12日 29 点赞 0 评论 848 浏览

Tarsier2

Tarsier2是字节跳动研发的大规模视觉语言模型，擅长生成高精度视频描述并在多项视频理解任务中表现优异。其核心技术包括大规模数据预训练、细粒度时间对齐微调以及直接偏好优化（DPO）。该模型在视频问答、定位、幻觉检测及具身问答等任务中均取得领先成绩，支持多语言处理，具有广泛的应用潜力。

AI项目与工具 2025年06月12日 59 点赞 0 评论 523 浏览

Recap

Recap是一款基于大型语言模型的智能工具，支持文本、网页、PDF和视频等内容的快速总结与分析，提供分段摘要、可视化图表及多语言支持。适用于学术研究、教学、市场分析、内容创作和知识管理等多个场景，提升信息处理效率与理解深度。

AI项目与工具 2025年06月12日 59 点赞 0 评论 841 浏览

Minduck Discovery

Minduck Discovery是一款基于AI的思维导图信息探索工具，通过交互式导图结构化呈现复杂信息，帮助用户高效理解和探索知识。支持关键词搜索、深度内容组织、个性化推荐及多语言支持，适用于教育、职业发展、内容创作等多个场景，提升信息处理与学习效率。

AI项目与工具 2025年06月12日 84 点赞 0 评论 756 浏览

YuE

YuE 是一款由香港科技大学与 Multimodal Art Projection 联合开发的开源 AI 音乐生成模型，支持多语言和多种音乐风格，如流行、金属、爵士、嘻哈等。通过语义增强音频分词器、双分词技术和三阶段训练方案，解决长上下文处理与音乐生成难题，生成结构连贯、旋律优美的歌曲。模型完全开源，用户可自由使用和定制，适用于音乐创作、影视配乐、游戏音效及社交媒体内容制作等多个场景。

AI项目与工具 2025年06月12日 23 点赞 0 评论 741 浏览

Mistral Small 3

Mistral Small 3 是一款由 Mistral AI 推出的开源大语言模型，具备 240 亿参数，支持多语言处理，适用于低延迟场景。模型基于 Transformer 架构，支持长文本输入，具备高性能和本地部署能力。其可定制性强，适用于虚拟助手、客服系统、自动化任务及专业领域应用，如医疗和法律咨询。

AI项目与工具 2025年06月12日 77 点赞 0 评论 788 浏览