多语言 - 智狐AI导航

Tarsier2

Tarsier2是字节跳动研发的大规模视觉语言模型，擅长生成高精度视频描述并在多项视频理解任务中表现优异。其核心技术包括大规模数据预训练、细粒度时间对齐微调以及直接偏好优化（DPO）。该模型在视频问答、定位、幻觉检测及具身问答等任务中均取得领先成绩，支持多语言处理，具有广泛的应用潜力。

AI项目与工具 2025年06月12日 59 点赞 0 评论 521 浏览

Inkscape

一款功能强大的免费开源矢量图形编辑软件，适用于各种设计需求，从插图、图标、徽标到复杂的排版和图表设计。

Ai图片处理 2025年06月05日 54 点赞 0 评论 520 浏览

spiritme

Spiritme是一款基于人工智能的视频创作工具，支持用户通过拍摄或输入文本生成逼真的数字化身视频。其核心功能包括数字化身创建、文本转视频转换、AI辅助拍摄及多语言支持，适用于营销、教育、社交媒体及企业演示等多种应用场景，为用户提供了高效且灵活的视频制作解决方案。

AI项目与工具 2025年06月12日 80 点赞 0 评论 520 浏览

PDFMathTranslate

PDFMathTranslate是一款专注于科技文档翻译的开源工具，能够精准保留PDF文档的排版格式，包括公式、图表和目录结构。支持双语对照查看，兼容多种翻译服务，可实现全文或局部翻译，适用于学术研究、教育、技术文档、法律文件等多个领域。

AI项目与工具 2025年06月12日 85 点赞 0 评论 519 浏览

文心快码Zulu

百度文心快码推出的一款 AI 自动编程智能体，能够自主理解编码需求，精准拆解任务，并突破单文件限制，实现跨模块、跨目录的系统级代码生成。

Ai编程建站 2025年06月05日 34 点赞 0 评论 517 浏览

星声AI播客

专注于AI播客领域的AI播客生成器，面向广大播客爱好者和音频内容分享使用者。

Ai语音工具 2025年06月05日 33 点赞 0 评论 516 浏览

Fish Audio

Fish Audio是一款生成式AI文本转语音（TTS）和声音克隆平台，支持多种语言和声音风格，可将文本转换为自然流畅的语音。用户可上传音频样本克隆特定人物的声音，并通过API接口集成到应用程序中。Fish Audio适用于视频制作、有声读物、语音助手、教育与培训以及娱乐创意等领域，满足个性化语音内容生成需求。

AI项目与工具 2025年06月11日 79 点赞 0 评论 515 浏览

Chatterbox是Resemble AI推出的开源文本转语音（TTS）模型，基于0.5B规模的LLaMA架构，用超过50万小时精选音频训练。它支持零样本语音克隆，仅需5秒参考音频即可生成高度逼真的个性化语音，并具备情感夸张控制功能，可调节情绪、语速和语调。Chatterbox还拥有超低延迟的实时语音合成能力，延迟低至200毫秒以下，适用于交互式应用。此外，它采用安全水印技术防止滥用，适用于内容

AI项目与工具 2025年06月11日 55 点赞 0 评论 514 浏览

Peech

Peech 是一个强大的文本转语音工具，能够轻松地将文本转换成超过50种语言的逼真AI生成音频。

创作工具 2026年06月21日 0 点赞 0 评论 513 浏览

LDGen

LDGen是一款结合大型语言模型与扩散模型的文本到图像生成工具，支持零样本多语言生成，提升图像质量和语义一致性。通过分层字幕优化、LLM对齐模块和跨模态精炼器，实现文本与图像的高效交互。实验表明其性能优于现有方法，适用于艺术创作、广告设计、影视制作等多个领域，具备高效、灵活和高质量的生成能力。

AI项目与工具 2025年06月12日 59 点赞 0 评论 513 浏览

多语言

首页

多语言

列表

默认

浏览次数

发布日期