人工智能 - 智狐AI导航

ContentV

ContentV是字节跳动开源的80亿参数文生视频模型框架，通过替换Stable Diffusion 3.5 Large的2D-VAE为3D-VAE并引入3D位置编码，提升视频生成能力。采用多阶段训练策略和流匹配算法，实现高效训练。支持文本到视频生成、自定义视频参数、风格迁移与融合、视频续写与修改等功能，适用于视频内容创作、游戏开发、VR/AR和特效制作等场景。

AI项目与工具 2025年06月11日 45 点赞 0 评论 546 浏览

Qwen3 Reranker

Qwen3 Reranker是阿里巴巴通义千问团队推出的文本重排序模型，属于Qwen3模型家族。它采用单塔交叉编码器架构，能够对文本对进行相关性评估并输出得分，支持超过100种语言。通过多阶段训练范式和高质量数据训练，模型在MTEB排行榜上表现优异。Qwen3 Reranker可用于语义检索、文本分类、情感分析和代码搜索等场景，提升信息检索效率和准确性。

AI项目与工具 2025年06月11日 22 点赞 0 评论 576 浏览

MoonCast 是一个零样本播客生成系统，能够从纯文本源合成自然的播客风格语音。它采用长上下文语言模型和大规模语音数据训练，支持中文和英文，生成几分钟长的高质量播客音频。MoonCast 通过特定的LLM提示生成播客脚本，并利用语音合成模块转换为最终音频，具备长音频生成、增强自然性、多语言支持和零样本语音合成等功能。其技术原理包括多阶段训练、短段级别自回归音频重建和自发性增强，适用于内容创作、教

AI项目与工具 2025年06月11日 63 点赞 0 评论 550 浏览

OpenAudio S1

OpenAudio S1是Fish Audio推出的文本转语音（TTS）模型，基于200万小时音频数据训练，支持13种语言。采用双自回归架构和RLHF技术，生成自然流畅的语音，支持50多种情感和语调标记。具备零样本和少样本语音克隆功能，仅需10到30秒音频即可生成高保真声音。适用于视频配音、播客、游戏角色语音、虚拟助手、游戏娱乐、教育培训及客服系统等场景。提供40亿参数完整版和5亿参数开源版，满足

AI项目与工具 2025年06月11日 28 点赞 0 评论 656 浏览

AiMakeSong

AiMakeSong是一个基于人工智能的音乐和歌曲生成平台，用户可以通过文本输入或歌词创作生成高质量音乐。支持将文字描述转化为音乐，或将歌词转化为完整歌曲，提供多种音乐风格和声音选项，包括流行、摇滚、说唱、古典等，以及男性、女性或乐器声音。平台还具备免费去除人声、带人声的AI音乐生成等功能，适用于内容创作、广告、教育等多个场景。

AI项目与工具 2025年06月11日 94 点赞 0 评论 520 浏览

Jaaz

Jaaz是一款开源的AI设计Agent，提供本地免费的AI设计服务。它能智能生成设计提示，批量生成图像、海报和故事板，并支持Ollama、Stable Diffusion等本地图像和语言模型。用户可通过GPT-4o、Flux Kontext等技术在对话中编辑图像，进行对象移除和风格转换。Jaaz提供无限创意画布，适用于创意设计、快速原型、教育及个人创作等多种场景。

AI项目与工具 2025年06月11日 79 点赞 0 评论 754 浏览

Bing Video Creator

Bing Video Creator是微软推出的AI视频生成工具，基于OpenAI的Sora模型，用户可通过输入文本描述快速生成5秒短视频。支持9:16格式，提供快速模式和标准模式，初始有10次免费生成机会。功能包括视频生成、多种风格选择、视频存储和分享等，适用于广告、教学、创意和个人娱乐等多种场景。

AI项目与工具 2025年06月11日 80 点赞 0 评论 857 浏览

DGM

DGM（Darwin Gödel Machine）是一种自改进人工智能系统，通过迭代修改自身代码提升性能。它从编码代理档案中选择代理，基于基础模型生成新版本，并在基准测试中验证性能。DGM受达尔文进化论启发，采用开放性探索策略，避免局部最优解。其自改进过程在隔离沙盒中进行，确保安全性。DGM在多个基准测试中表现显著提升，如SWE-bench和Polyglot。主要功能包括自我改进、实证验证、开放性

AI项目与工具 2025年06月11日 19 点赞 0 评论 755 浏览

SignGemma

SignGemma是由谷歌DeepMind团队开发的全球最强大的手语翻译AI模型，专注于将美国手语（ASL）实时翻译成英语文本。通过多模态训练方法，结合视觉和文本数据，实现高准确率和低延迟的翻译，响应时间低于0.5秒。支持端侧部署，保护用户隐私，适用于教育、医疗和公共服务等场景。

AI项目与工具 2025年06月11日 24 点赞 0 评论 716 浏览

OmniSync

OmniSync是由中国人民大学、快手科技和清华大学联合开发的通用对口型框架，基于扩散变换器实现视频中人物口型与语音的精准同步。它采用无掩码训练范式，直接编辑视频帧，支持无限时长推理，保持自然面部动态和身份一致性。通过渐进噪声初始化和动态时空分类器自由引导（DS-CFG）机制，提升音频条件下的口型同步效果。OmniSync适用于影视配音、虚拟现实、AI内容生成等多个场景。

AI项目与工具 2025年06月11日 27 点赞 0 评论 844 浏览

人工智能

首页

人工智能

列表

默认

浏览次数

发布日期