增强 - 智狐AI导航

MMAudio

MMAudio是一款基于多模态联合训练的音频合成工具，通过深度学习技术实现视频到音频、文本到音频的精准转换。它具备强大的同步模块，确保生成的音频与视频帧或文本描述时间轴完全对应，适用于影视制作、游戏开发、虚拟现实等多种场景，极大提升了跨模态数据处理的能力和应用效率。

AI项目与工具 2025年06月12日 68 点赞 0 评论 627 浏览

PhotoApp

PhotoApp 是一款基于AI技术的照片处理工具，可修复模糊、低质量图像并提升为高清版本。主要功能包括面部增强、颜色调整、背景优化、照片放大及旧照片修复，操作简便且效果显著，适用于社交媒体、电子商务、教育等多个领域。

AI项目与工具 2025年06月11日 95 点赞 0 评论 626 浏览

CoGenAV

CoGenAV是一种先进的多模态学习模型，专注于音频和视觉信号的对齐与融合。通过对比特征对齐和生成文本预测的双重目标进行训练，利用同步音频、视频和文本数据，学习捕捉时间对应关系和语义信息。CoGenAV具备音频视觉语音识别、视觉语音识别、噪声环境下的语音处理、语音重建与增强、主动说话人检测等功能，适用于智能助手、视频内容分析、工业应用和医疗健康等多个场景。

AI项目与工具 2025年06月11日 80 点赞 0 评论 626 浏览

在线AI转换

在线AI转换是一个集语音处理与图像优化于一体的AI平台，支持文本转语音、语音转文字、图像去雾、无损放大、黑白上色等功能，操作便捷，适用于多种应用场景，如有声书制作、会议记录、照片修复等，有效提升内容创作与图像处理效率。

AI项目与工具 2025年06月12日 12 点赞 0 评论 624 浏览

EXAONE 3.5

EXAONE 3.5是一款由LG AI研究院开发的开源AI模型，包含多种参数规模版本，专长于长文本处理和复杂场景下的推理任务。其核心技术包括检索增强生成与多步推理，可显著减少错误信息并提升准确性。此外，EXAONE 3.5还具备双语支持及强大的上下文理解能力，适用于聊天机器人、语言翻译、内容创作等多个领域。

AI项目与工具 2025年06月12日 14 点赞 0 评论 621 浏览

Video Alchemist是一款由Snap公司研发的视频生成模型，支持多主体和开放集合的个性化视频生成。它基于Diffusion Transformer模块，通过文本提示和参考图像生成视频内容，无需测试优化。模型引入自动数据构建和图像增强技术，提升主体识别能力。同时，研究团队提出MSRVTT-Personalization基准，用于评估视频个性化效果。该工具适用于短视频创作、动画制作、教育、剧

AI项目与工具 2025年06月12日 26 点赞 0 评论 619 浏览

VideoGigaGAN

VideoGigaGAN是一款由Adobe和马里兰大学的研究人员开发的生成式视频超分辨率模型。该模型基于GigaGAN图像上采样器，通过流引导特征传播、抗锯齿处理和高频特征穿梭等技术手段，显著提升了视频的分辨率和时间一致性，同时保留了高频细节，改善了整体画质。它适用于视频画质增强、安全监控、视频编辑和后期制作等多个领域。

AI项目与工具 2024年01月01日 32 点赞 0 评论 616 浏览

GenFM

GenFM是一款由ElevenLabs开发的AI工具，可将PDF、文章、电子书等内容转换为多角色播客音频。它支持32种语言，具备自动化声音选择、人性化填充词添加及高度定制化功能，适用于教育、播客制作、有声书创作、商业推广等多个领域。

AI项目与工具 2025年06月12日 85 点赞 0 评论 614 浏览

Explorer

Explorer是一款由Odyssey公司研发的生成性世界模型，主要功能包括将图像转换为高质量的3D场景，并支持动态效果生成。它利用高斯溅射技术和先进的图像识别算法，实现逼真的视觉效果。Explorer生成的场景可无缝集成到主流创作软件中，广泛应用于电影、游戏开发、虚拟现实等领域，显著提升内容创作效率。

AI项目与工具 2025年06月12日 39 点赞 0 评论 614 浏览

FaceFusion

FaceFusion是一款开源AI工具，支持图像和视频中的人脸交换与增强。其主要功能包括高质量的人脸交换、人脸增强、整体画面优化、唇形同步、多模型人脸检测及遮挡处理。通过深度学习技术，FaceFusion能够实现精准的人脸识别与对齐，广泛应用于电影制作、虚拟主播、广告营销及教育培训等领域。

AI项目与工具 2025年06月12日 80 点赞 0 评论 613 浏览

增强

首页

增强

列表

默认

浏览次数

发布日期