安全
Voice Engine
Voice Engine是由OpenAI开发的AI语音合成和声音克隆技术。该技术能够通过15秒的音频样本和文本输入生成自然语音。它已在OpenAI的文本到语音API和ChatGPT的语音功能中应用。Voice Engine广泛应用于教育、翻译、远程服务提供、支持言语残障者以及帮助恢复患者声音等方面。为了确保技术安全,OpenAI实施了严格的使用政策和安全措施。
VideoGigaGAN
VideoGigaGAN是一款由Adobe和马里兰大学的研究人员开发的生成式视频超分辨率模型。该模型基于GigaGAN图像上采样器,通过流引导特征传播、抗锯齿处理和高频特征穿梭等技术手段,显著提升了视频的分辨率和时间一致性,同时保留了高频细节,改善了整体画质。它适用于视频画质增强、安全监控、视频编辑和后期制作等多个领域。
谷歌DeepMind推出V2A技术,可为无声视频添加逼真音效
DeepMind推出的V2A(Video-to-Audio)模型能够将视频内容与文本提示相结合,生成包含对话、音效和音乐的详细音频轨道。它不仅能够与DeepMind自身的视频生成模型Veo协同工作,还能与其他视频生成模型,如Sora、可灵或Gen 3等,进行集成,从而为视频添加戏剧性的音乐、逼真的音效或与视频中角色和情绪相匹配的对话。V2A的强大之处在于其能够为每个视频输入生成无限数量的音轨。该模