FunAudioLLM
FunAudioLLM是由阿里巴巴通义实验室开发的开源语音大模型项目,包含SenseVoice和CosyVoice两个子模型。SenseVoice擅长多语言语音识别和情感辨识,支持超过50种语言;CosyVoice则专注于自然语音生成,支持多种语言、音色和情感控制。该项目适用于多语言翻译、情感语音对话等场景,其相关模型和代码已公开发布。
Open Deep Research
Open Deep Research 是一个开源 AI 智能体,支持多语言模型和 Firecrawl 数据提取,用于执行复杂的研究任务。它提供统一 API 和 Next.js 框架,具备实时数据处理、结构化信息提取及多维度分析能力,适用于文献综述、行业分析、投资研究等场景。
Seaweed APT
Seaweed APT是字节跳动研发的对抗性后训练模型,支持图像和视频的一站式生成。其通过在真实数据上进行对抗性训练,实现单步高质量输出,包括1024px图像和1280×720、24fps视频。该模型采用先进的生成器和判别器设计,结合近似R1正则化技术,提升训练稳定性和生成质量。适用于视频广告、影视创作、社交媒体等内容生产场景。
Luma Photon
Luma Photon是一款由Luma AI开发的先进图像生成工具,具备高分辨率图像生成、自然语言理解及多图像参考等功能,支持个性化和多轮迭代操作。它能显著提升设计师、电影制作人等专业人士的创作效率,广泛应用于影视制作、游戏开发、广告设计等多个领域,同时保持较低的成本投入。
SlideSpeak
SlideSpeak是一款基于AI技术的多功能工具,支持用户上传多种文档格式并生成演示文稿或摘要。其主要功能包括AI生成的演示文稿、文档总结、交互式聊天机器人、视觉内容分析及语音旁白生成。此外,SlideSpeak强调数据安全性,适用于学术研究、商业演示、教育培训等多个领域。
