多模态模型
SpeechGPT 2.0
SpeechGPT 2.0-preview 是复旦大学 OpenMOSS 团队开发的拟人化实时交互系统,基于大量中文语音数据训练,支持低延迟、高自然度的语音与文本交互。具备情感控制、实时打断、多风格语音生成等功能,适用于智能助手、内容创作及无障碍通信等场景,技术上融合了语音-文本联合建模与多阶段训练策略,提升语音表现力与智能化水平。
PixVerse V2
PixVerse V2是一款基于Diffusion+Transformer(DiT)架构并结合自研时空注意力机制的AI视频生成工具。它支持生成长度可达40秒的视频,单个片段最长可达8秒,且能保持视频片段间的一致性。用户可通过简单操作生成并编辑视频,适用于创意专业人士、社交媒体用户、企业营销人员及独立艺术家等多种人群。