模型

Open

Open-Sora是一个开源视频生成模型,基于DiT架构,通过三个阶段的训练(大规模图像预训练、大规模视频预训练和高质量视频数据微调),生成与文本描述相符的视频内容。该模型包括预训练的VAE、文本编码器和STDiT(Spatial-Temporal Diffusion Transformer)核心组件,利用空间-时间注意力机制和交叉注意力模块实现视频生成。项目旨在提供全面的视频生成模型训练过程,供

Wan2.1

Wan2.1是阿里云推出的开源AI视频生成模型,支持文生视频与图生视频,具备复杂运动生成和物理模拟能力。采用因果3D VAE与视频Diffusion Transformer架构,性能卓越,尤其在Vbench评测中表现领先。提供专业版与极速版,适应不同场景需求,已开源并支持多种框架,便于开发与研究。

DoraCycle

DoraCycle是由新加坡国立大学Show Lab开发的一种多模态生成模型,通过文本与图像间的双向循环一致性学习,实现跨模态信息转换与对齐。其核心优势在于无需大量标注数据即可完成领域适应,支持风格化设计、虚拟角色生成等多样化任务。模型采用自监督学习和梯度裁剪等技术提升训练稳定性,适用于广告、教育等多个应用场景。

Hulu AI

一个GPT、文心一言、Midjourney和Dall-E对话作图可以永久、不限次数使用的工具,Hulu AI会根据用户的需求,不断更新上线新的功能,比如图片解析、图片融合等等常用功能。

法小飞

哈工大讯飞联合实验室推出的中文法律智能助手,集成多种自然语言处理技术并满足不同用户群体需求的中文法律科技服务系统。

Stable Video 3D (SV3D)

Stable Video 3D(SV3D)是一款由Stability AI公司开发的多视角合成和3D生成模型,能够从单张图片生成一致的多视角图像,并进一步优化生成高质量的3D网格模型。该模型在视频扩散模型基础上进行改进,提供更好的质量和多视角体验。主要功能包括多视角视频生成、3D网格创建、轨道视频生成、相机路径控制以及新视角合成。SV3D在新视角合成方面取得显著进展,能够生成逼真且一致的视图,提升

VALL

VALL-E一种用于文本到语音合成 (TTS) 的语言建模方法。具体来说,我们使用从现成的神经音频编解码器模型派生的离散代码来训练神经编解码器语言模型(称为 VALL-E),并将 TTS 视为...

Qwen3 Reranker

Qwen3 Reranker是阿里巴巴通义千问团队推出的文本重排序模型,属于Qwen3模型家族。它采用单塔交叉编码器架构,能够对文本对进行相关性评估并输出得分,支持超过100种语言。通过多阶段训练范式和高质量数据训练,模型在MTEB排行榜上表现优异。Qwen3 Reranker可用于语义检索、文本分类、情感分析和代码搜索等场景,提升信息检索效率和准确性。

mPLUG

mPLUG-Owl3是一款由阿里巴巴开发的多模态AI模型,专注于理解和处理多图及长视频内容。该模型具备高推理效率和准确性,采用创新的Hyper Attention模块优化视觉与语言信息的融合。它已在多个基准测试中展现出卓越性能,并且其源代码和资源已公开,可供研究和应用。

交交

交交是上海交通大学研发的口语对话情感大模型,支持多人对话、多语言交流、方言识别、角色扮演、情感互动及知识问答。具备端到端语音处理、多语言理解、实时音色克隆等功能,适用于教育、家庭、商务、客服等多个场景,展现出强大的语音交互能力与应用潜力。