模型

Pix2Gif

Pix2Gif是一个由微软研究院开发的基于运动引导的扩散模型,能够将静态图像转换成动态的GIF动画或视频。该模型通过运动引导的扩散过程实现图像到GIF的生成,并利用文本描述和运动幅度作为输入。Pix2Gif还引入了感知损失机制,确保生成的GIF帧在视觉上与原始图像保持一致性和连贯性。

ModelScope

ModelScope被称为“魔搭社区”,是国内首个中文AI模型开源社区,由阿里巴巴通义实验室联合CCF开源发展委员会发起的模型开源社区及创新平台,旨在通过开放的社区合作,构建深度学习相关的模型开源社区,并开放给全球的开发者使用。

DriveDreamer4D

DriveDreamer4D是一个专注于提升自动驾驶场景4D重建质量的框架,通过整合世界模型先验知识生成新的轨迹视频,同时确保时空一致性,从而增强训练数据集的多样性和真实性。它具备4D场景重建、新轨迹视频合成、时空一致性控制以及提升渲染质量等功能,广泛应用于自动驾驶系统开发、闭环仿真测试及传感器数据模拟等领域。 ---

North

North 是 Cohere 推出的企业级 AI 工作平台,提供安全、高效的 AI 解决方案,支持私有云或本地部署。内置 Compass 搜索系统,可处理多种数据类型并支持多语言,提升任务效率。平台集成了高性能语言模型和自动化工具,适用于金融、医疗等行业,可用于风险评估、客户支持、疾病诊断、药物研发等多个场景,增强企业智能化水平。

混元图生视频

混元图生视频是腾讯混元推出的开源图生视频模型,支持用户上传图片并输入描述生成5秒短视频,具备对口型、动作驱动和背景音效自动生成等功能。模型适用于多种风格与场景,参数量达130亿,已在腾讯云上线并开源,支持本地部署与定制开发,适用于创意视频、特效制作及动画开发等多个领域。

SimpleAR

SimpleAR是一款由复旦大学与字节跳动联合研发的纯自回归图像生成模型,采用简洁架构实现高质量图像生成。其通过“预训练-有监督微调-强化学习”三阶段训练方法,提升文本跟随能力与生成效果。支持文本到图像及多模态融合生成,兼容加速技术,推理速度快。适用于创意设计、虚拟场景构建、多模态翻译、AR/VR等多个领域。

SEMIKONG

SEMIKONG是一款针对半导体行业的大型语言模型,专注于解决制造与设计中的复杂问题。它通过整合专家知识、优化预训练流程及微调,实现了对刻蚀等领域的深刻理解,显著提升了半导体制造过程的效率和质量。此外,它还辅助IC设计、提供异常检测与预测性维护支持,并通过专家反馈循环持续改进模型性能,为行业带来了高效的解决方案。

FunGPT

FunGPT 是一款基于 InternLM2.5 大模型开发的开源工具,专注于情感互动与情绪调节。它包含“甜言蜜语模式”和“犀利怼语模式”,分别用于提升用户情绪和释放压力。项目采用轻量化模型与 AWQ 量化技术,兼顾性能与效率。适用于创意启发、娱乐互动等多种场景,适合对情感交互感兴趣的开发者和用户。

Magic Data

Magic Data专注于为不同行业的AI模型提供高质量的训练和测试数据,以提升模型的性能和智能。

Reverb ASR

Reverb ASR是一款基于深度学习的开源自动语音识别与说话人分离工具,采用20万小时高质量英语语音数据训练,具备高精度语音转录能力,支持逐字稿控制及多种解码模式。其显著特点是擅长处理长时间语音内容,并在长篇幅识别任务中超越其他开源模型。Reverb ASR适用于播客、会议记录、法庭记录等多个应用场景,为用户提供灵活且高效的语音转文字解决方案。