模型

OmniCam

OmniCam 是一种基于多模态输入的高级视频生成框架,结合大型语言模型与视频扩散模型,实现高质量、时空一致的视频内容生成。支持文本、视频或图像作为输入,精确控制摄像机运动轨迹,具备帧级操作、复合运动、速度调节等功能。采用三阶段训练策略提升生成效果,并引入 OmniTr 数据集增强模型性能。适用于影视、广告、教育及安防等多个领域,提高视频创作效率与质量。

Open Materials 2024

Open Materials 2024 (OMat24) 是Meta发布的开源数据集,包含超过1.1亿个无机材料的密度泛函理论(DFT)计算数据,并配备了预训练的图神经网络模型EquiformerV2。该模型在材料的基态稳定性及形成能预测方面具有卓越表现,为新材料的发现和设计提供了高效工具。其核心功能包括大规模数据集支持、高效的材料属性预测以及在多个领域(如能源、环境、催化等)的实际应用潜力。

Mogao

Mogao是由字节跳动开发的多模态生成基础模型,结合双视觉编码器和先进位置嵌入技术,实现高质量的图像与文本生成。支持零样本图像编辑、多模态理解与生成、高分辨率图像输出以及优化的中文文本渲染。适用于内容创作、智能交互、医疗影像分析等多个领域,具备强大的跨模态处理能力和生成稳定性。

Venturekit AI

可为企业家和企业主生成全面且量身定制的商业计划的AI工具,只需回答几个关于您的业务的问题,Venturekit 就会为您制定一份全面的商业计划。

PaliGemma 2

PaliGemma 2是一款由Google DeepMind研发的视觉语言模型(VLM),结合了SigLIP-So400m视觉编码器与Gemma 2语言模型,支持多种分辨率的图像处理。该模型具备强大的知识迁移能力和出色的学术任务表现,在OCR、音乐乐谱识别以及医学图像报告生成等方面实现了技术突破。它能够处理多模态任务,包括图像字幕生成、视觉推理等,并支持量化和CPU推理以提高计算效率。

AdamCAD

只需通过用简单的语言描述就能为你生成复杂的CAD图纸,而且还能通过3D打印机直接打印出来,适用于工业设计和机械工程行业。

云从科技从容大模型

云从科技从容大模型是一个多功能、跨行业的AI大模型,它通过集成云从科技的核心技术,为用户提供个性化、智能化的服务和解决方案。

Together AI

Together AI 是一家提供生成式 AI 云服务的平台,支持模型快速推理、微调及训练,具备高性能、低成本和可扩展性。平台提供无服务器或专用端点部署,支持企业级 VPC,确保数据安全。其 GPU 集群支持大规模 AI 计算,适用于内容创作、企业应用、网络安全等多个领域,满足从模型优化到定制开发的全流程需求。

Cosmos

Cosmos是由英伟达推出的生成式世界基础模型平台,支持自动驾驶和机器人领域的虚拟环境生成与训练。它能够根据文本、图像或视频输入生成高度仿真的虚拟世界状态,并提供高效的数据处理与安全机制。平台包含多个参数规模的模型,适用于不同性能需求的应用场景。Cosmos还支持开放模型许可,便于开发者进行定制化部署。其应用场景涵盖驾驶模拟、策略优化、复杂环境训练及工业数字孪生等。

Agent

Agent-S 是一款基于图形用户界面(GUI)的人机交互自动化框架,通过经验增强的分层规划和代理-计算机接口(ACI),实现了复杂任务的自动化分解与执行。它结合多模态大型语言模型(MLLMs)进行推理和控制,并具备持续学习和跨操作系统通用性的特点,适用于办公自动化、网页交互、个人助理、客户服务和教育等多个场景。