模型

Qwen2

Qwen2是由阿里云通义千问团队开发的大型语言模型系列,涵盖从0.5B到72B的不同规模版本。该系列模型在自然语言理解、代码编写、数学解题及多语言处理方面表现出色,尤其在Qwen2-72B模型上,其性能已超过Meta的Llama-3-70B。Qwen2支持最长128K tokens的上下文长度,并已在Hugging Face和ModelScope平台上开源。 ---

OpenVision

OpenVision是加州大学圣克鲁兹分校推出的多模态视觉编码器系列,具备从5.9M到632.1M参数的多种模型,适用于不同硬件环境。其采用渐进式多阶段分辨率训练策略,训练效率比同类模型高2至3倍,在多模态任务中表现优异。支持可变大小patch输入,兼具灵活性与高效性,广泛应用于工业检测、机器人视觉、自动驾驶及科研教育等领域。

H

H-Optimus-0是由法国公司Bioptimus推出的全球最大的开源病理学AI基础模型,拥有11亿参数,基于超过50万张组织病理学切片训练,涵盖多种人体组织。该模型在癌症识别、基因异常检测、组织分类及生存分析等方面表现优异,具备强大的特征提取能力。作为开源工具,H-Optimus-0可促进病理研究与临床应用的协同创新。

商汤如影

商汤如影是一款由商汤科技开发的AI数字人视频生成平台,通过先进大模型技术创建高度逼真的数字人形象,应用于教育、金融、营销等领域。平台具备数字人创建、声音克隆、视频生成、自动化数据标注、图片生成、实时互动等功能,并支持多语言及多种服务形式,以满足个性化和专业化的服务需求。

Liquid

Liquid是由华中科技大学、字节跳动和香港大学联合开发的多模态生成框架,通过VQGAN将图像编码为离散视觉token并与文本共享词汇空间,使大型语言模型无需修改结构即可处理视觉任务。该框架降低训练成本,提升视觉生成与理解性能,并在多模态任务中表现出色。支持图像生成、视觉问答、多模态融合等应用,适用于创意设计、内容创作及智能交互等领域。

WeGen

WeGen是一款由中国科学技术大学等机构联合开发的多模态生成模型,结合多模态大语言模型与扩散模型,支持文本到图像生成、图像编辑、风格迁移等多种视觉任务。其特点包括对模糊指令的多样化响应、高一致性输出以及交互式生成能力,适用于创意设计、内容创作等多个领域。

CollovGPT

Collov AI解决人工智能室内设计的未来

Stable Video 3D (SV3D)

Stable Video 3D(SV3D)是一款由Stability AI公司开发的多视角合成和3D生成模型,能够从单张图片生成一致的多视角图像,并进一步优化生成高质量的3D网格模型。该模型在视频扩散模型基础上进行改进,提供更好的质量和多视角体验。主要功能包括多视角视频生成、3D网格创建、轨道视频生成、相机路径控制以及新视角合成。SV3D在新视角合成方面取得显著进展,能够生成逼真且一致的视图,提升

ChatMCP

ChatMCP是一款基于模型上下文协议(MCP)的AI聊天客户端,支持与多种大型语言模型(LLM)交互。它提供自动化安装MCP服务器、SSE传输支持、自动选择服务器及聊天记录管理等功能,并通过MCP服务器市场实现与不同数据源的聊天。用户可配置LLM API密钥和端点,界面友好且功能强大,适用于客户服务、个人助理、教育学习、企业内部沟通及信息检索等多种场景。

3DV

3DV-TON是一种基于扩散模型的视频虚拟试穿框架,由阿里巴巴达摩院、湖畔实验室与浙江大学联合研发。该工具通过生成可动画化的纹理化3D网格作为帧级指导,提升试穿视频的视觉质量和时间一致性。其支持复杂服装图案和多样化人体姿态,提供高分辨率基准数据集HR-VVT,适用于在线购物、时尚设计、影视制作等多个领域。