模型

EfficientTAM

EfficientTAM是一款由Meta AI研发的轻量级视频对象分割与跟踪模型,基于非层次化Vision Transformer(ViT)构建,通过引入高效记忆模块显著降低了计算复杂度。它能够实现高质量的视频对象分割与多目标跟踪,同时保持较低的延迟和较小的模型尺寸,特别适用于移动设备上的实时视频处理。该模型已在多个视频分割基准测试中表现出色,并支持多种应用场景,包括移动视频编辑、视频监控、增强现

Voicify.AI

Voicify AI是创建高质量AI混音的平台,仅需几秒钟即可完成。它允许用户使用AI技术和社群上传的AI语音模型生成AI混音。

蜜巢政务大模型

蜜巢为蜜度自主研发的政务大模型,在研发工作中,构建了Token数超1万亿、中文内容占比超75%的高质量语料数据集用于预训练工作。

思必驰 DFM-2 大模型

思必驰 DFM-2 大模型作为思必驰的自研对话式语言大模型,展现了其在多模态交互和行业应用中的潜力。它通过结合先进的AI技术,为用户提供了更加智能化和个性化的体验,推动了智能语...

Infinity

Infinity-MM是智源研究院发布的千万级多模态指令数据集,包含4300万条样本,涵盖视觉问答、文字识别、文档分析及数学推理等多领域任务。它通过严格的筛选和去重保证数据质量,并采用合成数据生成技术扩展数据集规模。基于此数据集,智源研究院训练出了20亿参数的Aquila-VL-2B模型,在多项基准测试中表现出色,推动了多模态AI领域的研究与发展。

DistilQwen2

DistilQwen2 是一款基于 Qwen2 大模型优化的轻量级语言模型,通过知识蒸馏技术提高运算效率并降低部署成本。其主要特点包括增强指令遵循能力、轻量级部署、高效运算及多语言支持。DistilQwen2 在知识蒸馏、任务感知课程规划、指令数据优化等方面进行了深入研究,并广泛应用于移动设备、边缘计算、客户服务、内容创作和教育技术等领域。

IDM

IDM-VTON是一种基于改进扩散模型的先进AI虚拟试穿技术,由韩国科学技术院和OMNIOUS.AI的研究人员共同开发。该技术利用视觉编码器提取服装的高级语义信息,并通过GarmentNet捕捉服装的低级细节特征,从而生成逼真的人物穿戴图像。IDM-VTON支持文本提示理解,实现了个性化定制和逼真的试穿效果,广泛应用于电子商务、时尚零售、个性化推荐、社交媒体以及时尚设计等领域。

OmniAlign

OmniAlign-V是由多所高校联合开发的多模态大语言模型对齐数据集,包含约20万个多模态样本,涵盖自然图像和信息图表。其核心功能包括提供高质量训练数据、提升模型的开放式问答能力、增强推理与创造力,并支持模型持续优化。数据集通过图像筛选、任务设计及后处理优化确保数据质量,适用于多模态对话系统、图像辅助问答、创意生成等多个应用场景。

Grok

Grok-1是由xAI公司开发的大型语言模型,具备3140亿参数,是目前参数量最大的开源大语言模型之一。该模型基于Transformer架构,专用于自然语言处理任务,如问答、信息检索、创意写作和编码辅助等。尽管在信息处理方面表现出色,但需要人工审核以确保准确性。此外,Grok-1还提供了8bit量化版本,以降低存储和计算需求。

AnyStory

AnyStory是阿里巴巴通义实验室开发的文本到图像生成工具,支持单个或多个主体的高保真图像生成。其核心在于“编码-路由”架构,结合ReferenceNet和CLIP视觉编码器实现主体特征的精准建模与定位。通过解耦路由机制,有效避免多主体混淆,确保图像与文本描述高度一致。适用于创意设计、角色生成、广告制作等多个场景,提供高质量、个性化的图像生成能力。