监督学习

ActAnywhere

一个强大的视频生成工具,它通过自动化的前景与背景融合技术,极大地简化了视频背景生成的过程。它的应用场景广泛,从电影制作到教育,都能提供高效、创新的解决方案。

Vary

一个小型但功能强大的视觉语言模型,它使得资源有限的研究者和开发者也能体验到先进的视觉语言模型功能。

V

创新的自监督学习模型,它通过预测视频帧的特征表示来学习视频的视觉表示。这种方法不仅能够处理视频内容,还能在图像任务上表现出色,具有广泛的应用潜力。

DCEdit

DCEdit是一款基于双层控制机制的图像编辑工具,结合精确语义定位策略与视觉、文本自注意力优化,提升图像编辑的准确性和可控性。无需额外训练即可应用于现有扩散模型,支持复杂场景下的精细编辑任务,如对象替换、颜色调整等,适用于广告、影视、社交媒体等多个领域。

MAETok

MAETok是一种基于掩码建模的图像标记化方法,通过自编码器结构学习更具语义丰富性的潜在空间,提升图像生成质量与训练效率。它支持高分辨率图像生成,具备多特征预测能力和灵活的潜在空间设计,适用于娱乐、数字营销、计算机视觉等多个领域。实验表明其在ImageNet数据集上表现优异。

V-JEPA

创新的自监督学习模型,它通过预测视频帧的特征表示来学习视频的视觉表示。这种方法不仅能够处理视频内容,还能在图像任务上表现出色,具有广泛的应用潜力。

SleepFM

SleepFM是一款由斯坦福大学开发的开源多模态睡眠分析模型,利用脑电图(EEG)、心电图(ECG)和呼吸信号等数据,实现睡眠阶段分类、睡眠呼吸障碍检测及人口统计属性预测等功能。它通过对比学习技术和自监督预训练方法提升分析精度,并支持临床诊断、药物开发、健康管理等多个应用场景,为睡眠医学研究提供重要工具。

DoraCycle

DoraCycle是由新加坡国立大学Show Lab开发的一种多模态生成模型,通过文本与图像间的双向循环一致性学习,实现跨模态信息转换与对齐。其核心优势在于无需大量标注数据即可完成领域适应,支持风格化设计、虚拟角色生成等多样化任务。模型采用自监督学习和梯度裁剪等技术提升训练稳定性,适用于广告、教育等多个应用场景。

PartEdit

PartEdit是一种基于预训练扩散模型的细粒度图像编辑工具,通过优化部分标记实现对图像对象各部分的精准定位与编辑。其采用非二进制掩码和自适应阈值策略,确保编辑内容自然融合,保留原始细节。支持真实图像和多部分同时编辑,无需重新训练模型,适用于艺术设计、影视制作、广告等多个领域。

H

H-Optimus-0是由法国公司Bioptimus推出的全球最大的开源病理学AI基础模型,拥有11亿参数,基于超过50万张组织病理学切片训练,涵盖多种人体组织。该模型在癌症识别、基因异常检测、组织分类及生存分析等方面表现优异,具备强大的特征提取能力。作为开源工具,H-Optimus-0可促进病理研究与临床应用的协同创新。