生成

VITRON

VITRON是一款由多家顶尖机构联合研发的像素级视觉大型语言模型,具备强大的图像与视频处理能力,涵盖理解、生成、分割及编辑等功能。它融合了编码器-LLM-解码器架构、视觉-语言编码和视觉专家系统,支持多种视觉任务,广泛应用于图像编辑、视频创作、教育辅助、电商营销和新闻报道等领域。

MMedAgent

MMedAgent是一款面向医疗领域的多模态AI平台,集成了指令优化的多模态大型语言模型(MLLM)及一系列定制化医疗工具,支持多种医学成像模式(如MRI、CT、X射线等),可高效处理视觉问答、分类、定位、分割、医学报告生成(MRG)及检索增强生成(RAG)等任务,显著提升了医疗数据处理效率与准确性。

TANGOFLUX

TANGOFLUX是一款高效文本到音频生成模型,具备约5.15亿参数量,能够在3.7秒内生成30秒高质量音频。它采用CLAP-Ranked Preference Optimization框架优化音频输出,支持多种应用场景,包括多媒体内容创作、音频制作、播客、教育及虚拟助手开发。其开源特性推动了相关领域的技术进步。

TITAN

TITAN是一款由哈佛医学院研究团队开发的多模态全切片病理基础模型,通过视觉自监督学习和视觉-语言对齐预训练,能够在无需微调或临床标签的情况下提取通用切片表示并生成病理报告。它在多种临床任务中表现出色,包括线性探测、少样本和零样本分类、罕见癌症检索、跨模态检索和病理报告生成,尤其适用于资源有限的临床场景。

PanoDreamer

PanoDreamer是一款基于单张图像生成连贯360° 3D场景的AI工具。其核心技术包括将全景图像生成与深度估计转化为优化任务,并引入交替最小化策略,确保场景的一致性和完整性。该工具支持全景图像及深度信息生成,可应用于虚拟现实、游戏开发、内容创作等多个领域,展现出卓越的性能表现。

Aragon.ai

Aragon.ai 是一款基于人工智能技术的头像生成平台,通过上传照片并结合用户选定的服装和背景,快速生成高质量的专业头像。平台支持个性化定制,具备强大的图像处理能力,可一次性生成大量头像,并提供照片编辑工具。其应用场景广泛,包括职业形象打造、社交媒体展示、企业团队建设以及个人品牌塑造等领域。

BeautyPlus

BeautyPlus是一款结合AI技术的照片编辑软件,支持iOS、Android及网页端操作。它提供AI图像生成、视频编辑、人像优化等功能,可将普通照片转化为创意艺术作品,并包含裁剪、格式转换、滤镜增强等实用工具,适用于社交媒体内容创作、个人肖像美化、艺术创作及商业用途等多个场景。

ILLUME

ILLUME是一款基于大型语言模型的统一多模态大模型,集成了视觉理解与生成能力,采用“连续图像输入 + 离散图像输出”架构,通过语义视觉分词器和三阶段训练流程,实现了高效的数据利用和多模态任务处理能力。模型能够无缝整合视觉理解与生成功能,广泛应用于视频分析、医疗诊断、自动驾驶及艺术创作等领域。

Wonderland

Wonderland是一项由多伦多大学、Snap和UCLA联合开发的技术,能够基于单张图像生成高质量的3D场景,并支持精确的摄像轨迹控制。它结合了视频扩散模型和大规模3D重建模型,解决了传统3D重建技术中的视角失真问题,实现了高效的三维场景生成。Wonderland在多个基准数据集上的3D场景重建质量均优于现有方法,广泛应用于建筑设计、虚拟现实、影视特效、游戏开发等领域。

MinT

MinT是一款基于时间基位置编码技术的多事件视频生成框架,允许用户通过文本提示生成包含多个事件的连贯视频,并支持对事件顺序及持续时间的精确控制。其核心技术ReRoPE使得模型能够有效关联文本提示与视频帧,同时结合预训练的视频扩散变换器(DiT)和大型语言模型(LLM)的提示增强功能,进一步提升了视频生成的质量与丰富度。MinT适用于娱乐、广告、教育等多个领域,为视频创作带来了创新性的解决方案。