AI开源项目

DiT

创新的图像生成模型,它通过结合扩散模型和Transformer架构,实现了在图像生成任务中的高效和高质量输出。其可扩展性和条件生成能力使其在多个领域都有广泛的应用潜力。

PortraitGen

AI人像视频编辑工具,它通过先进的技术实现了对视频中人物的高质量编辑。无论是在影视制作、艺术创作、广告宣传、时尚展示、社交媒体还是游戏开发等领域,PortraitGen都能提供高效...

abab

一个强大的AI音乐生成工具,它通过先进的技术,使得音乐创作更加便捷和高效。无论是专业的音乐制作人还是业余爱好者,都能够利用这个模型来创作出高质量的音乐作品。

Vary

一个小型但功能强大的视觉语言模型,它使得资源有限的研究者和开发者也能体验到先进的视觉语言模型功能。

Draw an Audio

创新的视频生成音频系统,它通过先进的AI技术,能够自动分析视频内容并生成与之匹配的声音效果。

ScreenAgent

一个先进的计算机控制智能体,它通过观察屏幕截图和执行鼠标键盘动作来完成复杂的任务。它利用VLM和强化学习环境,可以在真实计算机屏幕上执行多步骤任务。

GOT

创新的OCR模型,它通过先进的技术提供了精准、高效的OCR解决方案。无论是文档数字化、场景文本识别还是票据处理等应用场景,GOT-OCR 2.0都能提供强大的支持。

Depth Anything

强大的单目深度估计工具,它通过利用大规模未标注数据和先进的数据增强技术,实现了在多种复杂环境下的准确深度预测。其多任务学习和语义辅助功能使其在多个领域都有广泛的应用潜力。

MMMLU

重要的多语言、多任务语言理解数据集,它为研究人员和开发者提供了一个标准化的测试基准,用于评估和提升AI模型在不同语言和文化背景下的性能。

MIMO

创新的AI框架,它通过空间分解建模技术,提供了一种先进的可控角色视频合成方法。