计算机视觉

SHMT

SHMT是一种基于自监督学习的高级化妆转移技术，由阿里巴巴达摩院与武汉理工大学联合研发。该技术无需成对训练数据，可将多种化妆风格自然迁移到目标面部图像上，通过“解耦-重建”策略和迭代双重对齐模块，实现高精度的纹理控制与对齐校正。适用于图像处理、虚拟试妆、影视设计等多个领域，具有高效、灵活、高质量的特点。

AI项目与工具 2025年06月12日 32 点赞 0 评论 785 浏览

UnZipLoRA

UnZipLoRA是一种由伊利诺伊大学厄巴纳-香槟分校研发的图像处理技术，能够将图像内容与风格分离，并分别以两个LoRA模型表示。该技术通过提示分离、列分离和块分离策略，有效解决内容与风格纠缠的问题，支持高效训练和兼容性组合。可用于艺术创作、图像编辑、风格迁移及个性化图像生成等场景，提升图像处理的灵活性和可控性。

AI项目与工具 2025年06月12日 81 点赞 0 评论 783 浏览

AVD2

AVD2是由多所高校联合开发的自动驾驶事故视频理解框架，通过生成高质量事故视频并结合自然语言描述与推理，提升对复杂事故场景的理解能力。其功能涵盖事故视频生成、原因分析、预防建议及数据集增强，支持自动驾驶系统的安全优化与研究。基于先进模型如Open-Sora 1.2和ADAPT，AVD2在多项评估中表现优异，为自动驾驶安全提供了重要技术支撑。

AI项目与工具 2025年06月12日 62 点赞 0 评论 780 浏览

机器之心

机器之心是中国领先的人工智能科技媒体，提供最新的AI新闻、研究论文和产业动态，专业的人工智能信息服务平台。

媒体资讯 2025年06月05日 23 点赞 0 评论 775 浏览

ViTPose

ViTPose 是一种基于 Transformer 架构的人体姿态估计模型，通过图像块处理和特征提取实现关键点定位。提供多种版本，适用于不同任务需求。模型结构简洁，支持灵活扩展和参数调整，具备知识迁移能力。ViTPose+ 拓展至动物姿态估计，提升适用范围。在多个数据集上达到 SOTA 性能，广泛应用于运动分析、虚拟现实等领域。

AI项目与工具 2025年06月12日 28 点赞 0 评论 772 浏览

SimpleAR

SimpleAR是一款由复旦大学与字节跳动联合研发的纯自回归图像生成模型，采用简洁架构实现高质量图像生成。其通过“预训练-有监督微调-强化学习”三阶段训练方法，提升文本跟随能力与生成效果。支持文本到图像及多模态融合生成，兼容加速技术，推理速度快。适用于创意设计、虚拟场景构建、多模态翻译、AR/VR等多个领域。

AI项目与工具 2025年06月11日 76 点赞 0 评论 760 浏览

HiCo

HiCo是一款基于扩散模型的层次化可控布局到图像生成工具，采用多分支结构设计，能够精确控制对象的位置和文本描述，解决复杂布局中的常见问题。该工具支持高分辨率图像生成，兼容多种快速生成插件，并在多目标布局生成任务中表现出色，适用于图像编辑、游戏设计、虚拟现实等多个领域。

AI项目与工具 2025年06月12日 12 点赞 0 评论 749 浏览

Ev

Ev-DeblurVSR是一款由多所高校联合开发的视频增强模型，利用事件相机数据提升视频去模糊和超分辨率效果。通过互惠特征去模糊模块和混合可变形对齐模块，实现高精度视频恢复。适用于监控、体育、自动驾驶等多个领域，支持快速部署与研究。

AI项目与工具 2025年06月11日 52 点赞 0 评论 740 浏览

KeySync

KeySync是一种高分辨率口型同步工具，由帝国理工学院和弗罗茨瓦夫大学联合开发。其采用两阶段生成框架，结合掩码策略和视频分割模型，实现音频与唇部动作的精准对齐。支持高清视频生成，具备遮挡处理、减少表情泄露等功能，在视觉质量、时间连贯性和同步精度上优于现有方法，适用于自动配音、虚拟形象、视频会议等多场景应用。

AI项目与工具 2025年06月11日 32 点赞 0 评论 726 浏览

Pixel3DMM

Pixel3DMM是由慕尼黑工业大学、伦敦大学学院和Synthesia联合开发的单图像3D人脸重建框架，基于DINOv2模型，能从单张RGB图像中准确重建出3D人脸的几何结构。该工具擅长处理复杂表情和姿态，支持身份和表情的解耦，并通过FLAME模型优化实现高精度重建。其应用场景涵盖影视游戏、VR/AR、社交视频、医疗美容和学术研究。

AI项目与工具 2025年06月11日 88 点赞 0 评论 725 浏览

计算机视觉

首页

计算机视觉

列表

默认

浏览次数

发布日期