图像处理

Gemini Live

Gemini Live是一款由谷歌开发的智能语音助手,拥有自然语言理解和多模态识别能力,支持语音、图像和视频交互。其主要功能包括自然语言对话、多模态识别、个性化语音选择、任务自动化以及智能打断和续接。此外,Gemini Live还与谷歌的原生应用深度集成,提升用户体验。目标用户包括商务人士、技术探索者、多语言用户、创意人士和老年人。

Translate Image

Translate Image 是一款基于 AI 技术的图片翻译工具,支持多语言翻译、上下文感知、技术术语识别等功能。可处理产品图片、电商列表、漫画、照片等,适用于电商、社交媒体和文档处理等多种场景。支持多种图片格式,提供智能文字移除与文本保护功能,翻译准确率高,操作便捷。

LightLab

LightLab是一款基于扩散模型的图像光源控制工具,支持对图像中的光源强度、颜色、环境光以及虚拟光源进行精细调整。通过结合真实照片与合成图像训练,该工具能生成逼真的光照效果,如阴影和反射。其交互式界面使用户能够直观地进行光照编辑,适用于摄影后期、影视特效、室内设计、游戏开发和广告制作等多个领域。

SigStyle

SigStyle是一款由多所高校与Adobe合作开发的签名风格迁移框架,能将单张风格图像的视觉特征(如几何结构、色彩和笔触)精准迁移到目标图像,同时保持内容的语义和结构。其核心技术基于个性化文本到图像扩散模型,结合超网络和时间感知注意力交换技术,实现高效且高质量的风格迁移。支持多种应用场景,如艺术创作、时尚设计、影视制作等,具备灵活性和广泛适用性。

美图云修

美图云修是美图公司专为商业摄影行业打造的一站式AI修图解决方案,是一款可以批量对商业人像摄影图片进行一键精修的AI智能电脑端软件,轻松易用,只需简单操作即可完成高品质人像...

LLaVA

LLaVA-OneVision是字节跳动开发的开源多模态AI模型,主要功能包括多模态理解、任务迁移、跨场景能力、开源贡献及高性能。该模型采用多模态架构,集成了视觉和语言信息,通过Siglip视觉编码器和Qwen-2语言模型,实现高效特征映射和任务迁移学习。广泛应用于图像和视频分析、内容创作辅助、聊天机器人、教育和培训以及安全监控等领域。

Autoenhance.AI

Autoenhance.AI“我们的使命是为营销企业提供即时照片增强功能。”编辑器可增强您的工作流程。

WebSSL

WebSSL是由Meta和纽约大学等机构开发的视觉自监督学习模型,基于大规模网络图像数据训练,无需语言监督即可学习有效视觉表示。其包含多个变体,参数规模从3亿到70亿不等,在多模态任务如视觉问答、OCR和图表理解中表现出色。通过筛选含文本图像数据,显著提升特定任务性能。模型具备良好的扩展性,适用于智能客服、文档处理、医疗影像分析等多个领域。

Hautech.AI

Hautech.AI 是一款基于AI技术的图像生成工具,可将平面产品图自动转换为逼真模特展示图。用户可自定义模特特征、背景和细节,适用于社交媒体、产品目录和广告制作等多种场景,提升内容多样性与市场竞争力,节省拍摄时间和成本。

IC

IC-Light是一款由张吕敏开发的AI图像处理工具,专注于图像的光源操纵和光影重构,支持基于文本和背景条件下的图像重照明。该工具适用于多种场景,包括个人照片编辑、专业摄影后期、电商产品展示、广告和海报设计等。IC-Light具备自动抠图、光源方向选择、文本条件重照明等功能,并且支持开源获取。