图像

KHOJ

KHOJ是一款开源的AI助手,支持多源知识整合与语义搜索,兼容多种文档格式和AI模型。提供图像生成、语音交互、跨平台访问等功能,支持本地与云端部署,适用于个人知识管理、学习研究、团队协作等场景,具有高度灵活性和可扩展性。

EasyControl

EasyControl是基于扩散变换器(DiT)架构的高效控制框架,采用轻量级LoRA模块实现多条件控制,支持图像生成、风格转换、动画制作等任务。其具备位置感知训练范式和因果注意力机制,优化计算效率,提升生成质量与灵活性,适用于多种图像处理场景。

CLEAR

CLEAR是一种由新加坡国立大学推出的新型线性注意力机制,能够有效提升预训练扩散变换器生成高分辨率图像的效率。该机制通过局部注意力窗口和知识蒸馏技术,实现了线性复杂度,显著减少了计算量和时间延迟,同时保持了高质量的图像生成效果。CLEAR还支持跨模型泛化、多GPU并行推理以及稀疏注意力优化,广泛适用于数字媒体创作、虚拟现实、游戏开发等多个领域。

晨羽智云

晨羽智云是一个综合性的人工智能应用平台,由(杭州)科技有限公司开发。该平台提供了一系列基于AI技术的服务和工具,包括电商图生成、人像处理、家居装修方案生成等。

纳米搜索

纳米搜索是一款由360集团开发的多功能AI搜索引擎,支持文字、语音、拍照和视频等多种搜索方式,涵盖从简单到复杂的全方位解答方案。它整合了16款顶尖大模型能力,配备了智能工具,如写作、翻译和旅游规划助手,旨在提升多场景下的操作效率。此外,其独特的AI脱口秀功能,能将搜索结果转化为视频内容,为用户提供更直观的知识获取体验。

One Shot, One Talk

One Shot, One Talk是一项由中国科学技术大学和香港理工大学研究者开发的图像生成技术,它可以从单张图片生成具有个性化细节的全身动态说话头像。该工具支持逼真的动画效果,包括自然的表情变化和生动的身体动作,同时具备对新姿势和表情的泛化能力。One Shot, One Talk结合了姿势引导的图像到视频扩散模型和3DGS-mesh混合头像表示技术,提供了精确的控制能力和高质量的重建效果。

LinFusion

LinFusion 是一种创新的图像生成模型,基于线性注意力机制高效处理高分辨率图像生成任务。它在处理大量像素时保持计算复杂度线性增长,显著提高生成效率。LinFusion 支持零样本跨分辨率生成,并与预训练模型组件如 ControlNet 和 IP-Adapter 兼容。在单个 GPU 上,LinFusion 能够生成高达 16K 分辨率的图像,广泛应用于艺术创作、游戏设计、虚拟现实等领域。

LLaVA

LLaVA-OneVision是字节跳动开发的开源多模态AI模型,主要功能包括多模态理解、任务迁移、跨场景能力、开源贡献及高性能。该模型采用多模态架构,集成了视觉和语言信息,通过Siglip视觉编码器和Qwen-2语言模型,实现高效特征映射和任务迁移学习。广泛应用于图像和视频分析、内容创作辅助、聊天机器人、教育和培训以及安全监控等领域。

Imaiger

Imaiger 是一种可让您搜索和生成由AI创建的图像和在线工具。您还可以使用 Imaiger 通过选择不同的样式、颜色和主题来创建自己的图像。

Pikaso

Pikaso,免费的在线实时涂鸦出图工具,用户只需快速绘制草图即可创建他们能想象到的任何图像。它不仅仅是一个人工智能工具,它是你创意本质的延伸。