图像

OThink

OThink-MR1是由OPPO研究院与香港科技大学(广州)联合研发的多模态语言模型优化框架,基于动态KL散度策略(GRPO-D)和奖励模型,提升模型在视觉计数、几何推理等任务中的泛化与推理能力。其具备跨任务迁移能力和动态平衡探索与利用机制,适用于智能视觉问答、图像描述生成、内容审核等多个领域,具有广阔的应用前景。

Moondream

Moondream是一款小型的开源人工智能视觉语言模型,具有强大的图像处理能力和灵活性,能够在不同设备上运行。它基于Apache 2.0许可证,支持商业使用,并广泛应用于安全监控、无人机和机器人技术以及零售与购物领域。

Poetry2Image

Poetry2Image是一个由哈尔滨工业大学提出的迭代校正框架,专门用于中文古诗词的图像生成。该工具通过自动化反馈和校正机制,提升了诗歌与图像的一致性,解决了文本到图像生成模型在处理中文古典诗歌时常见的关键元素丢失或语义混淆问题。Poetry2Image具备搜索翻译、生成初始图像、提取关键元素、图像修正及迭代优化等功能,与多种图像生成模型结合使用时,其元素完整性和语义一致性表现优异,适用于古诗词

ParGo

ParGo是一种由字节与中山大学联合开发的多模态大语言模型连接器,通过结合局部与全局token,提升视觉与语言模态的对齐效果。其核心模块PGP和CPP分别提取图像的局部和全局信息,增强细节感知能力。在多个基准测试中表现优异,尤其在文字识别和图像描述任务中优势明显。采用自监督学习策略,提高模型泛化能力,适用于视觉问答、图像字幕生成、跨模态检索等多种场景。

Trickle

Trickle 是一款零代码网页应用开发工具,通过自然语言输入即可快速构建功能完善的网页应用。它支持自动生成前端、后端及数据库,具备一键发布和托管功能。内置图像优化、数据分析和文案生成等 AI 能力,并提供丰富模板库。适用于小商家、创业者、设计师及企业等多种场景,提升开发效率与用户体验。

YesChat

YesChat是一款综合性的AI服务平台,集成了GPT-4o、DALL·E 3等多项先进技术,支持与文件对话、网络浏览、图片分析及图像生成等功能。其广泛应用于学术研究、商业分析、编程开发、教育培训、客户服务及内容创作等多个领域,同时注重用户隐私保护,提供灵活的使用方案。

OminiControl

OminiControl是一款高效且参数节约的图像生成框架,专为扩散变换器模型设计,支持主题驱动和空间控制。通过增加少量参数,它能够生成高质量图像并保持主题一致性,适用于多种应用场景,包括艺术创作、游戏开发和广告设计等。其强大的多模态注意力机制和灵活的架构使其成为图像生成领域的创新工具。

佐糖

佐糖是一款在线处理图片的平台,以智能AI数据处理能力为驱动,提供高效创意编辑服务。它支持抠图、在线消除笔、模糊照片变清晰、裁剪压缩图片等操作,操作简单,只需三步:上传照...

Fotographer AI

Fotographer AI是一款基于AI技术的图像生成工具,能够快速生成专业级产品图像,并提供多样化的广告模特图像。该工具支持文本和模板定制,简化创作流程。此外,它还能即时生成博客、新闻稿等营销材料。试用期免费,同时提供企业级服务选项,包括图像生成和账户管理。

ColorFlow

ColorFlow是一款由清华大学与腾讯ARC实验室联合研发的图像序列着色模型,具备检索增强、上下文学习及超分辨率技术,能够精准保持个体身份并实现高质量着色。该工具在漫画、动画制作、老照片修复及艺术创作等领域具有广泛应用价值,同时支持学术研究和技术探索。