工具

MMSearch

MMSearch 是一款用于评估大型多模态模型(LMMs)搜索能力的基准测试工具,包含 MMSearch-Engine 框架和 MMSearch 测试集。其核心功能包括问题重构、网页排序和答案总结,通过多模态搜索能力评估提升 LMMs 的性能。实验结果显示 GPT-4o 在该测试中表现优异,且增加计算量比扩大模型规模更具优势。

BLIP3

BLIP3-o是Salesforce Research等机构推出的多模态AI模型,结合自回归与扩散模型优势,实现高效图像理解和生成。基于CLIP语义特征,支持文本与图像间的双向转换及图像编辑。采用顺序预训练策略,提升模型性能。完全开源,适用于创意设计、视觉问答、艺术生成等多种场景。

PlayHT

PlayHT是一个功能强大、特性丰富的在线文本到语音工作室,它通过先进的AI技术,提供了一个广泛的、自然声音的AI语音库,适用于多种语言和场景。

Covers AI

一款功能强大的AI声音和歌曲生成器工具,允许用户使用来自著名主播、政治家、歌手、卡通人物等的数千种声音生成 AI 翻唱。

MyShell

MyShell是一个全面的AI应用开发平台,提供了经典、开发和无代码三种模式,适合各种技能水平的用户。该平台支持创建AI原生应用,并通过AI代理商店提供多模态应用,涵盖效率工具、教育应用、游戏和客户服务等多个领域。平台还设有激励机制,鼓励创作者和用户参与,同时倡导使用开源模型,确保创作者和用户能够公平地分享收益。

Ello

Ello是一款面向4-8岁儿童的AI阅读辅助工具,结合自适应学习系统和语音识别技术,提供个性化的阅读体验。它包含基于科学阅读法的解码电子书、AI实时辅导、互动阅读功能及激励机制,帮助孩子提升阅读能力、增强自信心。适用于家庭、学校及特殊教育场景,支持月度或年度订阅模式。

SynthID Text

SynthID Text 是一种由谷歌DeepMind开发的文本水印技术,主要用于识别和验证大型语言模型生成的文本。它通过在生成过程中嵌入几乎不可见的水印,保持文本质量的同时实现高效检测。SynthID Text 支持多种模式,适用于新闻、教育、法律及社交媒体等多个领域,为内容验证和AI应用提供了技术支持。

StoryMaker

StoryMaker 是一款基于 Stable Diffusion XL 模型和 LoRA 技术的文本到图像生成工具,专为保持连续图像中角色一致性而设计。其核心功能包括角色一致性维护、多角色处理、高质量图像生成及叙事创作支持。通过深度学习和面部特征识别技术,StoryMaker 能够生成细节丰富、视觉一致的图像,广泛应用于漫画、游戏、影视制作及广告创意等领域。

Hama

帮助用户上传图片、并用AI技术将画面中不想要的部分抹除

Stackie.AI

Stackie.AI 是一款基于AI的智能记录与管理工具,支持多模态输入(文本、语音、图像),提供自动整理、任务生成、个性化模板及角色互动等功能。适用于健康管理、学习辅助、日常计划与习惯养成等场景,提升信息处理效率与用户体验。