场景

Boow

Boow-VTON是一种基于先进图像生成技术和数据增强方法的虚拟试衣技术,无需精确遮罩即可实现高质量试穿效果。该工具通过试穿定位损失和注意力机制,精准识别试穿区域并确保服装自然贴合人体,支持多服装试穿且操作简便。其应用场景包括在线购物、时尚零售、个性化推荐、社交媒体互动及服装设计等多个领域,具有广泛的商业应用价值。

AutoAgents

是一款面向业务人员使用的无代码的Agent产品,能够推动企业新时代知识工作流水线的构建

VideoLLaMB

VideoLLaMB 是一个创新的长视频理解框架,通过引入记忆桥接层和递归记忆令牌来处理视频数据,确保在分析过程中不会丢失关键的视觉信息。该模型专为理解长时间视频内容而设计,能够保持语义上的连续性,并在多种任务中表现出色,例如视频问答、自我中心规划和流式字幕生成。VideoLLaMB 能够有效处理视频长度的增加,同时保持高性能和成本效益,适用于学术研究和实际应用。 ---

Luma ai

一套三维重建技术方案,它的特点是基于现有视角的图像生成新视角的图像。

Universal

Universal-1是一款由AssemblyAI开发的多语言语音识别和转录模型,经过大量多语种音频数据训练,支持英语、西班牙语、法语和德语等。该模型在各种复杂环境中提供高精度的语音转文字服务,具备快速响应能力和改进的时间戳准确性。Universal-1在准确率、响应时间、时间戳估计和用户偏好等方面表现优异,适用于对话智能平台、AI记事本、创作者工具和远程医疗平台等多个应用场景。

美图AI Logo

美图AI Logo,用户只需输入一句想法,即可生成多个不同风格的Logo。

ZelinAI-AI应用构建平台

ZelinAI是一个AI应用构建平台,允许用户通过零代码方式构建自己的AI应用。它专注于Prompt学习和训练、AI参数调试等场景,并支持将模型打包为专属AI应用。此外,用户还可以通过分享...

文心iRAG

文心iRAG是百度推出的一种检索增强型文生图技术,它通过结合百度搜索引擎中的海量图片资源与先进基础模型能力,解决了大模型在文生图时容易出现的幻觉问题,显著提高了生成图片的真实性和准确性。此技术不仅适用于广告、媒体、教育等多个领域,还具备低成本、高效率的特点,能够快速生成满足需求的高质量图像。

CleanS2S

CleanS2S是一款流式语音到语音交互智能体原型,通过集成自动语音识别(ASR)、大型语言模型(LLM)、文本到语音(TTS)以及WebSockets等技术,提供高质量、实时的语音交互体验。它支持全双工交互和打断功能,可整合网络搜索和RAG模型以增强回答能力,适用于客户服务、智能家居控制、教育辅助、健康咨询及车载系统等多个领域。