学习

Versatile

Versatile-OCR-Program是一款开源多模态OCR工具,支持从教育材料中提取文本、公式、表格等结构化数据,输出为JSON或Markdown格式,准确率高达90%-95%。它基于DocLayout-YOLO、Google Vision和MathPix等技术,支持多语言处理,适用于教育数据集制作、教学辅助、AI模型训练及个人学习等场景。

MMedAgent

MMedAgent是一款面向医疗领域的多模态AI平台,集成了指令优化的多模态大型语言模型(MLLM)及一系列定制化医疗工具,支持多种医学成像模式(如MRI、CT、X射线等),可高效处理视觉问答、分类、定位、分割、医学报告生成(MRG)及检索增强生成(RAG)等任务,显著提升了医疗数据处理效率与准确性。

幻方AI

成立于2019年12月,专注于人工智能(AI)领域的算法与基础应用研究。公司致力于通过前沿科技的研发,激发创造力和想象力,推动人类梦想的实现。

CLaMP 3

CLaMP 3是由清华大学朱文武教授团队开发的多模态、多语言音乐信息检索框架,支持文本、图像、音频和乐谱等多种模态之间的跨模态检索。其基于对比学习技术,将不同模态数据与多语言文本对齐至统一语义空间,适用于文本到音乐、图像到音乐检索、零样本分类及音乐推荐等任务。支持27种语言,可扩展至100种,广泛应用于音乐创作、教育、分析及多媒体内容制作。

Kolors Virtual Try

Kolors Virtual Try-On 是一款基于深度学习技术的 AI 虚拟换衣工具,能够分析用户上传的照片并智能适配服装,生成逼真的试穿效果。主要功能包括 AI 虚拟换衣、自动适配光线和阴影、支持多种服装和风格、快速生成效果图以及个性化试穿体验。该工具适用于在线购物、时尚搭配、内容创作和电商营销等多种应用场景。

RiteBot

使用RiteBot体验最前沿的人工智能写作工具

PaddleSpeech

PaddleSpeech是百度飞桨团队开发的开源语音处理工具,涵盖语音识别、语音合成、声纹识别、语音翻译等功能。支持多种接口形式,适用于智能语音助手、语音播报、身份验证等场景。基于PaddlePaddle框架,提供高效的深度学习模型和丰富的音频处理能力,适用于多种实际应用需求。

jpghd

利用先进的人工智能 AI 将老照片无损高清修复

AiNiee

AiNiee是一款基于AI技术的多功能翻译工具,支持多种文件格式和语言的自动翻译,包括游戏文件、小说、字幕等。它通过接入主流AI平台,提供高效的多语言翻译服务,支持自定义参数设置和批量翻译功能,确保翻译结果的准确性和流畅性,广泛应用于游戏本地化、字幕制作、电子书阅读等多个领域。

Swapface

一款实时且逼真的AI换脸程序,它允许用户立即变身为拥有一张照片的任何人,而无需任何处理时间。它易于设置,可让您将内容创作、直播提升到一个新的水平。