深度学习

HealthGPT

HealthGPT是由多家高校与企业联合开发的医学视觉语言模型,支持医学图像分析、视觉问答、文本生成及多模态融合等任务。其核心技术包括异构低秩适应(H-LoRA)、分层视觉感知(HVP)和三阶段学习策略(TLS),可高效处理复杂医疗数据。模型适用于医学诊断、教育、研究及健康管理等多个场景,具有良好的适应性和实用性。

STranslate

STranslate是一款面向Windows用户的多功能翻译和OCR工具,支持多种语言翻译,包括划词、截图和监听剪贴板等多种方式,并集成了多家翻译服务接口。它还具备基于PaddleOCR技术的离线OCR功能,支持中文、英文、日文和韩文的识别。此外,该工具还具备快捷键操作、历史记录和在线升级等功能,是提高工作效率的理想工具。

Surya

Surya是一款开源OCR工具包,专注于文档识别,支持90多种语言的文本提取与分析。它能够识别文档中的文本、表格、图片及标题等布局元素,并确保文本阅读顺序的准确性。凭借其高效的表格识别能力和优化的算法,Surya在处理复杂文档时表现出色,广泛应用于文档数字化、数据提取、多语言处理以及学术研究等领域。 ---

讯飞星火

科大讯飞推出的新一代GPT人工智能模型,拥有跨领域的知识和语言理解能力,能够基于自然对话方式理解与执行任务。从海量数据和大规模知识中持续进化,实现从提出、规划到解决问题的全流程闭环。

SimpleAR

SimpleAR是一款由复旦大学与字节跳动联合研发的纯自回归图像生成模型,采用简洁架构实现高质量图像生成。其通过“预训练-有监督微调-强化学习”三阶段训练方法,提升文本跟随能力与生成效果。支持文本到图像及多模态融合生成,兼容加速技术,推理速度快。适用于创意设计、虚拟场景构建、多模态翻译、AR/VR等多个领域。

VisoMaster

VisoMaster 是一款基于 AI 的面部编辑与换脸工具,支持图片、视频及直播场景,能生成自然逼真的换脸效果。采用 GPU 加速与自定义模型功能,适用于影视、广告、视频创作等领域。核心技术包括深度学习与 GANs,实现高精度面部特征提取与图像合成,支持实时预览与参数调整,提升用户体验与效率。

PrimitiveAnything

PrimitiveAnything是由腾讯AIPD与清华大学联合开发的3D形状生成框架,通过将复杂3D形状分解为基本基元并自回归生成,实现高质量、高保真度的3D模型重建。其支持从文本或图像生成内容,具备高效存储、模块化设计及良好的泛化能力,适用于3D建模、游戏开发、UGC创作及VR/AR应用等领域。

Graphy

Graphy 是一款利用 AI 技术实现数据可视化的平台,能够自动创建图表并提供深度洞察。其核心功能包括一键增强图表、与 Google Sheets 集成以及支持团队协作。Graphy 适用于多种场景,如业务报告、市场营销、财务分析和教育培训,帮助用户高效传达数据背后的含义。

Change Clothes AI

Change Clothes AI是一款利用深度学习技术的在线虚拟试衣平台,用户上传个人照片与服装图片后,可快速生成逼真的试穿效果图。该工具支持多种服装风格的自由搭配,并提供高效的图像生成服务,适用于个人购物体验、电商展示、时尚内容创作及设计优化等场景。

Jodi

Jodi是由中国科学院计算技术研究所和中国科学院大学推出的扩散模型框架,基于联合建模图像域和多个标签域,实现视觉生成与理解的统一。它支持联合生成、可控生成和图像感知三种任务,利用线性扩散Transformer和角色切换机制,提升生成效率和跨领域一致性。Jodi使用Joint-1.6M数据集进行训练,包含20万张高质量图像和7个视觉域标签,适用于创意内容生成、多模态数据增强、图像编辑与修复等场景。