模型

PersonaCraft

PersonaCraft是一种结合扩散模型和3D人体建模的全身图像合成技术,能够从单一参考图像生成多个逼真的个性化全身图像。它支持遮挡处理、用户自定义身体形状,并通过3D感知姿态条件控制提高生成图像的质量。该工具广泛应用于社交媒体、广告、时尚、游戏及电影等领域,为个性化定制提供了强大的技术支持。

Aicolors

AI Colors,人工智能生成界面配色方案。

HuggingSnap

HuggingSnap 是一款基于 Hugging Face 的 AI 助手应用,采用轻量级多模态模型 SmolVLM2,支持图像、视频和文本的本地处理与生成。具备即时视觉描述、多语言文字识别与翻译、隐私保护等功能,适用于旅行、日常辅助、医疗及零售等场景,确保用户数据安全。

SpeechGPT 2.0

SpeechGPT 2.0-preview 是复旦大学 OpenMOSS 团队开发的拟人化实时交互系统,基于大量中文语音数据训练,支持低延迟、高自然度的语音与文本交互。具备情感控制、实时打断、多风格语音生成等功能,适用于智能助手、内容创作及无障碍通信等场景,技术上融合了语音-文本联合建模与多阶段训练策略,提升语音表现力与智能化水平。

DreamOmni

DreamOmni是一款由香港中文大学、字节跳动与香港科技大学联合研发的统一图像生成与编辑模型。它集成了文本到图像生成(T2I)及多种编辑功能,包括指令式编辑、修复、拖拽编辑和参考图像生成。DreamOmni利用合成数据管道高效生成高质量编辑数据,并通过联合训练提升图像生成与编辑质量。该模型在多任务处理、复杂提示兼容性及训练效率优化上表现优异,适用于数字艺术、影视特效、广告设计等多个领域。

RegionDrag

RegionDrag是一种基于区域的图像编辑技术,由香港大学和牛津大学联合开发。该技术利用扩散模型,让用户通过定义手柄区域和目标区域来实现快速且精确的图像编辑。RegionDrag在单次迭代中完成编辑任务,显著减少编辑时间,同时采用注意力交换技术增强编辑的稳定性和自然性。主要应用领域包括数字艺术与设计、照片编辑、虚拟现实、游戏开发以及电影和视频制作等。

MMSearch

MMSearch 是一款用于评估大型多模态模型(LMMs)搜索能力的基准测试工具,包含 MMSearch-Engine 框架和 MMSearch 测试集。其核心功能包括问题重构、网页排序和答案总结,通过多模态搜索能力评估提升 LMMs 的性能。实验结果显示 GPT-4o 在该测试中表现优异,且增加计算量比扩大模型规模更具优势。

AI Interview Copilot

AI Interview Copilot是一款专为求职者设计的AI辅助工具,通过实时语音转录和先进的语言模型(如GPT-4)来提升远程面试的表现。主要功能包括实时转录、问题解答、算法问题解决和图像识别等。该工具支持多语言,帮助求职者在技术或编程面试中快速生成答案和代码,从而更加自信地展示专业技能,提高面试成功率。

瑞智病理大模型

瑞智病理大模型(RuiPath)是由上海交通大学医学院附属瑞金医院与华为联合开发的国产多模态病理诊断系统,覆盖中国90%的常见癌种及部分罕见病。通过整合图像、文本等多源数据,实现高效、精准的辅助诊断,支持交互式审核流程,提升诊断效率与准确性。模型基于深度学习与华为DCS AI平台,适用于临床诊断、基层医疗、医学教育等多个场景,推动病理诊断智能化发展。

TigerBot

TigerBot是一个功能丰富、持续进化的大型语言模型,它通过不断的技术创新和社区贡献,为用户提供了一个强大的多语言多任务处理能力。