生成

MisoraAI

Misora AI是一款集成了深度学习与自然语言处理技术的智能搜索引擎,具备快速搜索、精准匹配及自然语言交互等功能。它不仅能为用户提供即时的文本查询结果,还能生成创意内容如诗歌、故事等,并支持图像描述服务。Misora AI适用于多种场景,包括日常信息查询、学术研究、工作辅助以及娱乐资讯获取,为用户提供了便捷高效的智能化解决方案。

Sketch2Sound

Sketch2Sound是一种由Adobe研究院与西北大学联合开发的AI音频生成技术,通过提取响度、亮度和音高概率等控制信号,结合文本提示生成高质量音效。其轻量化设计使得模型易于适配多种文本到音频框架,同时赋予声音设计师更强的表达力与可控性,广泛适用于电影、游戏、音乐制作及教育等多个领域。

OmniAudio

OmniAudio-2.6B是一款专为边缘设备设计的高性能音频语言模型,具备语音识别、转录、问答、对话生成及内容创作等核心功能。其技术优势在于多模态架构的高效集成、稀疏性利用以及三阶段训练流程,支持FP16和Q4_K_M量化版本,确保在资源受限的环境下仍能稳定运行。OmniAudio-2.6B可应用于智能助手、车载系统、会议记录、教育和医疗等多个领域,为用户提供便捷、高效的语音交互体验。

DreamOmni

DreamOmni是一款由香港中文大学、字节跳动与香港科技大学联合研发的统一图像生成与编辑模型。它集成了文本到图像生成(T2I)及多种编辑功能,包括指令式编辑、修复、拖拽编辑和参考图像生成。DreamOmni利用合成数据管道高效生成高质量编辑数据,并通过联合训练提升图像生成与编辑质量。该模型在多任务处理、复杂提示兼容性及训练效率优化上表现优异,适用于数字艺术、影视特效、广告设计等多个领域。

Open Notebook

Open Notebook是一款开源、注重隐私的笔记管理工具,支持多笔记本和多AI模型(如Open AI、Anthropic)。它具备播客生成器、内容集成、AI驱动笔记、集成搜索等核心功能,适用于学术研究、教育、企业知识管理和个人知识整理等多个场景,通过自然语言处理和搜索技术提升信息处理效率。

ChiChat

ChiChat是一款由AI技术支持的多功能智能助手平台,提供自然语言交互、文档分析、图像识别及创意图像生成等功能。其核心特性包括支持多页文档解析、多层图像识别、DALL-E图像生成以及实时搜索能力。ChiChat适用于客户服务、教育辅导、企业知识管理及个人事务处理等多种应用场景。

TRELLIS

TRELLIS是一款由清华大学、中国科学技术大学及微软研究院共同开发的3D生成模型,利用Structured LATent(SLAT)表示法,通过文本或图像提示生成高质量、多样化的3D资产。它融合了稀疏的3D网格结构与密集视觉特征,支持多格式输出及局部编辑,无需拟合训练即可生成细节丰富的模型。此外,TRELLIS具备两阶段生成流程,可灵活适应不同需求。

Acedit

Acedit是一款利用AI技术的Chrome扩展工具,旨在帮助求职者提升面试能力。其核心功能包括实时问题检测、AI生成的回答建议、个性化面试准备、模拟面试体验、求职信生成及面试表现回顾等。无论是在线面试还是模拟演练,Acedit都能为用户提供全面的支持,助力他们在面试中脱颖而出。

3DHM

3DHM是一项由加州大学伯克利分校开发的3D人体动作生成技术,能够从单张照片生成动态人体视频,具备动作生成、编辑、评估、纹理修复、人体渲染及动作模仿等功能。该技术通过学习人体先验知识和3D运动序列,结合扩散模型和4DHumans预测模型,广泛应用于电影特效、虚拟现实、游戏开发等领域,为动画制作和人体动作模拟提供了创新解决方案。

Diff

Diff-Instruct是一种基于积分Kullback-Leibler散度的知识迁移方法,用于从预训练扩散模型中提取知识并指导生成模型的训练。它能够在无需额外数据的情况下,通过最小化IKL散度提升生成模型的性能。Diff-Instruct适用于多种场景,包括预训练扩散模型的蒸馏、现有GAN模型的优化以及视频生成等。