深度学习

Thinking Claude

Thinking Claude 是一个结合深度思考协议与浏览器扩展的工具,通过优化 AI 模型 Claude-3.5 的逻辑思维能力,实现更深层次的理解与表达。它支持 AI 的深入思考、过程展开与折叠,并具备知识综合、错误识别与纠正等特性。主要应用于教育辅助、内容创作、软件开发、客户服务及科研分析等领域,为用户提供高效、准确的支持。

Claude Dev

Claude Dev 是一款基于 Claude 3.5 Sonnet 模型的 AI 编程助手,专为 Visual Studio Code 设计。它支持自动化处理复杂编程任务,包括文件操作、代码生成、项目初始化等,并通过实时监控资源消耗和智能权限管理保障安全性。此外,其互动式开发辅助功能和直观界面显著提升了代码编写与项目管理的效率,适用于教育、游戏开发及专业编程等多个领域。

PixelHacker

PixelHacker是一款由华中科技大学与VIVO AI Lab联合开发的图像修复模型,采用潜在类别引导机制,通过线性注意力实现结构与语义一致性的高质量修复。基于大规模数据集训练并经过多基准微调,支持多种图像类型与分辨率。适用于照片修复、对象移除、艺术创作、医学影像及文化保护等领域。

Pixel3DMM

Pixel3DMM是由慕尼黑工业大学、伦敦大学学院和Synthesia联合开发的单图像3D人脸重建框架,基于DINOv2模型,能从单张RGB图像中准确重建出3D人脸的几何结构。该工具擅长处理复杂表情和姿态,支持身份和表情的解耦,并通过FLAME模型优化实现高精度重建。其应用场景涵盖影视游戏、VR/AR、社交视频、医疗美容和学术研究。

九歌

九歌是清华大学研发的AI诗歌生成系统,基于深度学习技术,可生成符合古诗格律的多种体裁作品。支持关键词、文本及图片输入,操作便捷,无需登录即可使用。适用于诗词创作辅助、文化教育、艺术融合及个人娱乐等多个场景,助力中华传统文化的传承与创新。

StochSync

StochSync是一种基于扩散同步(DS)和分数蒸馏采样(SDS)的图像生成技术,适用于360°全景图和3D纹理生成。它通过引入最大随机性与多步去噪方法,兼顾图像细节与连贯性,无需额外训练即可生成高质量图像。支持高分辨率输出,适用于复杂几何纹理化任务。

Amodal3R

Amodal3R 是一种基于条件的 3D 生成模型,能够从部分遮挡的 2D 图像中重建完整的 3D 模型。通过引入掩码加权多头交叉注意力机制和遮挡感知注意力层,提升了遮挡场景下的重建精度。该模型仅使用合成数据训练,却能在真实场景中表现出色,具有较强的泛化能力。广泛应用于 AR/VR、机器人视觉、自动驾驶及 3D 资产创建等领域。

OCTAVE

OCTAVE是一款由Hume AI研发的语音语言处理工具,融合了多种领先AI技术,具备强大的个性化语音生成能力,支持从文字到语音的即时转化,并能精准模仿不同说话者的声线与情感表达。其主要功能包括多角色对话生成、复杂指令理解与响应,以及实时语音处理等。此外,OCTAVE可应用于客户服务、虚拟助手、教育培训、娱乐游戏等多个领域,为用户带来更加自然、生动的交互体验。

阿里达摩院遥感AI大模型

阿里达摩院遥感AI大模型是一个强大的遥感数据处理和分析平台,它通过提供丰富的数据资源、先进的AI工具和灵活的开发环境,为地球科学研究、环境监测、农业管理等领域提供了有力的...

OmniAlign

OmniAlign-V是由多所高校联合开发的多模态大语言模型对齐数据集,包含约20万个多模态样本,涵盖自然图像和信息图表。其核心功能包括提供高质量训练数据、提升模型的开放式问答能力、增强推理与创造力,并支持模型持续优化。数据集通过图像筛选、任务设计及后处理优化确保数据质量,适用于多模态对话系统、图像辅助问答、创意生成等多个应用场景。