计算

MVDrag3D

MVDrag3D是一种先进的3D编辑框架,具备多视图一致性编辑、3D高斯重建、视图对齐及视觉质量增强等功能。它能够处理复杂的拓扑变化并支持多样化的3D表示,适用于游戏开发、虚拟现实、增强现实以及计算机辅助设计等领域,展现了强大的生成性和灵活性。

CountAnything

CountAnything是一款结合计算机视觉技术的计数工具,用户可通过拍照或上传图片标注样本,实现物品的自动计数。其功能涵盖工业、农业、物流及建筑等多个应用场景,支持历史数据保存、结果定制等功能,帮助用户提升工作效率与准确性。

OmniVision

OmniVision是一款面向边缘设备的紧凑型多模态AI模型,参数量为968M。它基于LLaVA架构优化,能够处理视觉与文本输入,显著降低计算延迟和成本。OmniVision支持视觉问答、图像描述等功能,广泛应用于内容审核、智能助手、视觉搜索等领域。

Free Video

Free Video-LLM是一种无需训练的高效视频语言模型,基于提示引导的视觉感知技术,可直接对视频内容进行理解和推理,适用于视频问答、内容分析等多种场景。通过时空采样优化和减少视觉标记,它在保持高性能的同时显著降低了计算复杂度。

Florence

Florence-2是微软Azure AI团队研发的多功能视觉模型,支持图像描述、目标检测、视觉定位和图像分割等功能。该模型基于Transformer架构,采用序列到序列学习方法,利用自注意力机制实现多模态信息融合。通过训练大规模数据集,Florence-2在多个应用场景中表现出色,包括图像和视频分析、内容审核、辅助驾驶、医疗影像分析以及零售和库存管理。

MARS

MARS是一款由字节跳动开发的优化框架,专注于提升大型模型训练效率。它融合了预条件梯度方法与方差减少技术,并通过缩放随机递归动量技术优化梯度估计。MARS支持多种Hessian近似方式,可生成基于AdamW、Lion和Shampoo的优化算法实例。该框架适用于深度神经网络、大规模语言模型、计算机视觉任务及强化学习等领域,能有效加速模型收敛并提高训练稳定性。

AlphaQubit

AlphaQubit是一款由谷歌推出的基于人工智能的量子错误解码工具,主要功能包括错误识别与纠正、基于AI的解码、性能优化以及泛化能力提升。它采用量子纠错码(如表面码)、神经网络架构(Transformer)及软读出技术,通过一致性检查与实验数据微调,实现对量子比特状态的高精度预测与校正。AlphaQubit可广泛应用于量子计算机开发、药物发现、材料设计、密码学及优化问题解决等场景。

DELIFT

DELIFT是一种针对大型语言模型微调的数据优化算法,通过成对效用度量与次模优化技术,有效减少数据量需求,同时维持甚至提升模型性能。它适用于指令调优、任务特定微调及持续微调三个关键阶段,并具备高计算效率和广泛适用性,广泛应用于数据科学家、研究人员及教育工作者等领域。

HART

HART是一种由麻省理工学院研究团队开发的自回归视觉生成模型,能够生成1024×1024像素的高分辨率图像,质量媲美扩散模型。通过混合Tokenizer技术和轻量级残差扩散模块,HART实现了高效的图像生成,并在多个指标上表现出色,包括重构FID、生成FID以及计算效率。

Photomath

Photomath是一款基于人工智能技术的数学学习应用,通过手机摄像头扫描数学题目,提供详细的解题步骤和解释。它支持从基础算术到复杂代数、几何和微积分问题的解答,拥有多种解题方法、动画和视觉辅助等功能,适合学生、家长和教师使用,旨在通过互动式学习提升数学能力,并为教学提供辅助支持。