AI项目与工具

Magma

Magma是微软研究院开发的多模态AI基础模型,具备理解与执行多模态任务的能力,覆盖数字与物理环境。它融合语言、空间与时间智能,支持从UI导航到机器人操作的复杂任务。基于大规模视觉-语言和动作数据预训练,Magma在零样本和微调设置下表现优异,适用于网页操作、机器人控制、视频理解及智能助手等多个领域。

Wiseone

Wiseone是一款集成了先进AI技术的浏览器扩展工具,专注于优化用户的网络搜索与阅读体验。它通过聚焦、交叉检查、提问、总结和探索等功能,帮助用户快速理解复杂信息、验证事实、生成摘要并挖掘相关资源。无论是在学术研究、新闻阅读还是日常学习中,Wiseone均能显著提高效率并确保信息的准确性和可靠性。

InfiMM

InfiMM-WebMath-40B是由字节跳动与中国科学院联合推出的大规模多模态数据集,涵盖大量数学和科学内容,包括文本、公式、符号及图像。该数据集通过筛选、清洗和标注优化,可显著提升多模态模型的数学推理能力。它适用于数学题库生成、学习工具开发、论文理解及科学研究等多个应用场景。 ---

Stable Video 3D (SV3D)

Stable Video 3D(SV3D)是一款由Stability AI公司开发的多视角合成和3D生成模型,能够从单张图片生成一致的多视角图像,并进一步优化生成高质量的3D网格模型。该模型在视频扩散模型基础上进行改进,提供更好的质量和多视角体验。主要功能包括多视角视频生成、3D网格创建、轨道视频生成、相机路径控制以及新视角合成。SV3D在新视角合成方面取得显著进展,能够生成逼真且一致的视图,提升

LlamaV

LlamaV-o1是由阿联酋穆罕默德·本·扎耶德人工智能大学等机构开发的多模态视觉推理模型,具备结构化推理和透明性,支持文本、图像和视频等多种模态的信息处理。该模型引入了VRC-Bench基准测试,涵盖4000多个推理步骤,用于全面评估推理能力。其性能优于多个开源模型,适用于医疗影像分析、金融数据解读、教育辅助和工业检测等场景,具有高准确性和可解释性。

AiNiee

AiNiee是一款基于AI技术的多功能翻译工具,支持多种文件格式和语言的自动翻译,包括游戏文件、小说、字幕等。它通过接入主流AI平台,提供高效的多语言翻译服务,支持自定义参数设置和批量翻译功能,确保翻译结果的准确性和流畅性,广泛应用于游戏本地化、字幕制作、电子书阅读等多个领域。

HART

HART是一种由麻省理工学院研究团队开发的自回归视觉生成模型,能够生成1024×1024像素的高分辨率图像,质量媲美扩散模型。通过混合Tokenizer技术和轻量级残差扩散模块,HART实现了高效的图像生成,并在多个指标上表现出色,包括重构FID、生成FID以及计算效率。

Transfusion

Transfusion是由Meta公司开发的多模态AI模型,能够同时生成文本和图像,并支持图像编辑功能。该模型通过结合语言模型的下一个token预测和扩散模型,在单一变换器架构上处理混合模态数据。Transfusion在预训练阶段利用了大量的文本和图像数据,表现出强大的扩展性和优异的性能。其主要功能包括多模态生成、混合模态序列训练、高效的注意力机制、模态特定编码、图像压缩、高质量图像生成、文本生成

ASAL

ASAL是一款基于基础模型设计的自动化人工生命探索工具,支持有监督目标搜索、开放式搜索和照明式搜索三大功能模块。它能够在多种人工生命基质中运行,提供定量分析能力,帮助研究者发现新颖且多样的生命现象。ASAL的技术核心包括视觉-语言基础模型、嵌入与相似性测量、优化算法及搜索策略,广泛应用于生物进化研究、智能机器人行为模拟、游戏AI开发等领域。 ---

Agentar

Agentar是蚂蚁数科推出的智能体开发平台,面向金融机构提供一站式AI开发工具。平台基于大量金融数据与AI技术,支持零代码、低代码开发,具备高安全性与合规性。其核心功能涵盖可信智能体技术、高质量知识库、可视化编排及丰富服务组件,适用于智能投研、客服、风控、营销与合规管理等场景,助力金融机构提升决策效率与智能化水平。