AI项目与工具

GameFactory

GameFactory 是由香港大学与快手科技联合研发的AI框架,专注于解决游戏视频生成中的场景泛化问题。它基于预训练视频扩散模型,结合开放域数据与高质量游戏数据,通过多阶段训练实现动作可控的多样化场景生成。具备高精度动作控制、交互式视频生成及丰富场景支持,适用于游戏开发、自动驾驶模拟及具身智能研究等领域。

DUSt3R

DUSt3R是一个由芬兰阿尔托大学和Naver欧洲实验室联合研发的3D重建框架。该框架能够快速地从任意图像集合中重建出三维场景,无需事先了解相机校准或视点位置信息。DUSt3R主要功能包括快速3D重建、无需相机校准、多视图立体重建、单目和双目重建以及生成深度图、置信度图和点云图。它采用了点图表示法、Transformer网络架构和端到端训练方式,并提出了全局对齐策略来处理多视图重建任务。

Afforai

Afforai是一款面向研究人员的AI写作与研究辅助平台,支持论文撰写、引用管理、文献分析及笔记整理等功能。其AI研究助手可自动总结、比较和翻译多篇文献,确保信息来源可靠。平台支持多种文档格式与实时协作,提供自动生成参考书目服务,提升学术工作效率。

FaceChain

FaceChain是一个由阿里巴巴达摩院开发的开源AI生成框架,专为创建个人数字形象而设计。用户上传个人照片后,可生成独特且个性化的数字写真。该框架采用先进的机器学习技术,支持多风格写真生成、个性化训练、姿态控制和自定义提示词等功能,满足不同用户的多样化需求。

uBrand

uBrand 是一个一站式AI品牌创建和设计平台,主要功能包括智能LOGO生成、品牌定位与策划、品牌VI设计生成、智能品牌设计和品牌资源管理。该平台利用AI技术帮助创业者快速创建专业品牌,涵盖从Logo设计到品牌故事讲述、品牌设计和资源管理等多个方面。它提供了免费和付费两种版本,满足不同用户需求。

Kimi

Kimi-VL是月之暗面推出的轻量级多模态视觉语言模型,支持图像、视频、文档等多种输入形式。其基于轻量级MoE架构和原生分辨率视觉编码器,具备强大的图像感知、数学推理和OCR能力。在长上下文(128K)和复杂任务中表现优异,尤其在多模态推理和长视频理解方面超越同类模型。适用于智能客服、教育、医疗、内容创作等多个领域。

Agentar

Agentar是蚂蚁数科推出的智能体开发平台,面向金融机构提供一站式AI开发工具。平台基于大量金融数据与AI技术,支持零代码、低代码开发,具备高安全性与合规性。其核心功能涵盖可信智能体技术、高质量知识库、可视化编排及丰富服务组件,适用于智能投研、客服、风控、营销与合规管理等场景,助力金融机构提升决策效率与智能化水平。

MedGemma

MedGemma是谷歌推出的开源AI模型,专注于医疗图像与文本分析。它包含4B参数的多模态模型和27B参数的纯文本模型。4B模型擅长解读医疗图像并生成诊断报告,27B模型则用于医疗文本理解与临床推理。支持本地运行或通过Google Cloud部署,适用于医疗诊断、患者分诊、临床决策辅助等场景,提升医疗服务效率与准确性。

文优小助

文优小助是一款基于AI技术的学术写作辅助工具,专为MBA学生和研究生设计。它提供文献阅读、论文写作支持、文献综述生成、查重降重等功能,助力用户高效完成学术任务,同时具备智能问答和格式修改服务,确保论文质量和规范性。

BGE

BGE-VL是由北京智源研究院联合高校开发的多模态向量模型,基于大规模合成数据MegaPairs训练,具备高效的多模态数据合成方法和强大的泛化能力。它支持图文检索、组合图像检索和多模态嵌入等功能,适用于智能搜索、内容推荐、图像编辑辅助等多个领域。模型在多种任务中表现优异,尤其在组合图像检索方面取得显著成果。