AI项目与工具

HybridRAG

HybridRAG是一种结合了检索增强生成模型的混合架构,通过检索系统和生成模型的协同工作,生成更准确和丰富的输出。其主要功能包括信息检索、上下文理解、知识融合和生成能力。HybridRAG适用于多种自然语言处理任务,如问答系统、文本摘要和对话生成,能够利用大量外部知识提高生成内容的质量和相关性。

CogAgent

CogAgent是一款由清华大学与智谱AI联合开发的多模态视觉大模型,专注于图形用户界面(GUI)的理解与导航。它具备视觉问答、视觉定位、GUI Agent、高分辨率图像处理及多模态能力,可应用于自动化测试、智能交互、多模态人工智能应用开发、企业级AI Agent平台等多个领域。CogAgent在多个基准测试中表现出色,尤其在GUI操作数据集上显著超越现有模型。

OlympicArena

OlympicArena是由多所高校与研究机构联合开发的多学科认知推理基准测试框架,包含11,163道国际奥赛双语题目,覆盖数学、物理、化学、生物、地理、天文学和计算机科学等7大领域。该平台通过答案级与过程级评估,全面衡量AI模型的逻辑与视觉推理能力,支持多模态输入并具备数据泄漏检测机制,适用于AI模型评估、训练优化、教育辅助及科研应用。

凹凸工坊

凹凸工坊是一款专业的在线AI手写稿件生成工具,支持将Word文档一键转换为真实的手写稿图片。用户可选择多种手写字体、纸张背景,并调整涂改率和凌乱度,模拟真实手写场景。生成的图片无水印且支持高清打印(600dpi),具备超级DIY功能和较大的文件大小限制,适用于作业、书信、创意写作等多种场景。

OpenCity

OpenCity是一个由香港大学联合华南理工大学和百度共同研发的交通预测模型。该模型采用了Transformer架构和图神经网络,通过大规模预训练学习交通数据中的时空依赖关系,具有卓越的零样本预测能力和快速情境适应能力。OpenCity能够有效处理不同空间区域和时间的城市交通模式,并具备良好的可扩展性。其应用场景包括交通流量预测、交通拥堵分析、公共交通优化以及智能交通信号控制等。

Being

Being-M0是由北京大学、中国人民大学等机构联合研发的首个大规模人形机器人通用动作生成模型。基于百万级动作数据集 MotionLib 和 MotionBook 编码技术,实现动作序列的高效表示与生成。该模型支持文本驱动动作生成、动作迁移及多模态数据处理,可应用于人形机器人控制、动画制作、VR/AR、人机交互及运动康复等多个领域,显著提升动作生成的多样性和语义对齐精度。

Claude 3

Claude 3是由Anthropic开发的一系列先进的人工智能模型,旨在提供强大的认知能力和处理复杂任务的能力。该模型家族包括Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus,它们分别针对不同的应用场景进行了优化。Claude 3 Opus在多个基准测试中超越了GPT-4/3.5和Gemini 1.0 Ultra/Pro,展示了其在智能水平上的显著优势。该

Soundwave

Soundwave是由香港中文大学(深圳)开发的开源语音理解大模型,专注于语音与文本的智能对齐与处理。它采用对齐适配器和压缩适配器技术,提升语音特征压缩效率,支持语音翻译、语音问答、情绪识别及多模态交互等功能。适用于智能语音助手、语言学习、内容创作等多个领域,具有广泛的应用前景。

Magnitude

Magnitude 是一个开源的视觉 AI 代理驱动的端到端测试框架,支持自然语言编写测试用例,结合推理代理与视觉代理实现智能化测试流程。它具备本地运行、CI/CD 集成和托管服务等多种部署方式,适用于 Web 应用测试、自动化测试、生产环境监控等场景,提高测试效率与准确性。

HunyuanCustom

HunyuanCustom是腾讯混元团队开发的多模态视频生成框架,支持图像、音频、视频和文本等多种输入条件,生成高质量定制化视频。采用文本-图像融合与图像ID增强技术,提升身份一致性和视频真实性。适用于虚拟人广告、虚拟试穿、视频编辑等场景,具备音频驱动和视频驱动两种生成方式,展现强大可控性与灵活性。