AI项目与工具

MMSearch

MMSearch 是一款用于评估大型多模态模型(LMMs)搜索能力的基准测试工具,包含 MMSearch-Engine 框架和 MMSearch 测试集。其核心功能包括问题重构、网页排序和答案总结,通过多模态搜索能力评估提升 LMMs 的性能。实验结果显示 GPT-4o 在该测试中表现优异,且增加计算量比扩大模型规模更具优势。

Crawl4LLM

Crawl4LLM是由清华与CMU联合开发的智能爬虫系统,通过评估网页对大语言模型预训练的价值,提升数据获取效率。支持多种爬取模式,具备状态保存、数据可视化功能,并与DCLM框架兼容。采用多维度评分机制优化爬取策略,减少低价值内容抓取,降低对网站负担,适用于LLM预训练、数据集构建等场景。

EMMA

EMMA是一款基于Gemini模型的端到端自动驾驶多模态模型,可直接从原始相机传感器数据生成驾驶轨迹并执行多种任务,如3D对象检测、道路图元素识别及场景理解。该模型利用自然语言处理技术实现跨任务协作,并展现出强大的泛化能力,但在某些方面仍需改进。

Research Rabbit

Research Rabbit是一款基于人工智能技术的科研文献管理工具,主要功能包括文献检索、集合创建、网络关系分析、时间轴展示、智能摘要和阅读、云端存储和管理以及协作和共享。该工具支持多种搜索选项,能够帮助用户发现和理解文献之间的联系,适用于个人和团队研究,涵盖多个学科领域。

鼠鼠求职

鼠鼠求职是一款基于AI技术的招聘平台,提供岗位智能匹配、简历优化、安全校验等功能,覆盖全国招聘渠道,提升求职与招聘效率。支持岗位订阅、AI生成JD、智能筛选简历等服务,适用于应届生、职场人士及企业招聘等多种场景。

Maya

Maya是一款开源多语言多模态模型,基于LLaVA框架开发,支持中文、法语、西班牙语等多种语言,专注于提升低资源语言的AI内容生成能力。它结合图像和文本数据,实现跨模态对齐和指令微调,广泛应用于跨语言内容理解、图像分析、教育和电子商务等领域。

Freepik Pikaso

Freepik Pikaso是一款实时AI绘画生成工具,它通过人工智能技术让用户能够通过简单草图和描述性文字实时生成艺术作品。该工具具备实时绘画创作、描述性艺术生成、图标和元素库、摄像头和屏幕共享、播放模式以及图像质量提升等功能。适用于设计师、艺术家、插画家、内容创作者、营销和广告专业人士以及非专业用户。

Seaweed

Seaweed-7B 是一款由字节跳动开发的视频生成模型,拥有约 70 亿参数,支持从文本、图像或音频生成高质量视频。具备文本到视频、图像到视频、音频驱动生成、长镜头、连贯叙事、实时生成等功能,适用于内容创作、教育、广告等多个领域。采用变分自编码器和扩散变换器技术,结合多阶段训练与优化策略,提升生成效率与质量,兼顾性能与成本效益。

Runner H

Runner H是一款基于AI技术的代理工具,专为企业和开发者设计,支持质量保证与流程自动化任务。其核心能力包括自然语言指令的理解、网页操作的自动化、对UI变化的适应性以及跨平台任务执行。Runner H适用于电子商务、金融服务、网站测试、RPA和BPO等多个领域,帮助企业提升效率并减少维护成本。

EchoMimicV2

EchoMimicV2是一款由阿里巴巴蚂蚁集团研发的AI数字人动画生成工具,能够基于参考图片、音频剪辑及手部姿势序列生成高质量的半身动画视频。它支持多语言(中英双语)输入,并通过音频-姿势动态协调、头部局部注意力及特定阶段去噪损失等技术手段显著提高了动画的真实度与细节表现力,适用于虚拟主播、在线教育、娱乐游戏等多个领域。