多模态 - 智狐AI导航

Project Mariner

Project Mariner是一款由谷歌DeepMind研发的浏览器助手工具，依托Gemini 2.0技术实现浏览器自动化。该工具能够解析并操作网页内容，涵盖像素、文本、图像及表单等多种形式的数据，支持复杂任务处理与自动化流程管理。此外，它强调用户体验与安全性，在执行关键操作时需获得用户授权。主要应用场景包括数据整理、在线购物、旅行规划及日常消费等领域。

AI项目与工具 2025年06月12日 90 点赞 0 评论 647 浏览

VSI

VSI-Bench是一种用于评估多模态大型语言模型（MLLMs）视觉空间智能的基准测试工具，包含超过5000个问题-答案对，覆盖多种真实室内场景视频。其任务类型包括配置型任务、测量估计和时空任务，可全面评估模型的空间认知、理解和记忆能力，并提供标准化的测试集用于模型性能对比。 ---

AI项目与工具 2025年06月12日 10 点赞 0 评论 651 浏览

VideoPoet是一款基于大模型的AI视频生成工具，支持从文本、图像或视频输入中合成高质量的视频内容及匹配的音频。其核心优势在于多模态大模型设计，能够处理和转换不同类型的输入信号，无需特定数据集或扩散模型即可实现多种风格和动作的视频输出。主要功能包括文本到视频转换、图像到视频动画、视频风格化、视频编辑和扩展、视频到音频转换以及多模态学习等。技术原理涉及多模态输入处理、解码器架构、预训练与任务适应

AI项目与工具 2024年01月01日 98 点赞 0 评论 651 浏览

Seaweed

Seaweed-7B 是一款由字节跳动开发的视频生成模型，拥有约 70 亿参数，支持从文本、图像或音频生成高质量视频。具备文本到视频、图像到视频、音频驱动生成、长镜头、连贯叙事、实时生成等功能，适用于内容创作、教育、广告等多个领域。采用变分自编码器和扩散变换器技术，结合多阶段训练与优化策略，提升生成效率与质量，兼顾性能与成本效益。

AI项目与工具 2025年06月11日 80 点赞 0 评论 651 浏览

GoCharlie

GoCharlie 是一个专为零售行业设计的全栈 AI 平台，集成了定制化的大型语言模型 Charlie。它支持多模态数据处理，包括文本、图像、视频和音频，为企业提供内容创作、客户服务、营销活动策划及数据分析等全方位解决方案，帮助企业提升运营效率和客户满意度。

AI项目与工具 2025年06月12日 32 点赞 0 评论 652 浏览

NVLM

NVLM是NVIDIA研发的多模态大型语言模型，涵盖图像理解、语言理解、跨模态融合、图像描述生成、视觉推理及多模态翻译等功能。它具备多种架构（NVLM-D、NVLM-X、NVLM-H），并采用动态高分辨率输入、1-D平铺标签设计及多模态预训练与微调技术，广泛应用于图像描述、视觉问答、文档理解、多模态搜索及辅助驾驶等领域。

AI项目与工具 2025年06月12日 57 点赞 0 评论 653 浏览

RMBG

RMBG-2.0是一款基于先进AI技术的开源图像背景移除模型，通过深度学习和多模态数据处理实现了高达90.14%的准确率。该模型在高分辨率图像上经过大量训练，支持电子商务、广告、游戏开发等领域，具备高精度背景移除、多模态数据处理及云服务器无关架构等特点，为用户提供了高效、灵活的解决方案。

AI项目与工具 2025年06月12日 91 点赞 0 评论 654 浏览

moonshot

moonshot-v1-vision-preview 是一款由月之暗面开发的多模态图像理解模型，具备精准的图像识别、OCR 文字识别和数据解析能力。支持 API 集成，适用于内容审核、文档处理、医学分析、智能交互等多个领域。模型可识别复杂图像细节、分析图表数据，并从美学角度进行图像评价，适合需要高效图像处理和智能交互的应用场景。

AI项目与工具 2025年06月12日 52 点赞 0 评论 654 浏览

Gemini 2.5 Pro (I/O 版)

Gemini 2.5 Pro (I/O 版) 是 Google 推出的多模态 AI 模型，具备强大的编程能力和多模态内容生成功能。它能基于提示词或手绘草图快速生成交互式 Web 应用、游戏及模拟程序，并支持代码生成、编辑与优化。该模型在多个基准测试中表现优异，适用于 Web 开发、游戏制作、教育工具构建及企业级应用开发等领域。最新版本进一步提升了性能与灵活性。

AI项目与工具 2025年06月11日 75 点赞 0 评论 656 浏览

京点点

京点点是京东零售技术推出的AI内容生成平台，专为电商场景设计，支持商品图片、营销文案等多模态内容的高效生成。基于DiT框架、Flow Matching等先进技术，平台可精准提取商品信息并生成高质量素材，适用于多种电商场景。面向京东商家、合作伙伴及内部员工开放，助力提升内容生产效率与质量。

AI项目与工具 2025年06月12日 82 点赞 0 评论 656 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期