多模态

InternVL3

InternVL3是上海人工智能实验室推出的多模态大型语言模型,具备文本、图像、视频等多模态数据处理能力。采用原生多模态预训练方法,提升语言与视觉理解效率,并支持工具使用、3D视觉、工业图像分析等复杂任务。模型可通过API部署,适用于智能交互、图像识别、视频分析及客服系统等多种场景。

AddressCLIP

AddressCLIP 是一种基于 CLIP 技术的端到端图像地理定位模型,由中科院自动化所与阿里云联合开发。它通过图像与地址文本对齐和地理匹配技术,实现街道级别的精确定位,无需依赖 GPS。模型在多个数据集上表现优异,适用于城市管理、社交媒体、旅游导航等多个场景,具备良好的灵活性和多模态结合潜力。

JanusFlow

JanusFlow是一款集成了自回归语言模型与校正流技术的多模态AI模型,能够在单一框架内高效完成图像理解和生成任务。它通过解耦视觉编码器和表示对齐策略,显著提升了模型在视觉理解与图像生成上的表现,广泛应用于图像生成、多模态内容创作、视觉问答、图像理解和辅助设计等多个领域。

Multimodal Live API

Multimodal Live API是谷歌推出的一种支持文本、音频和视频交互的AI接口,具备低延迟、实时双向通信和自然语言处理能力。它允许用户通过多种输入方式与AI互动,并支持会话记忆和外部功能调用,广泛应用于客户服务、在线教育、远程医疗、视频会议和娱乐等领域。

Qwen2vl

Qwen2VL-Flux 是一款基于多模态图像生成的模型,结合了 Qwen2VL 和 FLUX 技术。它支持多种生成模式,包括变体生成、图像到图像转换、智能修复和 ControlNet 引导生成,并具备深度估计和线条检测功能。该模型提供灵活的注意力机制和高分辨率输出,适用于艺术创作、内容营销、游戏开发等多个领域。

LMArena AI

前身为lmsys.org,是一个专注于众包AI基准测试的开放平台,用户可以在此平台上免费与AI聊天并进行投票,比较和测试不同的AI聊天机器人。

A2A

A2A是谷歌推出的首个智能体交互协议,旨在实现不同框架和供应商构建的AI智能体之间的高效协作。它支持多模态交互、长期任务管理和实时反馈,基于HTTP、JSON-RPC等标准设计,便于与现有系统集成。A2A具备安全性、可扩展性和用户体验协商能力,适用于企业流程自动化、跨平台客服、招聘优化、供应链协同和智能办公等多个场景。

阶跃星辰推出移动端AI智能问答助手跃问APP

跃问是一款基于阶跃星辰Step系列通用大模型开发的移动应用,具备强大的文本和图像处理能力,能够高效完成内容创作、逻辑推理、数据分析等任务。该应用支持联网搜索、文档解析、推理速度优化,并具备拍照识图和语音输入功能。跃问还提供了高效阅读、智能问答、写作翻译和多端同步等功能,为用户提供便捷的信息获取和处理体验。

POINTS 1.5

POINTS 1.5 是腾讯微信开发的多模态大模型,基于LLaVA架构设计,包含视觉编码器、投影器和大型语言模型。它在复杂场景OCR、推理、关键信息提取、数学问题解析及图片翻译等方面表现突出,适用于票据识别、自动客服、新闻摘要、学术论文处理、旅游翻译和在线教育等多个领域。该模型通过高效的数据处理和特征融合技术,实现了跨模态任务的精准处理与高效输出。

Transfusion

Transfusion是由Meta公司开发的多模态AI模型,能够同时生成文本和图像,并支持图像编辑功能。该模型通过结合语言模型的下一个token预测和扩散模型,在单一变换器架构上处理混合模态数据。Transfusion在预训练阶段利用了大量的文本和图像数据,表现出强大的扩展性和优异的性能。其主要功能包括多模态生成、混合模态序列训练、高效的注意力机制、模态特定编码、图像压缩、高质量图像生成、文本生成