多模态

紫东太初大模型

紫东太初,中科院自动化所和武汉人工智能研究院推出新一代大模型,从三模态走向全模态,支持多轮问答、文本创作、图像生成、3D理解、信号分析等全面问答任务,拥有更强的认知、理解、创作能力,带来全新互动体验。

TableGPT2

TableGPT2是一种由浙江大学开发的多模态人工智能模型,专注于结构化数据的处理与分析。它具备强大的表格数据理解能力,支持SQL查询执行、数据分析以及数据增删改查等功能。通过创新的表格编码器和双维注意力机制,TableGPT2在处理不规则表格和模糊查询方面表现优异。其应用场景广泛,涵盖商业智能、财务分析、市场研究及供应链管理等领域。

Learn About

Learn About是一款由谷歌开发的对话式AI学习助手,基于Gemini模型,通过问答形式为用户提供简明答案并引导深入学习。它具备知识点梳理、参考资料推荐、内容大纲生成等功能,覆盖多学科领域,支持多模态学习资源,旨在提升用户的理解深度和学习效率。适合学术研究、备考复习、技能学习、家庭教育及终身学习等多种应用场景。

Tanka

Tanka是一款具备长期记忆和上下文理解能力的AI通讯工具,旨在提升团队协作效率。它支持智能回复、任务提醒、多模态消息处理,并可集成多种通讯平台。适用于项目管理、客户服务、销售支持及知识管理等多个场景,助力企业实现高效、智能的沟通与信息管理。

日日新融合大模型

日日新融合大模型(SenseNova)是商汤科技推出的多模态AI系统,支持文本、图像、视频等多种数据的融合处理,具备强大的深度推理与多模态分析能力。该模型在多个权威评测中表现优异,广泛应用于自动驾驶、视频交互、办公教育、金融、园区管理及工业制造等领域,提升了多场景下的智能化水平。

Gemini 2.0 Flash

Gemini 2.0 Flash是Google推出的多模态AI模型,支持文本与图像生成及对话式编辑,能根据自然语言生成连贯图像,并保持上下文一致性。其在长文本渲染方面表现优异,适用于广告、社交媒体、教育等领域。开发者可通过Google AI Studio或Gemini API进行测试和集成,广泛应用于创意插图、互动故事、设计辅助等场景。

OpenAI o3

OpenAI o3是一款具备图像推理能力的AI模型,融合了神经符号学习与概率逻辑,支持多模态任务处理。它能够自主调用工具解决复杂问题,擅长编程、数学、科学等领域,同时在安全性方面进行了显著优化。o3在多基准测试中表现优异,提供透明的推理路径和高效的多任务处理能力。

LatentLM

LatentLM是一款由微软与清华大学合作开发的多模态生成模型,能够统一处理文本、图像、音频等多种数据类型。它基于变分自编码器(VAE)和因果Transformer架构,支持自回归生成与跨模态信息共享,特别擅长图像生成、多模态语言模型及文本到语音合成等任务,其提出的σ-VAE进一步提升了模型的鲁棒性。

ChatPDFLocal

一款专为Mac用户设计的本地PDF阅读和处理工具,它结合了原生 macOS 界面和强大的大型语言模型(LLM),能够快速、安全地处理 PDF 文件。

interface.ai

interface.ai 是一款面向金融领域的AI解决方案平台,其核心产品 Sphere 提供多模态交互支持,涵盖文本、图像、音频及视频。Sphere 可自动化处理金融业务流程,实时分析对话内容,并为用户提供个性化产品推荐和升级销售建议,从而提升用户体验和机构运营效率。