模型

Ultravox

Ultravox 是一种多模态大型语言模型(LLM),能够直接处理文本和语音输入,无需额外的语音识别步骤。其核心技术包括多模态投影器,用于将音频数据转换为高维空间表示,显著提升语音理解和处理效率。该模型支持实时语音对话、多语言扩展及领域特定知识的学习,适用于智能客服、虚拟助手、语言学习、实时翻译及教育等领域。

浪潮海若大模型

浪潮海若大模型是一个多功能、高效率的行业解决方案,它通过整合先进的大数据和人工智能技术,为不同行业提供定制化的服务。

Kiss3DGen

Kiss3DGen是一款基于2D扩散模型的3D资产生成框架,通过“3D Bundle Image”结构实现多视角图像与法线图的融合,从而高效生成和编辑3D模型。它支持文本与图像输入,具备3D编辑、网格优化和纹理增强等功能,适用于游戏开发、影视制作、VR/AR、数字孪生及教育等多个领域。

Llama 3.3

Llama 3.3是一款由Meta AI开发的70B参数大型多语言预训练语言模型,支持英语、德语、法语等8种语言的输入输出。它具备长上下文窗口、高效运行和低成本的特点,可与第三方工具集成,广泛应用于聊天机器人、客户服务、语言翻译、内容创作及教育等领域。

Aisou.ai

Aisou.ai是一款基于大语言模型和检索增强生成技术的智能问答平台,专注于商业信息的高效查询与分析。它支持自然语言提问,提供精准的商业数据分析、实时资讯、竞争对手研究及市场趋势对比等功能,适用于市场分析、投资决策和企业信息查询等多种应用场景。

CAMPHOR

CAMPHOR是一款由苹果团队研发的端侧小型语言模型多智能体框架,通过在设备本地处理用户输入并进行个人上下文推理,实现了高效的隐私保护与快速响应。其分层架构包含高阶推理智能体和多个专家智能体,能够分解复杂任务、与设备工具交互并生成动态执行计划。此外,通过参数共享和提示压缩技术,大幅降低了模型资源需求。

GTA

GTA是一项由上海交通大学与上海AI实验室合作研发的基准测试,专注于评估大型语言模型在真实世界环境中的工具调用能力。它包含229个精心设计的问题,涉及多个领域,并通过多模态输入输出和细粒度评估指标,全面衡量模型的工具使用效率与准确性。GTA可应用于智能助理开发、多模态交互、自动化客户服务、教育及科研等多个领域,助力提升人工智能系统的综合性能。

Bestprompts

一个中文行业prompt收录网站。 一个全行业AI会话辅助工具,为各行业的内容创作者提供全面准确的提示语。

Lumina

Lumina-Image 2.0 是一款开源图像生成模型,基于扩散模型与 Transformer 架构,具有 26 亿参数。它能根据文本描述生成高质量、多风格的图像,支持中英文提示词,并具备强大的复杂提示理解能力。模型支持多种推理求解器,适用于艺术创作、摄影风格图像生成及逻辑推理场景,兼具高效性和灵活性。

Bolt3D

Bolt3D是由谷歌研究院、牛津大学VGG团队与谷歌DeepMind联合开发的3D场景生成技术,基于潜在扩散模型,能在单块GPU上仅需6.25秒生成高质量3D场景。支持多视角输入,具备良好泛化能力,采用高斯溅射技术实现高保真表示,并支持实时交互。适用于游戏开发、VR/AR、建筑设计和影视制作等领域。