模型

LatentLM

LatentLM是一款由微软与清华大学合作开发的多模态生成模型,能够统一处理文本、图像、音频等多种数据类型。它基于变分自编码器(VAE)和因果Transformer架构,支持自回归生成与跨模态信息共享,特别擅长图像生成、多模态语言模型及文本到语音合成等任务,其提出的σ-VAE进一步提升了模型的鲁棒性。

Lyra

Lyra是一款由香港中文大学、SmartMore和香港科技大学联合研发的高效多模态大型语言模型(MLLM)。它通过整合视觉、语音和文本三种模态的信息,实现了强大的跨模态理解和推理能力。Lyra不仅擅长处理长语音数据,还支持流式文本-语音生成及跨模态信息交互,适用于智能助手、客户服务、教育培训、医疗健康等多个领域。

Ivy

Ivy-VL是一款专为移动端和边缘设备设计的轻量级多模态AI模型,具备约30亿参数,专注于视觉问答、图像描述及复杂推理等任务,能够有效降低计算资源需求,同时在多模态任务中表现出色,尤其适用于增强现实、智能家居及移动学习等领域。

NodeTool

NodeTool是一款开源的AI工作流可视化构建工具,通过图形化界面和无代码开发环境,用户可以便捷地集成并运行多种AI模型。它支持本地GPU运行、云服务扩展以及多模态数据处理,适用于图像生成、音乐创作、音频转视觉艺术等多个领域,为非技术用户提供高效且灵活的AI解决方案。 ---

MV

MV-Adapter是一款基于文本到图像扩散模型的多视图一致图像生成工具,通过创新的注意力机制和条件编码器,实现了高分辨率多视角图像生成。其核心功能包括多视图图像生成、适配定制模型、3D模型重建以及高质量3D贴图生成,适用于2D/3D内容创作、虚拟现实、自动驾驶等多个领域。

FACTS Grounding

FACTS Grounding是一款由谷歌DeepMind研发的基准测试工具,专门用于评估大型语言模型在生成事实准确文本方面的能力。它通过设置包含多个领域的复杂任务,要求模型基于长文档生成响应,并采用两阶段评估流程验证事实准确性及避免“幻觉”。FACTS Grounding不仅支持信息检索与问答,还能应用于内容摘要生成、文档改写以及客户服务等领域,为模型提供全面而可靠的性能评估。

Explorer

Explorer是一款由Odyssey公司研发的生成性世界模型,主要功能包括将图像转换为高质量的3D场景,并支持动态效果生成。它利用高斯溅射技术和先进的图像识别算法,实现逼真的视觉效果。Explorer生成的场景可无缝集成到主流创作软件中,广泛应用于电影、游戏开发、虚拟现实等领域,显著提升内容创作效率。

AISmartCube

AISmartCube是一个低代码平台,专为简化AI工具开发与业务流程自动化设计。它支持无代码构建AI工具,集成多种功能节点(如LLMs、图像处理、数据抓取等),并提供AI助手及共享知识库服务。该平台适用于自动化工作流、客户服务、内容创作、市场分析以及个性化推荐等多个领域。

InftyThink

InftyThink是一种创新的大模型推理范式,通过分段迭代和阶段性总结的方式,突破传统模型在长推理任务中的上下文窗口限制,显著降低计算复杂度并提升推理性能。它适用于数学问题求解、逻辑推理、代码生成、智能辅导及药物研发等多个领域,具备良好的工程可落地性和广泛的适用性。