研究 - 智狐AI导航

Liquid

Liquid是由华中科技大学、字节跳动和香港大学联合开发的多模态生成框架，通过VQGAN将图像编码为离散视觉token并与文本共享词汇空间，使大型语言模型无需修改结构即可处理视觉任务。该框架降低训练成本，提升视觉生成与理解性能，并在多模态任务中表现出色。支持图像生成、视觉问答、多模态融合等应用，适用于创意设计、内容创作及智能交互等领域。

AI项目与工具 2025年06月12日 82 点赞 0 评论 585 浏览

OpenVision

OpenVision是加州大学圣克鲁兹分校推出的多模态视觉编码器系列，具备从5.9M到632.1M参数的多种模型，适用于不同硬件环境。其采用渐进式多阶段分辨率训练策略，训练效率比同类模型高2至3倍，在多模态任务中表现优异。支持可变大小patch输入，兼具灵活性与高效性，广泛应用于工业检测、机器人视觉、自动驾驶及科研教育等领域。

AI项目与工具 2025年06月11日 58 点赞 0 评论 585 浏览

XCole

XCole是一款集成了AI绘图、文本生成、翻译与代码辅助的多功能AI创作平台。它支持从图像生成到文本创作的多样化需求，并提供专业场景模板以满足不同领域的创作需求。XCole凭借其友好的用户界面和强大的功能，帮助用户提升工作效率，广泛应用于学术研究、内容创作、设计开发等多个场景。

AI项目与工具 2025年06月12日 52 点赞 0 评论 586 浏览

MDM

Matryoshka Diffusion Models (MDM) 是一种由苹果公司开发的新型扩散模型框架，通过嵌套UNet架构实现多分辨率联合去噪，支持从低分辨率到高分辨率的渐进式训练，显著提升高分辨率图像生成效率，适用于多种应用场景，如数字艺术创作、游戏开发、电影制作等，并具备出色的零样本泛化能力。

AI项目与工具 2025年06月12日 28 点赞 0 评论 588 浏览

Frase io

一款强大的SEO内容优化工具和AI写作工具，让用户可以在更短的时间内以更少的工作创建高质量的内容。

创业营销 2025年06月05日 66 点赞 0 评论 589 浏览

NotebookLM

一款基于Gemini 的AI笔记和研究助手，旨在帮助用户更高效地进行信息整理和思考。它利用Google Gemini来处理和分析用户上传的文档和信息源。

Ai办公效率 2025年06月05日 13 点赞 0 评论 590 浏览

ChildMandarin

ChildMandarin是由智源研究院与南开大学合作开发的3-5岁儿童普通话语音数据集，包含41.25小时高质量语音，覆盖全国22个省市。数据通过家长引导式对话采集，保证自然真实。该数据集支持语音识别、说话人验证和语言研究，适用于儿童语言学习、教育系统、智能玩具和语音助手优化等领域，为儿童语音技术研究提供重要资源。

AI项目与工具 2025年06月12日 28 点赞 0 评论 590 浏览

生数

生数以其创新的多模态大模型和深度生成式算法研究，为艺术设计、游戏制作、影视后期和内容社交等领域提供了强大的技术支持和解决方案。

创作工具 2026年06月22日 0 点赞 0 评论 590 浏览

清华大学人工智能研究院

清华大学人工智能研究院依托清华大学优势学科，以未来人工智能的原创性基础理论为发力点，力求在探究智能本质的基础上，产生人工能基础理论和关健技术上的颠覆性创新成果

教育学习 2026年06月22日 0 点赞 0 评论 590 浏览

POINTS 1.5

POINTS 1.5 是腾讯微信开发的多模态大模型，基于LLaVA架构设计，包含视觉编码器、投影器和大型语言模型。它在复杂场景OCR、推理、关键信息提取、数学问题解析及图片翻译等方面表现突出，适用于票据识别、自动客服、新闻摘要、学术论文处理、旅游翻译和在线教育等多个领域。该模型通过高效的数据处理和特征融合技术，实现了跨模态任务的精准处理与高效输出。

AI项目与工具 2025年06月12日 14 点赞 0 评论 591 浏览

研究

首页

研究

列表

默认

浏览次数

发布日期