自然语言

Recraft V3

Recraft V3是一款基于AI的文本到图像生成模型,以其高质量的图像生成能力和先进的设计控制功能闻名。支持长文本输入、品牌风格定制以及多平台接入,适用于平面设计、品牌标识、内容创作、电子商务和游戏开发等多个领域,为用户提供了便捷高效的图像生成工具。

Fairies

Fairies 是一款功能强大的 AI Agent 智能体,支持 1000 多种操作,包括文件管理、代码生成、邮件发送等。用户可通过自然语言与 Fairies 交互,实现多任务执行。它注重隐私保护,采用端到端加密,所有数据处理在本地完成。Fairies 可与 Slack、Gmail、Google Drive 等应用集成,提供免费版和 Pro 版,适合个人和团队提升生产力。

Open NotebookLM

Open NotebookLM是一个开源工具,能够将PDF文档转换为播客形式的音频内容。它基于Llama 3.1 405B、MeloTTS和Bark等先进AI模型,生成自然流畅的对话式音频,并支持多语言及个性化音调设置。用户可通过简单易用的Gradio界面上传PDF文件并下载MP3格式的音频文件,适用于教育、科研、商业分析等多个领域。

Codev

Codev 是一款基于 AI 的全栈应用开发平台,允许用户通过自然语言描述需求,自动生成基于 Next.js 和 Supabase 的现代化代码。生成的代码完全属于用户,支持自由修改和部署,避免供应商锁定。平台还提供一键部署、多项目管理和社区支持等功能,适用于初创企业、非技术用户及开发者,广泛应用于 MVP 开发、快速原型设计和教育学习等领域。

OpenScholar

OpenScholar是一款由华盛顿大学与艾伦AI研究所联合研发的检索增强型语言模型,专为科学家设计,能够高效检索并综合海量科学文献信息,生成基于文献的事实性回答。该工具具备强大的跨学科适用性,涵盖计算机科学、生物医学等多个领域,同时支持自我反馈迭代优化,显著提升回答质量和引用可靠性。所有相关资源已完全开源,便于全球学者使用与研究。

HumanOmni

HumanOmni 是一款面向人类中心场景的多模态大模型,融合视觉与听觉信息,具备情感识别、面部描述、语音理解等功能。基于大量视频与指令数据训练,采用动态权重调整机制,支持多模态交互与场景理解。适用于影视分析、教育、广告及内容创作等领域,具备良好的可扩展性和灵活性。

Moshi

Moshi是一款由法国Kyutai实验室开发的端到端实时音频多模态AI模型,具备听、说、看的能力,并能模拟70种不同的情绪和风格进行交流。Moshi具有多模态交互、情绪和风格表达、实时响应低延迟、语音理解与生成、文本和音频混合预训练以及本地设备运行等特点。它支持英语和法语,主要应用于虚拟助手、客户服务、语言学习、内容创作、辅助残障人士、研究和开发、娱乐和游戏等领域。

Quasar Alpha

Quasar Alpha是一款预发布AI模型,具备100万token的超大上下文窗口,可高效处理长文本和复杂文档。其在代码生成、指令遵循、多模态处理等方面表现出色,支持联网搜索以增强信息准确性。适用于代码开发、长文本分析、创意写作及智能问答等多种场景,目前可通过OpenRouter平台免费使用,存在一定请求限制。

Gemini Live

Gemini Live是一款由谷歌开发的智能语音助手,拥有自然语言理解和多模态识别能力,支持语音、图像和视频交互。其主要功能包括自然语言对话、多模态识别、个性化语音选择、任务自动化以及智能打断和续接。此外,Gemini Live还与谷歌的原生应用深度集成,提升用户体验。目标用户包括商务人士、技术探索者、多语言用户、创意人士和老年人。

Long

Long-VITA是一款由腾讯优图实验室、南京大学和厦门大学联合开发的多模态AI模型,支持处理超长文本(超过100万tokens)及多模态输入(图像、视频、文本)。通过分阶段训练提升上下文理解能力,结合动态分块编码器与并行推理技术,实现高效处理长文本和高分辨率图像。模型基于开源数据训练,适用于视频分析、图像识别、长文本生成等场景,性能在多个基准测试中表现突出。