AI项目与工具

TÜLU 3

TÜLU 3是艾伦人工智能研究所发布的开源指令遵循模型,提供8B、70B及未来的405B版本。它通过后训练技术显著提升了模型在数学、编程和推理等方面的表现,同时支持多种任务处理和创新的后训练方法,适用于自然语言处理、教育、编程开发及内容创作等多个领域。

Plantin

Plantin是一款AI驱动的植物识别与养护应用,支持识别超过16000种植物,提供准确的名称、生长习性和护理建议。具备病虫害检测、毒性识别、光照分析等功能,可为用户提供个性化养护方案,并支持提醒设置,适用于园艺爱好者、新手园丁及户外活动者。

SOM AI

SOM AI 是一款 AI 辅助学术写作工具,帮助学生完成毕业论文和学术研究。它提供研究主题头脑风暴、段落释义、简化复杂内容等功能,帮助学生避免抄袭并快速理解学术内容。SOM AI 还能提供情感支持,缓解写作压力,适用于毕业论文和日常学术作业,是高效的学习助手。

RegionDrag

RegionDrag是一种基于区域的图像编辑技术,由香港大学和牛津大学联合开发。该技术利用扩散模型,让用户通过定义手柄区域和目标区域来实现快速且精确的图像编辑。RegionDrag在单次迭代中完成编辑任务,显著减少编辑时间,同时采用注意力交换技术增强编辑的稳定性和自然性。主要应用领域包括数字艺术与设计、照片编辑、虚拟现实、游戏开发以及电影和视频制作等。

Manga Image Translator

Manga Image Translator 是一个开源的漫画图片文字翻译工具,基于 OCR 和机器翻译技术,实现对漫画和图片中文字的自动识别与翻译。它支持多语言翻译,包括日文、中文、英文和韩文,并具备图像合成能力,保持原图风格。工具提供批量处理和在线/离线翻译功能,适用于漫画爱好者、语言学习者以及出版商等用户群体。

VideoGigaGAN

VideoGigaGAN是一款由Adobe和马里兰大学的研究人员开发的生成式视频超分辨率模型。该模型基于GigaGAN图像上采样器,通过流引导特征传播、抗锯齿处理和高频特征穿梭等技术手段,显著提升了视频的分辨率和时间一致性,同时保留了高频细节,改善了整体画质。它适用于视频画质增强、安全监控、视频编辑和后期制作等多个领域。

HuggingSnap

HuggingSnap 是一款基于 Hugging Face 的 AI 助手应用,采用轻量级多模态模型 SmolVLM2,支持图像、视频和文本的本地处理与生成。具备即时视觉描述、多语言文字识别与翻译、隐私保护等功能,适用于旅行、日常辅助、医疗及零售等场景,确保用户数据安全。

SpeechGPT 2.0

SpeechGPT 2.0-preview 是复旦大学 OpenMOSS 团队开发的拟人化实时交互系统,基于大量中文语音数据训练,支持低延迟、高自然度的语音与文本交互。具备情感控制、实时打断、多风格语音生成等功能,适用于智能助手、内容创作及无障碍通信等场景,技术上融合了语音-文本联合建模与多阶段训练策略,提升语音表现力与智能化水平。

DreamOmni

DreamOmni是一款由香港中文大学、字节跳动与香港科技大学联合研发的统一图像生成与编辑模型。它集成了文本到图像生成(T2I)及多种编辑功能,包括指令式编辑、修复、拖拽编辑和参考图像生成。DreamOmni利用合成数据管道高效生成高质量编辑数据,并通过联合训练提升图像生成与编辑质量。该模型在多任务处理、复杂提示兼容性及训练效率优化上表现优异,适用于数字艺术、影视特效、广告设计等多个领域。

ChatPods

ChatPods 是一款基于 AI 技术的播客平台,提供个性化推荐、内容摘要生成、实时问答、章节导航及智能搜索等功能。用户可在收听过程中与 AI 互动,快速获取信息并精准定位内容,适用于学习、娱乐、通勤等多种场景,提升播客收听效率与体验。