AI项目与工具

TRELLIS

TRELLIS是一款由清华大学、中国科学技术大学及微软研究院共同开发的3D生成模型,利用Structured LATent(SLAT)表示法,通过文本或图像提示生成高质量、多样化的3D资产。它融合了稀疏的3D网格结构与密集视觉特征,支持多格式输出及局部编辑,无需拟合训练即可生成细节丰富的模型。此外,TRELLIS具备两阶段生成流程,可灵活适应不同需求。

Paper Digest

Paper Digest是一个专注于学术研究的人工智能平台,具备文献综述生成、研究助手、AI阅读器和AI写作者等功能。它能够帮助用户高效获取和整理学术资源,提供个性化定制的信息服务,并支持多领域的研究需求。通过实时更新的论文数据和灵活的筛选机制,Paper Digest为学术界、教育界、产业研发及政策制定等领域提供了强大的支持。 ---

CHANGER

CHANGER是一款工业级AI换头技术,基于色键技术和H2增强模块,能够实现演员头部与目标身体的无缝融合。其核心技术包括前景预测注意力变换器(FPAT)模块,用于精确预测和聚焦关键区域。CHANGER适用于视觉特效、数字人类创建、虚拟主播等多个领域,提供高保真的头部融合效果。

Luzia

Luzia是由西班牙初创公司Amperity开发的一款人工智能聊天机器人,主要服务于西语和葡语市场。它具备个性化设计和人性化交流的特点,能够模拟不同角色以适应各种对话场景。此外,Luzia还集成了数学问题解答、PDF阅读器和图像识别等多种实用工具,增强了其实用性和用户体验。

BAGEL

BAGEL是字节跳动开源的多模态基础模型,拥有140亿参数,采用混合变换器专家架构(MoT),通过两个独立编码器捕捉图像的像素级和语义级特征。它能够进行图像与文本融合理解、视频内容理解、文本到图像生成、图像编辑与修改、视频帧预测、三维场景理解与操作、世界导航以及跨模态检索等任务。BAGEL在多模态理解基准测试中表现优异,生成质量接近SD3,并适用于内容创作、三维场景生成、可视化学习和创意广告生成等

Hertz

Hertz-Dev是一款由Standard Intelligence开发的开源音频模型,专注于低延迟实时对话AI。它具备强大的音频生成与处理能力,能够处理和生成高质量的音频信号,并支持多任务微调,适用于语音识别、语音合成等多种应用场景。此外,Hertz-Dev还提供了音频自动编码、流式生成等功能,广泛应用于智能助手、客户服务、语音识别及合成等领域。

Languine

Languine 是一款专注于翻译管理的人工智能工具,支持超过100种语言,具备智能检测、AI驱动翻译、自动化工作流和版本控制集成等功能。它通过先进的 AI 模型和高效的代码同步机制,帮助开发者快速生成准确的翻译内容,适用于多语言网站、移动应用、桌面软件、游戏及电子商务平台的本地化需求。

Get笔记

Get笔记是一款基于AI的实时语音转文字工具,能够将语音高效转化为文本,并提供文本润色服务以优化笔记内容。其主要功能包括实时语音转写、文本智能润色、自动标题生成和录音与文本保存。这款工具界面简洁、操作简便,适用于多种场景,如会议记录、学习笔记、采访记录、灵感捕捉和语言学习等,显著提升了记录效率。

Nooka

Nooka是一款基于AI技术的听书应用,提供全球非虚构类书籍的20分钟音频摘要,适合碎片化时间学习。用户可随时提问并获得AI即时回答,实现深度互动。应用支持多语言字幕、音频剪辑分享及社区交流,适用于通勤、运动、家务等多种场景,提升学习效率与趣味性。

LM Studio

LM Studio是一个开源的本地大语言模型(LLM)应用平台,提供图形用户界面(GUI)和命令行界面(CLI),便于用户使用大型语言模型。LM Studio支持从Hugging Face等平台下载兼容的模型文件,并提供了一种“Playground”模式,用户可以通过该模式同时运行多个AI模型,以增强性能和输出。此外,LM Studio还具备模型发现功能,能够在应用首页展示新的和值得关注的LLMs