AI工具

HunyuanCustom

HunyuanCustom是腾讯混元团队开发的多模态视频生成框架,支持图像、音频、视频和文本等多种输入条件,生成高质量定制化视频。采用文本-图像融合与图像ID增强技术,提升身份一致性和视频真实性。适用于虚拟人广告、虚拟试穿、视频编辑等场景,具备音频驱动和视频驱动两种生成方式,展现强大可控性与灵活性。

QLIP

QLIP是一种基于二进制球形量化(BSQ)的视觉标记化方法,具备高质量图像重建和零样本图像理解能力。通过对比学习目标和两阶段训练策略,QLIP可作为视觉编码器或图像标记器,广泛应用于多模态任务,如文本到图像生成、图像到文本生成及多模态理解。其技术设计提升了模型的语义表达与训练效率,为统一多模态模型的开发提供了新思路。

Smart PDFs

Smart PDFs 是一款免费开源的 AI 工具,用于快速提取和总结 PDF 文档的关键信息。它支持学术论文、行业报告和技术文档等多种格式,可在数秒内生成结构清晰的章节式摘要。工具采用 Llama 3.3 模型进行智能处理,并支持图像生成和内容分享功能,适用于学术、职场和个人使用场景。

Open Computer Agent

Open Computer Agent 是一款基于云端的 AI 工具,支持在 Linux 虚拟机中运行,能通过自然语言指令完成多种任务。结合视觉模型实现界面元素识别与交互,具备任务自动化、多任务处理能力,并提供云托管服务,适用于办公、教育、数据收集等场景。

Ztalk.ai

Ztalk.ai 是一款支持多语言实时语音翻译的AI桌面应用,具备低延迟、高清晰度和强兼容性,可与主流视频会议平台无缝连接。内置降噪、字幕及AI提示功能,确保沟通效率与质量。采用端到端加密,保障数据安全,适用于全球商务会议、跨境协作、客户互动及多语言培训等场景。

oli

oli 是一款开源的智能代码助手,结合 Rust 后端与 React/Ink 前端,提供高效的代码辅助、文件操作、命令执行等功能。支持多模型集成,包括云 API 和本地 LLM,适用于代码理解、优化、开发调试及项目管理等场景,提升开发效率和用户体验。

Klavis AI

Klavis AI 是一个基于 MCP 协议的开源平台,提供稳定可靠的 MCP 服务器和多客户端集成能力。支持多种工具定制化配置,内置身份验证功能,保障安全性。平台采用分布式架构,适用于大规模用户场景,并通过 API 实现灵活部署与管理,适用于 AI 开发、数据处理、内容创作及企业协作等多种应用场景。

FlexiAct

FlexiAct是由清华大学与腾讯ARC实验室联合研发的动作迁移模型,可在空间结构差异较大的场景下实现精准动作迁移,并保持目标主体的外观一致性。其核心模块包括轻量级RefAdapter和频率感知动作提取(FAE),有效提升跨主体动作迁移的灵活性与准确性。该模型适用于影视、游戏、广告等多个领域,具有良好的应用前景。

攻壳智能体

攻壳智能体是一个整合AI工具与智能体资源的平台,提供精选工具推荐、社区交流和前沿技术追踪等功能。涵盖智能体、AI浏览器、聊天助手、内容生成、数据分析等多个类别,适用于学习、办公、创作等多样化场景,助力用户高效利用人工智能技术。

UniTok

UniTok是由字节跳动联合高校研发的统一视觉分词器,支持视觉生成与理解任务。其采用多码本量化技术,将视觉特征分割并独立量化,显著提升离散token的表示能力。在ImageNet上实现78.6%的零样本分类准确率,图像重建质量达0.38。可作为多模态大语言模型的视觉输入模块,广泛应用于图像生成、视觉问答、内容创作及跨模态检索等场景。