IT - 智狐AI导航

AniTalker

AniTalker：通过身份解耦的面部运动编码为生动多样的说话面孔制作动画

数字人合成 2025年06月26日 0 点赞 0 评论 400 浏览

LivePortrait

LivePortrait：具有拼接和重定向控制的高效肖像动画

数字人合成 2025年06月26日 0 点赞 0 评论 405 浏览

HunyuanDiT

腾讯旗下的混元文生图大模型全面升级并对外开，包含模型权重、推理代码、模型算法等完整模型,这是业内首个中文原生的DiT架构文生图开源模型，支持中英文双语输入及理解，参数量15亿。升级后的混元文生图大模型

文生图 2025年06月26日 0 点赞 0 评论 378 浏览

Fish Speech

Fish Speech是一款开源的文本到语音（TTS）工具，支持中文、英文和日文。它通过大约15万小时的多语种数据训练，实现了接近人类水平的语音合成效果。该工具的特点包括低显存需求（仅需4GB）、快速推理速度、高自定义性和灵活性。Fish Speech支持多种语音生成模型，如VITS2、Bert-VITS2等，适用于智能助手、自动客服、语言学习等多个领域。

AI项目与工具 2025年06月12日 14 点赞 0 评论 773 浏览

Twitter Personality

Twitter Personality是一款AI驱动的分析工具，能够通过分析Twitter用户的公开言论生成个性化、幽默且尖锐的点评。用户只需输入Twitter用户名，即可获得针对其推文历史的评价。该工具主要应用于个人娱乐、社交互动、名人点评、内容创作以及市场调研等多个领域。

AI项目与工具 2025年06月12日 99 点赞 0 评论 735 浏览

AuraFlow

AuraFlow v0.1是一款由Fal团队开发的开源AI文生图模型，拥有6.8B参数量。该模型通过优化的MMDiT架构提升了计算效率和可扩展性。AuraFlow在生成精确图像方面表现出色，特别是在物体空间构成和色彩表现上具有优势。此外，它采用了最大更新参数化技术，增强了学习率迁移的稳定性。AuraFlow支持文本到图像的生成，适用于艺术创作、媒体内容生成、游戏开发及广告和营销等多种应用场景。

AI项目与工具 2025年06月12日 35 点赞 0 评论 924 浏览

LongWriter

LongWriter是一款由清华大学与智谱AI合作开发的长文本生成模型，能够生成超过10,000字的连贯文本。该模型基于增强的长上下文大型语言模型，采用了直接偏好优化（DPO）技术和AgentWrite方法，能够处理超过100,000个token的历史记录。LongWriter适用于多种应用场景，包括学术研究、内容创作、出版行业、教育领域和新闻媒体等。

AI项目与工具 2025年06月12日 67 点赞 0 评论 685 浏览

Bark

Bark是一款开源的文本到音频转换模型，由Suno AI开发，能够生成逼真的多语言语音及多种音频类型，包括音乐和背景噪音，并支持非语言交流的声音。该模型提供预训练模型，适用于研究和商业用途。其主要功能涵盖文本到音频转换、多语言支持、音频多样性和非语言交流模拟。Bark在多语言内容创作、音频内容生成和非语言交流场景中具有广泛应用。

AI项目与工具 2025年06月12日 28 点赞 0 评论 864 浏览

Video

Video-LLaVA2是一款由北京大学ChatLaw课题组开发的开源多模态智能理解系统。该系统通过时空卷积（STC）连接器和音频分支，显著提升了视频和音频的理解能力。其主要功能包括视频理解、音频理解、多模态交互、视频问答和视频字幕生成。时空建模和双分支框架是其核心技术原理。Video-LLaVA2广泛应用于视频内容分析、视频字幕生成、视频问答系统、视频搜索和检索、视频监控分析及自动驾驶等领域。

AI项目与工具 2025年06月12日 50 点赞 0 评论 570 浏览

GPTEngineer

GPTEngineer 是一款基于AI技术的开源工具，通过简单的文本提示快速生成网页应用原型。它支持自然语言交互，能够根据用户描述自动生成代码，并具备代码改进、错误检测与修正等功能。此外，GPTEngineer 还支持与 GitHub 同步和一键部署。该工具兼容多种AI模型，适用于快速原型开发、Web应用开发、自动化测试、代码重构及教育等多个领域。

AI项目与工具 2025年06月12日 23 点赞 0 评论 631 浏览

IT

首页

IT

列表

默认

浏览次数

发布日期