AI项目与工具

GCDance

GCDance是一款由英国萨里大学与江南大学联合开发的3D舞蹈生成框架,可根据音乐和文本提示生成风格可控的全身舞蹈序列。它结合多粒度音乐特征融合与CLIP模型文本嵌入技术,实现舞蹈动作与音乐节奏的高度同步。支持多种舞蹈风格生成、局部编辑及高质量全身动作输出,适用于VR、游戏开发、舞蹈教学等场景。

Scribenote

Scribenote是一款面向兽医的AI记录工具,利用自然语言处理技术将语音转换为结构化医疗笔记,支持SOAP格式、多宠物记录及客户沟通管理。它简化了文书工作,提高记录效率,适用于日常诊疗、手术记录、紧急处理及远程咨询等场景,同时兼容主流医疗信息系统。

We0

We0是一款开源AI代码编辑器,支持在浏览器中运行和调试代码,具备高保真设计还原功能,能将设计稿还原度提升至90%。兼容Vue、React、Next.js、Python、Java等主流开发框架,支持历史项目导入与微信小程序开发,适用于快速构建和部署AI应用。提供多平台支持,适合开发人员和产品经理高效协作。

FabricDiffusion

FabricDiffusion是一项由谷歌与卡内基梅隆大学联合开发的高保真3D服装生成技术,可将2D服装图像的纹理和印花高质量地转移到3D服装模型上。其核心技术基于去噪扩散模型和大规模合成数据集,生成多种纹理贴图并支持跨光照条件的精准渲染,具备优秀的泛化能力和实际应用潜力,适用于虚拟试衣、游戏开发、影视制作及时尚设计等多个领域。

OmniConsistency

OmniConsistency 是新加坡国立大学推出的图像风格迁移模型,旨在解决复杂场景下风格化图像的一致性问题。该模型采用两阶段训练策略,将风格学习与一致性学习解耦,并支持与任意风格的 LoRA 模块集成,实现高效且灵活的风格化效果。它在多种风格下保持图像的语义、结构和细节一致性,具备更高的灵活性和泛化能力,在实验中表现出与 GPT-4o 相当的性能。

Copilot Actions

Copilot Actions是微软推出的一款基于AI的自动化工具,隶属于Microsoft 365 Copilot。它支持用户通过简单提示完成日常重复性任务,如会议总结、报告生成及邮件分类等。通过预设模板和规则,AI能自动执行任务,提升工作效率,帮助用户集中精力处理高价值工作。目前该功能处于私人预览阶段。

SAM2Point

SAM2Point是一种基于SAM2的3D分割技术,无需额外训练或2D-3D投影,即可直接对任意3D数据进行零样本分割。该工具通过将3D数据体素化,并将其模拟为多方向视频流,实现精确的空间分割。SAM2Point支持多种3D提示类型,如点、框和掩码,展现了在多种场景下的泛化能力,包括3D物体、室内室外环境以及LiDAR数据,为未来的3D可提示分割研究提供了新起点。

ChatDLM

ChatDLM是由Qafind Labs开发的高效扩散语言模型,结合区块扩散与专家混合技术,具备7B参数规模,推理速度达2800 tokens/s,支持131,072 tokens的超长上下文处理。其核心优势包括高效文本生成、可控生成与局部修复、资源高效性及动态优化能力。适用于多轮对话、实时情绪监测、长文档创作及学术研究等场景,支持垂直领域知识召回率提升至95.6%。

Toucan TTS

Toucan TTS是一款由德国斯图加特大学自然语言处理研究所开发的文本到语音合成工具箱。它基于Python和PyTorch构建,支持超过7000种语言及多种方言和变体。主要功能包括多说话人语音合成、语音风格克隆、人机交互编辑、语音参数调整以及发音清晰度和性别特征调整。该工具箱适用于语音模型教学、文字朗读和多语言应用开发等场景,并提供在线交互式演示功能,方便用户快速理解和使用。

LineArt

LineArt是一种无需训练的高质量设计绘图外观迁移框架,能将复杂外观特征准确转移到设计图纸上,同时保留结构细节。其技术基于模拟人类视觉认知过程,结合艺术经验指导扩散模型,支持工业设计、室内设计、服装设计等多个领域应用。具备高效、高保真和易用性等特点,适用于快速生成逼真效果和优化设计流程。