文字 - 智狐AI导航

OCRmyPDF

OCRmyPDF 是一款开源的命令行工具，用于将扫描 PDF 转换为可搜索、可编辑的文档。基于 Tesseract OCR 引擎，支持 100 多种语言，具备图像优化、纠偏、清洁等功能，提升识别准确率。支持多核处理与批量操作，适合高效处理大量文件，且完全离线运行，保障数据安全。

AI项目与工具 2025年06月12日 39 点赞 0 评论 540 浏览

LipRead Pro

LipRead Pro 是一款基于AI技术的视频唇读工具，可将视频中的唇部动作转换为文字，支持多语言和口音识别。其高精度算法确保了文字输出的准确性，适用于内容创作、无障碍辅助、安全监控、历史档案修复等多种场景。操作简便，处理高效，注重用户数据隐私保护，适合专业用户和普通用户使用。

AI项目与工具 2025年06月12日 100 点赞 0 评论 900 浏览

Seede.ai

Seede.ai 是一款AI驱动的图像设计工具，支持通过文字描述或参考图片生成设计，提供智能压缩、背景移除、图像放大等免费图像处理功能，并结合AI辅助优化，帮助用户快速制作专业级设计作品，适用于社交媒体、广告、电商、艺术创作等多个场景。

AI项目与工具 2025年06月12日 39 点赞 0 评论 831 浏览

AstrBot

AstrBot是一款多功能聊天机器人及开发框架，支持多种大语言模型和消息平台，具备多轮对话、语音转文字、网页搜索等功能。它采用模块化设计，支持插件开发和多平台部署，适用于企业客服、个人助手、教育辅导等多个场景，提供高效的智能交互体验。

AI项目与工具 2025年06月12日 55 点赞 0 评论 639 浏览

FireRedASR

FireRedASR是小红书推出的工业级自动语音识别（ASR）模型系列，支持普通话、中文方言和英语，具备高精度和高效推理能力。其包含FireRedASR-LLM和FireRedASR-AED两个版本，分别聚焦于极致精度和计算效率。模型在多个场景如智能助手、视频字幕生成、歌词识别和语音输入中表现出色，且已开源，推动语音识别技术的发展。

AI项目与工具 2025年06月12日 82 点赞 0 评论 732 浏览

WhisperChain

WhisperChain 是一款开源语音识别工具，支持实时语音转文本并提供文本优化功能，可去除填充词、优化语法。用户可通过全局热键快速启动语音输入，处理结果自动复制到剪贴板。支持 Streamlit 界面与 FastAPI 架构，适用于会议记录、写作辅助等场景。

AI项目与工具 2025年06月12日 57 点赞 0 评论 644 浏览

TokenFD是由上海交通大学与美团联合开发的细粒度图文对齐基础模型，专为文档理解任务设计。通过图像与语言Token的统一特征空间对齐，支持Token级图文交互，提升了多模态任务性能。其基于自研的TokenIT数据集进行训练，涵盖2000万张图像和18亿高质量Token-Mask对，覆盖多种文本图像类型。TokenFD可用于文档处理、图像审查、文字检索及大模型知识增强等多个领域，具有广泛的适用性和

AI项目与工具 2025年06月12日 90 点赞 0 评论 659 浏览

Umi

Umi-OCR 是一款离线 OCR 工具，支持图片、截图和 PDF 文档的文字识别，具备数学公式与二维码识别功能，可生成可搜索 PDF。支持多语言识别与界面切换，提供命令行和 HTTP 接口调用，适用于文档数字化、数据录入、教育等多个场景。

AI项目与工具 2025年06月12日 51 点赞 0 评论 690 浏览

Wispr Flow

Wispr Flow 是一款基于AI技术的语音转文字工具，支持100多种语言，具备自动编辑、上下文感知和低音量识别等功能，提升写作与沟通效率。提供免费基础版及付费专业版和团队版，适用于写作、商务、学习等多种场景，注重用户隐私保护，操作便捷自然。

AI项目与工具 2025年06月12日 79 点赞 0 评论 868 浏览

HuggingSnap

HuggingSnap 是一款基于 Hugging Face 的 AI 助手应用，采用轻量级多模态模型 SmolVLM2，支持图像、视频和文本的本地处理与生成。具备即时视觉描述、多语言文字识别与翻译、隐私保护等功能，适用于旅行、日常辅助、医疗及零售等场景，确保用户数据安全。

AI项目与工具 2025年06月12日 23 点赞 0 评论 602 浏览

文字

首页

文字

列表

默认

浏览次数

发布日期