
Umi‑OCR 是一款面向 Windows 系统的免费、开源文字识别工具。它基于百度 PaddleOCR 引擎实现离线 OCR,用户无需联网即可完成文字提取。软件采用绿色解压即用的方式,打开后直接运行,无需额外安装步骤。
核心功能
截图识别
通过快捷键唤起截图窗口,选取屏幕区域后自动识别文字。
识别结果可直接复制或保存,适合快速记录会议、网页或文档中的文字。
批量图片识别
支持将多个图片文件或整个文件夹拖入软件,软件会逐一识别并输出文本。
输出格式包括 txt、md、jsonl、csv 等,方便后续编辑或数据处理。
多语言支持
内置多国语言库,能够识别中、英、日、韩、俄、德、法等多种语言文字。
软件首次启动会根据系统语言自动切换,用户也可以手动在全局设置中切换语言。
文本后处理
识别后自动合并段落,支持竖排文字和代码块的识别,输出的文本排版更整洁。
提供忽略区域功能,可排除水印或其他干扰文字,保证提取内容的纯净性。
命令行与 HTTP 接口
除了图形界面,Umi‑OCR 还提供命令行调用方式和基于 Bottle 框架的 HTTP 接口,方便开发者将 OCR 功能集成到自己的应用中。
使用体验
软件界面简洁,主要操作集中在左侧的功能按钮和右侧的识别结果面板。
通过系统托盘图标可以快速打开截图识别或暂停任务,提升工作效率。
识别速度快,普通图片的文字提取大约在 0.5 秒左右即可完成。

技术实现
Umi‑OCR 的核心识别引擎来自 PaddleOCR,利用深度学习模型实现高精度文字检测与识别。后端使用 Python 的 Bottle 框架提供本地服务,前端采用 QtQuick (QML) 实现跨平台的用户界面。这种结构使得软件既保持了轻量级,又具备良好的可扩展性。
适用场景
办公:快速将会议截图、合同图片转为可编辑文本,减少手动录入工作。
学习:将教材或笔记的图片内容转为电子文档,便于搜索和整理。
科研:批量处理实验报告、图表中的文字,配合数据分析流程使用。
开发:利用命令行或 HTTP 接口在自动化脚本中嵌入 OCR 功能。
总结
Umi‑OCR 通过离线、开源的方式为用户提供了高效、易用的文字识别解决方案。它的绿色免安装特性、丰富的输入方式以及多语言支持,使其在日常办公、学习和开发中都有广泛的应用价值。随着社区的持续贡献和功能的不断完善,Umi‑OCR 有望成为 Windows 平台上主流的 OCR 工具之一。

