上一篇
按键用百度云识别文字
- 行业动态
- 2025-05-15
- 1
百度云OCR支持多语言文字识别,可通过API上传图片或文档快速提取文本内容
准备工作
- 注册百度云账号
访问百度智能云官网(https://cloud.baidu.com/),完成注册并实名认证。
- 开通文字识别服务
- 登录后进入“产品服务”→“人工智能”→“文字识别(OCR)”,点击“立即使用”并创建应用,获取
API Key
和Secret Key
。
- 登录后进入“产品服务”→“人工智能”→“文字识别(OCR)”,点击“立即使用”并创建应用,获取
API调用步骤
获取Access Token
通过API Key
和Secret Key
获取鉴权 token:
curl -X POST https://aip.baidubce.com/oauth/2.0/token -d grant_type=client_credentials -d client_id=YOUR_API_KEY -d client_secret=YOUR_SECRET_KEY
返回示例:
{ "access_token": "24.xxxxxx.example_token", "expires_in": 2592000 }
调用文字识别接口
以通用文字识别为例:
curl -X POST https://aip.baidubce.com/rest/2.0/ocr/v1/general_basic -F image=@test.jpg -F access_token=YOUR_ACCESS_TOKEN
请求参数说明:
| 参数名 | 类型 | 必填 | 说明 |
|————–|——–|——|————————–|
| image | file | 是 | 待识别的图片文件(支持JPG/PNG) |
| access_token | string | 是 | 鉴权token |
返回示例:
{ "words_result": [ {"text": "百度云文字识别", "location": {"left": 10, "top": 20, "width": 100, "height": 30}}, ... ] }
SDK使用指南
安装SDK
支持多种语言(以Python为例):
pip install baidu-aip
代码示例(Python)
from aip import AipOcr # 初始化客户端 client = AipOcr(app_id="YOUR_API_KEY", api_key="YOUR_SECRET_KEY") # 读取图片并调用接口 with open("test.jpg", "rb") as f: result = client.basicGeneral(f.read()) # 输出结果 for item in result["words_result"]: print(item["text"])
应用场景与服务对比
场景 | 适用接口 | 特点 |
---|---|---|
身份证信息提取 | 身份证识别 | 自动提取姓名、照片、号码等字段 |
车牌号识别 | 车牌识别 | 支持多角度、模糊车牌 |
网络图片文字提取 | 通用文字识别(含生僻字优化) | 高精度识别,支持中英文混合 |
手写体文字识别 | 手写文字识别 | 适配手写表单、笔记等场景 |
常见问题与解决方案
识别准确率低
- 原因:图片模糊、倾斜、光照不均或字体复杂。
- 解决方案:
- 预处理图片(灰度化、二值化、矫正倾斜)。
- 使用高精度接口(如
accuracy_ocr
)。
API调用返回错误
- 原因:
access_token
过期或参数格式错误。 - 解决方案:
- 重新获取
access_token
(有效期2个月)。 - 检查请求参数是否符合规范(如图片格式、大小限制)。
- 重新获取
- 原因:
相关问题与解答
Q1:百度云OCR支持哪些语言?
A1:支持中文、英文、日文、韩文、法文、德文、西班牙文等20余种语言,部分接口(如护照识别)支持多语言混合识别。
Q2:如何降低文字识别的API成本?
A2:
- 使用百度云“新用户免费套餐”,每月可享一定额度免费调用。
- 对图片进行压缩或裁剪,减少单次请求的数据量。
- 根据场景选择基础版接口(如
general_basic
),而非