当前位置:首页 > 行业动态 > 正文

按键用百度云识别文字

百度云OCR支持多语言文字识别,可通过API上传图片或文档快速提取文本内容

准备工作

  1. 注册百度云账号

    访问百度智能云官网(https://cloud.baidu.com/),完成注册并实名认证。

  2. 开通文字识别服务
    • 登录后进入“产品服务”→“人工智能”→“文字识别(OCR)”,点击“立即使用”并创建应用,获取API KeySecret Key

API调用步骤

获取Access Token

通过API KeySecret Key获取鉴权 token:

curl -X POST https://aip.baidubce.com/oauth/2.0/token 
    -d grant_type=client_credentials 
    -d client_id=YOUR_API_KEY 
    -d client_secret=YOUR_SECRET_KEY

返回示例

{
  "access_token": "24.xxxxxx.example_token",
  "expires_in": 2592000
}

调用文字识别接口

通用文字识别为例:

curl -X POST https://aip.baidubce.com/rest/2.0/ocr/v1/general_basic 
    -F image=@test.jpg 
    -F access_token=YOUR_ACCESS_TOKEN

请求参数说明
| 参数名 | 类型 | 必填 | 说明 |
|————–|——–|——|————————–|
| image | file | 是 | 待识别的图片文件(支持JPG/PNG) |
| access_token | string | 是 | 鉴权token |

返回示例

{
  "words_result": [
    {"text": "百度云文字识别", "location": {"left": 10, "top": 20, "width": 100, "height": 30}},
    ...
  ]
}

SDK使用指南

安装SDK

支持多种语言(以Python为例):

pip install baidu-aip

代码示例(Python)

from aip import AipOcr
# 初始化客户端
client = AipOcr(app_id="YOUR_API_KEY", api_key="YOUR_SECRET_KEY")
# 读取图片并调用接口
with open("test.jpg", "rb") as f:
    result = client.basicGeneral(f.read())
# 输出结果
for item in result["words_result"]:
    print(item["text"])

应用场景与服务对比

场景 适用接口 特点
身份证信息提取 身份证识别 自动提取姓名、照片、号码等字段
车牌号识别 车牌识别 支持多角度、模糊车牌
网络图片文字提取 通用文字识别(含生僻字优化) 高精度识别,支持中英文混合
手写体文字识别 手写文字识别 适配手写表单、笔记等场景

常见问题与解决方案

  1. 识别准确率低

    • 原因:图片模糊、倾斜、光照不均或字体复杂。
    • 解决方案
      • 预处理图片(灰度化、二值化、矫正倾斜)。
      • 使用高精度接口(如accuracy_ocr)。
  2. API调用返回错误

    • 原因access_token过期或参数格式错误。
    • 解决方案
      • 重新获取access_token(有效期2个月)。
      • 检查请求参数是否符合规范(如图片格式、大小限制)。

相关问题与解答

Q1:百度云OCR支持哪些语言?

A1:支持中文、英文、日文、韩文、法文、德文、西班牙文等20余种语言,部分接口(如护照识别)支持多语言混合识别。

Q2:如何降低文字识别的API成本?

A2

  1. 使用百度云“新用户免费套餐”,每月可享一定额度免费调用。
  2. 对图片进行压缩或裁剪,减少单次请求的数据量。
  3. 根据场景选择基础版接口(如general_basic),而非
0