jq 怎么遍历数据库

当前位置：首页 > 数据库 > jq 怎么遍历数据库

详情介绍

jq无法直连数据库，需先将数据库数据导出为JSON（如mysql -e “SELECT FROM table” | jq .），再用`j

以下是关于如何使用 jq 遍历数据库（此处指以 JSON 格式存储或导出的数据库数据）的详细说明，包含完整操作指南、示例及常见问题解答，本文假设您已将数据库数据转换为 JSON 格式（如通过 mysqldump --json 或类似工具），并聚焦于如何利用 jq 对该 JSON 数据进行高效遍历与处理。

环境准备与核心概念

1 什么是 jq？

jq 是一款轻量级的命令行工具，专为解析、查询和操纵 JSON 数据设计，它支持 XPath-like 表达式，可快速定位数据节点，适合批量处理结构化数据。

2 典型应用场景

场景类型	描述
数据提取	从海量 JSON 中筛选特定字段（如用户 ID、订单金额）
格式转换	将扁平结构转为嵌套结构，或反之
数据统计	计算总数、求和、平均值等聚合指标
数据清洗	删除空值、修正异常格式、重命名字段
脚本集成	嵌入 Shell 脚本实现自动化流水线

3 安装与验证

# Ubuntu/Debian
sudo apt install jq
# MacOS (Homebrew)
brew install jq
# 验证安装
jq --version  # 应输出版本号如 "jq-1.7.1"

基础遍历方法详解

1 单条记录处理

假设有一个名为 data.json 的文件，内容如下：

[
  {"id": 1, "name": "Alice", "age": 30},
  {"id": 2, "name": "Bob", "age": 25},
  {"id": 3, "name": "Charlie", "age": 35}
]

目标：遍历所有记录并打印姓名。

cat data.json | jq '.[].name'
# 输出:
# "Alice"
# "Bob"
# "Charlie"

2 多层级字段访问

若数据含嵌套结构：

{
  "users": [
    {"id": 1, "profile": {"email": "alice@example.com"}},
    {"id": 2, "profile": {"email": "bob@example.com"}}
  ]
}

目标：提取所有邮箱地址。

cat nested.json | jq '.users[].profile.email'
# 输出:
# "alice@example.com"
# "bob@example.com"

3 数组去重与排序

# 提取唯一年龄并升序排列
cat data.json | jq '[.[].age] | unique | sort'
# 输出: [25,30,35]

进阶操作技巧

1 条件过滤与映射

需求：仅显示年龄大于30岁的用户全名。

jq 怎么遍历数据库第1张

cat data.json | jq '.[] | select(.age > 30) | "(.name) ((.age))"'
# 输出:
# "Charlie (35)"

2 动态生成新字段

需求：为每条记录添加 is_adult 标志位。

cat data.json | jq '.[] | . + {is_adult: (.age >= 18)}'
# 输出:
# {"id":1,"name":"Alice","age":30,"is_adult":true}
# {"id":2,"name":"Bob","age":25,"is_adult":true}
# {"id":3,"name":"Charlie","age":35,"is_adult":true}

3 跨行合并与关联

若有两份独立 JSON 文件 employees.json 和 departments.json，可通过临时文件实现关联查询：

# 先将部门数据加载到关联数组
assoc_depts() {
  local depts=$(<departments.json jq -r 'map({(.id): .name}) | add')
  echo "$depts"
}
# 主查询命令
cat employees.json | jq --argjson depts "$(assoc_depts)" '.[] | .department = $depts[.dept_id]'

高性能遍历策略

优化方向	实现方式	优势
流式处理	使用 `--stream` 参数逐条处理输入流，避免一次性加载全部数据到内存	降低内存消耗
️ 短路运算符	在 `select()` 前添加 `limit(n:)` 限制处理数量	提前终止无效计算
压缩中间结果	对中间变量使用 `split("")` 分割成长度较小的数组	提升后续操作响应速度
️ 外部排序	先用 `sort` 命令预排序后再用 `jq` 处理	减少内部排序开销

示例：处理百万级记录时采用流式处理：

find /path/to/large_files -name ".json" -exec cat {} ; | jq --stream 'select(.status == "active")' > active_records.json

完整实战案例

案例1：电商订单分析

原始数据 (orders.json)：

[
  {"order_id": "O1001", "items": [{"product": "Phone", "price": 599}], "customer": "C001"},
  {"order_id": "O1002", "items": [{"product": "Laptop", "price": 1299}, {"product": "Mouse", "price": 25}], "customer": "C002"}
]

任务：统计每位客户的总消费额。

jq 怎么遍历数据库第2张

cat orders.json | jq 'group_by(.customer) | map({customer: .[0].customer, total: map(.items[].price) | add})'
# 输出:
# [{"customer":"C001","total":599},{"customer":"C002","total":1324}]

案例2：日志审计追踪

原始数据 (audit.log)：

[
  {"timestamp": "2024-01-01T08:00:00Z", "action": "login", "user": "admin"},
  {"timestamp": "2024-01-01T08:05:00Z", "action": "delete", "user": "guest"}
]

任务：找出所有删除操作的时间戳。

cat audit.log | jq '.[] | select(.action == "delete") | .timestamp'
# 输出:
# "2024-01-01T08:05:00Z"

jq 怎么遍历数据库

环境准备与核心概念

1 什么是 jq？

2 典型应用场景

3 安装与验证

基础遍历方法详解

1 单条记录处理

2 多层级字段访问

3 数组去重与排序

进阶操作技巧

1 条件过滤与映射

2 动态生成新字段

3 跨行合并与关联

高性能遍历策略

完整实战案例

案例1：电商订单分析

案例2：日志审计追踪

相关问答 FAQs

Q1: 如何处理非常大的 JSON 文件而不导致内存溢出？

Q2: 能否在 jq 中调用外部程序辅助处理？

linux 如何删除只读变量

如何开启linux服务器

强势推荐

jq 怎么遍历数据库

环境准备与核心概念

1 什么是 jq？

2 典型应用场景

3 安装与验证

基础遍历方法详解

1 单条记录处理

2 多层级字段访问

3 数组去重与排序

进阶操作技巧

1 条件过滤与映射

2 动态生成新字段

3 跨行合并与关联

高性能遍历策略

完整实战案例

案例1：电商订单分析

案例2：日志审计追踪

相关问答 FAQs

Q1: 如何处理非常大的 JSON 文件而不导致内存溢出？

Q2: 能否在 jq 中调用外部程序辅助处理？

linux 如何删除只读变量

如何开启linux服务器

相关文章

强势推荐