首页 · 数据保证书
数据保证书
公冶教育公考数据库当前覆盖40,653 条贵州 + 青海公考岗位记录(2020-2026)。 所有数据源自政府公开公告,ETL 流程开源,数据修改有 audit 追溯。 当前健康度:UNKNOWN
数据集规模
40,653
行岗位记录
最近更新
2026-06-06
每天 03:00 自动跑
数据来源 · 公开透明
所有岗位数据源自政府公开发布的官方渠道,**没有任何"内部消息"或非公开渠道**:
- 贵州人事考试网 ·
www.gzrsks.com.cn— 贵州省考职位表、报名统计、成绩查询的官方入口 - 青海人事考试信息网 ·
www.qhpta.com— 青海省考职位表、报名时间、成绩查询的官方入口 - 各市州党建云 / 人社局公告 — 贵州 9 市州 + 青海 8 市州的本地公告,通过爬虫定向抓取
- chinagwy.org(公考通镜像)+ m.gwy.com(上岸鸭镜像)— 历年报名人数 / 缴费 XLSX 镜像,补足部分年份原始数据
- archive.org / archive.today — 极少使用,仅在政府站点过期失效时回溯
所有数据已脱敏处理(不含考生姓名 / 联系方式 / 身份证号),仅保留岗位级聚合信息(报录比 / 招录人数 / 进面分 / 学历要求等)。
采集与处理流程
- 爬虫层 — 阿里云北京服务器(2 核 2G / 24h 在线 / 国内 IP)每天 03:00 跑爬虫(Python + Playwright)。各 source 独立爬虫脚本,失败重试 + 增量 dedup + If-Modified-Since 缓存。
- 本机 ETL — 服务器爬到的附件 scp 拉回本机(F:\ 原始数据),跑 etl/build.py(读 Excel/PDF + 字段归一化 + 跨源合并 + 健康度审计)。
- 数据健康度审计 — 每次 ETL 跑完自动生成
data-health-report.json,5 类检查(覆盖率 / 异常值 / 跨年突变 / 重复行 / schema 漂移),critical ≥ 30 自动阻断部署。 - OSS 备份 — 阿里云 OSS 北京区,跨区灾备。
- Cloudflare Pages 部署 — git push 触发 auto build,全球 CDN 边缘分发。SSG 静态页 view source 即可校验。
- uptime 监控 — Cloudflare Worker 每 5 分钟拨测,失败飞书告警。
**整套代码在 GitHub 公开仓库**(私有但可邀请技术伙伴 review),流程可独立审计。
数据准确性承诺
公冶教育公考数据库 不"事后改数据装准确",我们的承诺是:
- 数据公开可校验 — 所有页面 SSG 静态生成,任何人 view source 即可逐字段对比官方公告
- 修改有审计 — 每次数据修改写入审计日志,版本对外公开(后续会上 changelog 页公示)
- 历史快照可回滚 — 每次 ETL 自动保留快照(dist/snapshots/),30 份滚动,事故应急一键回滚
- 错误响应承诺:发现错误 → 反馈 → 我们 1 周内复核 + 修正 + 公开 audit。公告期内重大错误 24 小时内修
- 不挂"上岸率/通过率"虚标指标 — 教培广告法红线,公冶不挂任何数字化效果承诺
错误反馈通道
如果你发现某岗位数据跟官方公告不一致,有三种方式反馈:
- 方式 1 · 公众号 — 关注公众号「公冶考公」后台留言,附上岗位 URL + 错误描述 + 官方公告截图(如有)
- 方式 2 · 站内反馈 — 右下角浮动反馈按钮 📩,可附图
- 方式 3 · 邮件 — 通过 关于页 获取联系方式
我们承诺:1 周内复核,核实属实则修正 + 公开 audit + 重新部署。公告期内重大错误 24 小时内修复。
常见问题
公冶教育公考数据库的数据来自哪里? ▶
所有数据源自政府公开发布的渠道:贵州人事考试网(gzrsks.com.cn)、青海人事考试信息网(qhpta.com)、各市州党建云、chinagwy.org 公考通镜像,以及部分历年镜像源。没有任何"内部消息"或非公开渠道。
数据采集和处理流程是怎样的? ▶
阿里云北京服务器每天 03:00 自动跑爬虫(Python + Playwright),抓取新公告 → 本地 ETL(读 Excel/PDF + 字段归一化 + 跨源去重)→ 推 OSS 备份 + 推 GitHub → Cloudflare Pages 自动 build + 部署。整套代码在 GitHub 公开仓库,流程可独立审计。
数据多久更新一次? ▶
每天 03:00 自动跑爬虫。公告期(3-9 月)新发布的公告 24 小时内入库;淡季(10-2 月)主要做历史数据补全。当前数据最近更新于 2026-06-06,数据集规模 40,653 行。
数据准确性如何保证? ▶
三重保障:(1) 数据来源全部公开,任何人可对照官方公告复核;(2) ETL 流程每次跑完自动出 data-health-report.json 审计报告,关键阈值超限(如 critical ≥ 30)自动阻断部署;(3) 用户发现错误可通过下方"错误反馈"通道提交,1 周内复核 + 修正,修改记录全部公开 audit log。当前审计:? critical / ? warning / 平均字段覆盖率 ?%。
跟其他公考数据工具的"准确性"承诺有什么不同? ▶
行业普遍痛点是"数据事后改装准确"(用户实测预测人数被修改,黑猫投诉成堆)。公冶反向做:(1) 所有页面 SSG 静态生成,view source 即可校验 HTML;(2) 数据修改写入审计日志,版本对外公开;(3) 历史快照 30 份滚动保留,可一键回滚;(4) 数据脱敏(不含考生姓名)+ 来源标注每条都有。这是公冶在"公开透明"维度的差异化护城河。
发现数据错误如何反馈? ▶
三种渠道:(1) 公众号「公冶考公」后台留言;(2) 站内反馈按钮(右下角浮动 FAB);(3) 邮件(详见 about 页)。提交后我们 1 周内复核,核实属实则修正 + 公开 audit + 重新部署,公告期内重大错误 24 小时内修。