Skip to content

Latest commit

 

History

History

crawler

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 
 
 

crawler

本爬虫主要采集行政区划代码历史变更数据,为新老身份证数据校验提供底层数据支持。

原始数据来源于 中华人民共和国民政部 网站,由 crawler 脚本对采集过来的数据进行处理,处理之后的行政区划代码数据按年份放置到 data 目录下,可供第三方程序二次开发使用。

采集方法

在终端切换到本文档目录,然后执行下面命令:

php crawler.php

直到回显 Good, all have done! 信息,说明采集处理完成。

数据库

目前已使用 mysqlite 数据库存储行政区划历史变更数据,数据库文件为 db\database.sqlite ,身份证证号校验默认也是通过查询此数据库得出。

本行政区划历史变更数据会一年更新一次,下次更新数据时间预计在 2021 年四月底。

已知问题

  • 民政部可能会更新部分历史数据文件网址,采集脚本(urls.php) 里面的网址链接也会发生一些变更。采集到的数据会放置在 crawler/data 目录下;一般按年份归类成一个文件:已过去年份的历史数据以年份作为文件名(如 1998.txt 就是1998年的数据),采集时当年的数据可能会带上年月作为文件名(如 202008.txt 就是2020年8月份的数据) 。

  • 采集目标网址过多,可能会出现脚本假死卡住的情况,请自行修改采集代码 urls.php 里面的网址(可以注释掉已采集下来的年份网址)。目前仓库中已采集到 1980-201801 年月数据,如有最新数据请添加新的 url 重新采集。

联系方式

在使用中,遇到问题可以通过以下方式联系作者我。