Skip to content

使用webkit内核抓取网页

princehaku edited this page Aug 10, 2017 · 6 revisions

如果你有pyqt和webkit 即可以使用webkit内核模式抓取网页

平台 方式
ubuntu sudo apt-get install python-qt4 libqt4-webkit
windows http://www.riverbankcomputing.co.uk/software/pyqt/download/
mac https://sourceforge.net/projects/pyqtx/

使用方式

        "action": "fetcher",

        "url": "http://s.weibo.com/weibo/淘宝&xsort=time&page=${1,1}",

        "timeout": 10,

        "webkit": true,

        "delay" : 3,

        "subaction": [

        ]

必须的参数

  • webkit true

支持的参数

  • timeout 抓取超时时间 从开始抓取到document.ready的时间

  • delay 从document.ready时间等待的时间,单位秒