小程序后端程序,使用爬虫抓取"国家电网"服务器更新数据,存储在MariaDB;
因为招标网站的公告基本在win平台编写,存在转码问题,因此需要安装依赖 unar
该工具会自行转码
sudo apt-get install unar
##处理doc 文档
Python3 第三方库对doc
文件支持不佳,故需要先转换成docx
安装依赖包 unoconv
sudo apt-get install unoconv
whoosh + jieba 之前有使用过数据库全文索引,但每次查询都建立链接,系统开销比较,而且对查询速度也有影响; 使用全文搜索引擎想到于对数据库的数据做了一次独立索引,而且是相对独立的,索引之后不用二次调用数据库;
- 使用jieba 定制一些专有名词,以增加命中率;
- 进一步编写爬虫, 抓取"非招标信息"以及"南方电网信息"
一些docx
文件中的表格数据, 由于表格未对其导致Python无法找到准确的位移量,以至报异常,现在位置没有找到比较好的办法。