Skip to content

Latest commit

 

History

History
29 lines (24 loc) · 1.15 KB

README.md

File metadata and controls

29 lines (24 loc) · 1.15 KB

mini_program_tender_backend

小程序后端程序,使用爬虫抓取"国家电网"服务器更新数据,存储在MariaDB;

解压rar

因为招标网站的公告基本在win平台编写,存在转码问题,因此需要安装依赖 unar 该工具会自行转码

sudo apt-get install unar

##处理doc 文档 Python3 第三方库对doc文件支持不佳,故需要先转换成docx 安装依赖包 unoconv

sudo apt-get install unoconv

全文搜索引擎及中文拆词

whoosh + jieba 之前有使用过数据库全文索引,但每次查询都建立链接,系统开销比较,而且对查询速度也有影响; 使用全文搜索引擎想到于对数据库的数据做了一次独立索引,而且是相对独立的,索引之后不用二次调用数据库;

后续值得改进的地方

  • 使用jieba 定制一些专有名词,以增加命中率;
  • 进一步编写爬虫, 抓取"非招标信息"以及"南方电网信息"

遗留问题

一些docx文件中的表格数据, 由于表格未对其导致Python无法找到准确的位移量,以至报异常,现在位置没有找到比较好的办法。