Skip to content

Commit

Permalink
Update README.md
Browse files Browse the repository at this point in the history
  • Loading branch information
esbatmop committed Oct 22, 2023
1 parent f783f18 commit 43b35f3
Showing 1 changed file with 10 additions and 3 deletions.
13 changes: 10 additions & 3 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -48,16 +48,14 @@

即使没空帮助项目做开发,也可以通过参加 ([语料元气弹](https://mnbvc.253874.net/upload/form.htm)) 项目,随手上传语料文档,来参与MNBVC语料集的建设。

MNBVC项目建设了([Wiki系统](https://wiki.mnbvc.org)),它诞生的初衷是MNBVC开源项目团队在中文语料库建设过程中积累了一些项目经验,希望通过wiki系统记录和分享,以帮助未来参与相关项目的开发者。
MNBVC-Wiki还托管发起MNBVC项目的里屋社区的百科全书内容。

### 中文大语料清洗工具

为处理大规模的中文语料,MNBVC项目组的同学在现有开源软件基础上做了优化,提供了更高效的版本:

更快速且准确的中文编码检测工具:[charset_mnbvc](https://github.com/alanshi/charset_mnbvc)
将txt批量转成jsonl并挑出段落重复度高的文件:[deduplication_mnbvc](https://github.com/aplmikex/deduplication_mnbvc)
从多层目录中按关键词采样一定数量的文件并保留目录结构:[scan_copy_files_mnbvc](https://github.com/wanng-ide/scan_copy_files_mnbvc)
将MNBVC语料格式统一的格式检查工具:[DataCheck_MNBVC](https://github.com/X94521/DataCheck_MNBVC)

### github代码仓库爬虫工具

Expand All @@ -68,6 +66,10 @@ MNBVC-Wiki还托管发起MNBVC项目的里屋社区的百科全书内容。
+ 将代码转为语料:[githubcode_extractor_mnbvc](https://github.com/LinnaWang76/githubcode_extractor_mnbvc)
+ 爬取commit记录:待提供

### 多模态处理工具
PDF元信息抽取工具:[pdf_meta_data_mnbvc](https://github.com/MIracleyin/pdf_meta_data_mnbvc)
PDF解析规则工具:[mmdp_mnbvc](https://github.com/MIracleyin/mmdp_mnbvc)

### 各种清洗代码
wikihow清洗代码:[WikiHowQAExtractor-mnbvc](https://github.com/wanicca/WikiHowQAExtractor-mnbvc)
中国外交部发言清洗代码:[QA_with_reporters_from_the_Ministry_of_Foreign_Affair_mnbvc](https://github.com/UnstoppableCurry/QA_with_reporters_from_the_Ministry_of_Foreign_Affair_mnbvc)
Expand All @@ -83,3 +85,8 @@ stackexchange的清洗代码:[stackexchange_mnbvc](https://github.com/livehl/s
)

2.通过百度网盘下载:[每个压缩包的百度网盘下载链接](dupan/README.md)

### 其他

MNBVC项目建设了([Wiki系统](https://wiki.mnbvc.org)),它诞生的初衷是MNBVC开源项目团队在中文语料库建设过程中积累了一些项目经验,希望通过wiki系统记录和分享,以帮助未来参与相关项目的开发者。
MNBVC-Wiki还托管发起MNBVC项目的里屋社区的百科全书内容。

0 comments on commit 43b35f3

Please sign in to comment.