Skip to content

Commit

Permalink
Simplify paddlenlp and paddlepaddle instalation docs
Browse files Browse the repository at this point in the history
  • Loading branch information
ZeyuChen committed Mar 11, 2021
1 parent 0a111bb commit d46bb2a
Show file tree
Hide file tree
Showing 35 changed files with 120 additions and 499 deletions.
8 changes: 5 additions & 3 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -32,14 +32,16 @@ PaddleNLP 2.0拥有**覆盖多场景的模型库**、**简洁易用的全流程A
### 环境依赖

- python >= 3.6
- paddlepaddle >= 2.0.0
- paddlepaddle >= 2.0.1

### pip安装

```
pip install paddlenlp\>=2.0.0rc
pip install --upgrade paddlenlp -i https://pypi.org/simple
```

更多关于PaddlePaddle的安装和PaddleNLP安装详细教程请查看[Installation](./docs/get_started/installation.rst)

## 快速开始

### 数据集快速加载
Expand All @@ -52,7 +54,7 @@ train_ds, dev_ds, test_ds = load_dataset("chnsenticorp", splits=["train", "dev",

可参考[Dataset文档](./docs/datasets.md)查看更多数据集。

### 一键加载中文词向量
### 一键加载预训练中文词向量

```python
from paddlenlp.embeddings import TokenEmbedding
Expand Down
2 changes: 1 addition & 1 deletion examples/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -45,7 +45,7 @@ PaddleNLP 提供了多种成熟的预训练模型技术,适用于自然语言

| 模型 | 简介 |
| ------- | ------- |
| [BERT](./language_model/bert/) |[BERT(Bidirectional Encoder Representation from Transformers)](./examples/language_model/bert) |
| [BERT](./language_model/bert/) | [BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding](https://arxiv.org/abs/1810.04805) |
| [ERNIE](./text_classification/pretrained_models) | [ERNIE: Enhanced Representation through Knowledge Integration](https://arxiv.org/abs/1904.09223) |
| [ERNIE-Tiny](./text_classification/pretrained_models) | 百度自研的小型化ERNIE网络结构,采用浅层Transformer,加宽隐层参数,中文subword粒度词表结合蒸馏的方法使模型相比SOTA Before BERT 提升8.35%, 速度提升4.3倍。 |
| [ERNIE-GEN](./text_generation/ernie-gen) | [ERNIE-GEN: An Enhanced Multi-Flow Pre-training and Fine-tuning Framework for Natural Language Generation](https://arxiv.org/abs/2001.11314) ERNIE-GEN是百度发布的生成式预训练模型,通过Global-Attention的方式解决训练和预测曝光偏差的问题,同时使用Multi-Flow Attention机制来分别进行Global和Context信息的交互,同时通过片段生成的方式来增加语义相关性。 |
Expand Down
18 changes: 4 additions & 14 deletions examples/benchmark/glue/README.md
Original file line number Diff line number Diff line change
@@ -1,23 +1,13 @@
# GLUE with PaddleNLP
# GLUE Benchmark

[GLUE](https://gluebenchmark.com/)是当今使用最为普遍的自然语言理解评测基准数据集,评测数据涵盖新闻、电影、百科等许多领域,其中有简单的句子,也有困难的句子。其目的是通过公开的得分榜,促进自然语言理解系统的发展。详细可参考 [GLUE论文](https://openreview.net/pdf?id=rJ4km2R5t7)

本项目是 GLUE评测任务 在 Paddle 2.0上的开源实现。

## 1. 发布要点
## 快速开始

1. 支持CoLA、SST-2、MRPC、STS-B、QQP、MNLI、QNLI、RTE 8个GLUE评测任务的Fine-tuning。
2. 支持 ernie、bert、electra 等预训练模型运行这些GLUE评测任务。

## 2. 快速开始

### 2.1 环境配置
- Python >= 3.6
- paddlepaddle >= 2.0.0,安装方式请参考 [快速安装](https://www.paddlepaddle.org.cn/install/quick)
- paddlenlp >= 2.0.0rc, 安装方式:`pip install paddlenlp\>=2.0.0rc`

### 2.2 启动GLUE任务
以 GLUE/SST-2 任务为例,启动GLUE任务进行Fine-tuning 的方式如下:
### 启动GLUE任务
以 GLUE/SST-2 任务为例,启动GLUE任务进行Fine-tuning的方式如下:

```shell
export CUDA_VISIBLE_DEVICES=0
Expand Down
6 changes: 0 additions & 6 deletions examples/dialogue/dgu/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -35,12 +35,6 @@ DGU模型中的6个任务,分别采用不同的评估指标在test集上进行

## 快速开始

### 环境配置

- python >= 3.6
- paddlepaddle >= 2.0.0, 安装方式请参考 [快速安装](https://www.paddlepaddle.org.cn/install/quick)
- paddlenlp >= 2.0.0rc, 安装方式:`pip install paddlenlp==2.0.0rc`

### 数据准备

下载数据集压缩包并解压后,DGU_datasets目录下共存在6个目录,分别对应每个任务的训练集train.txt、评估集dev.txt和测试集test.txt。
Expand Down
9 changes: 4 additions & 5 deletions examples/dialogue/lic2021_baseline/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -12,12 +12,11 @@ UnifiedTransformer模型的细节可以[参阅论文](https://arxiv.org/abs/2006

## 快速开始

### 环境配置
### 环境依赖

- python >= 3.6
- paddlepaddle >= 2.0.1, 安装方式请参考 [快速安装](https://www.paddlepaddle.org.cn/install/quick)
- paddlenlp >= 2.0.0rc, 安装方式:`pip install paddlenlp\>=2.0.0rc`
- sentencepiece, 安装方式:`pip install sentencepiece`
- sentencepiece

安装方式:`pip install sentencepiece`

### 数据准备

Expand Down
10 changes: 5 additions & 5 deletions examples/dialogue/plato-2/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -14,12 +14,12 @@ PLATO-2的训练过程及其他细节详见 [Knover](https://github.com/PaddlePa

## 快速开始

### 环境配置
### 环境依赖

- python >= 3.6
- paddlepaddle >= 2.0.0, 安装方式请参考 [快速安装](https://www.paddlepaddle.org.cn/install/quick)
- paddlenlp >= 2.0.0rc, 安装方式:`pip install paddlenlp==2.0.0rc`
- sentencepiece, termcolor, 安装方式:`pip install sentencepiece termcolor`
- sentencepiece
- termcolor

安装方式:`pip install sentencepiece termcolor`

### 数据准备

Expand Down
19 changes: 1 addition & 18 deletions examples/information_extraction/DuEE/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -12,29 +12,12 @@
同时,我们提供了该示例在线运行展示教程:
[PaddleNLP实战——LIC2021事件抽取任务基线](https://aistudio.baidu.com/aistudio/projectdetail/1605425)


## 环境依赖

* PaddlePaddle 安装

本项目依赖于 PaddlePaddle 2.0 及以上版本,请参考 [安装指南](http://www.paddlepaddle.org/#quick-start) 进行安装

* PaddleNLP 安装

```shell
pip install --upgrade paddlenlp\>=2.0.0rc5
```

* 环境依赖

Python的版本要求 3.6+,其它环境请参考 PaddlePaddle [安装说明](http://www.paddlepaddle.org/#quick-start) 部分的内容

## 目录结构

以下是本项目主要目录结构及说明:

```text
event_extraction/
DuEE/
├── classifier.py # 文本分类训练脚本
├── duee_1_data_prepare.py # 句子级事件抽取数据预处理
├── duee_1_postprocess.py # 句子级事件抽取数据后处理
Expand Down
20 changes: 1 addition & 19 deletions examples/information_extraction/DuIE/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -9,30 +9,12 @@
[PaddleNLP实战——LIC2021关系抽取任务基线](https://aistudio.baidu.com/aistudio/projectdetail/1611211)


## 环境依赖

* PaddlePaddle 安装

本项目依赖于 PaddlePaddle 2.0 及以上版本,请参考 [安装指南](http://www.paddlepaddle.org/#quick-start) 进行安装

* PaddleNLP 安装

```shell
pip install --upgrade paddlenlp\>=2.0.0rc5
```

* 环境依赖

Python的版本要求 3.6+,其它环境请参考 PaddlePaddle [安装说明](http://www.paddlepaddle.org/#quick-start) 部分的内容


## 目录结构


以下是本项目主要目录结构及说明:

```text
event_extraction/
DuIE/
├── data_loader.py # 加载数据
├── extract_chinese_and_punct.py # 文本数据预处理
├── README.md # 文档说明
Expand Down
16 changes: 5 additions & 11 deletions examples/information_extraction/msra_ner/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -11,15 +11,9 @@ MSRA-NER 数据集由微软亚研院发布,其目标是识别文本中具有

PaddleNLP集成的数据集MSRA-NER数据集对文件格式做了调整:每一行文本、标签以特殊字符"\t"进行分隔,每个字之间以特殊字符"\002"分隔。

## 2. 快速开始
## 快速开始

### 2.1 环境配置

- Python >= 3.6
- paddlepaddle >= 2.0.0,安装方式请参考 [快速安装](https://www.paddlepaddle.org.cn/install/quick)
- paddlenlp >= 2.0.0rc10, 安装方式:`pip install paddlenlp\>=2.0.0rc10`

### 2.2 模型训练
### 模型训练

```shell
export CUDA_VISIBLE_DEVICES=0
Expand Down Expand Up @@ -65,7 +59,7 @@ Precision | 0.908957 |
Recall | 0.926683 |
F1 | 0.917734 |

## 3. 模型评估
### 模型评估

```shell
export CUDA_VISIBLE_DEVICES=0
Expand All @@ -85,7 +79,7 @@ python -u ./eval.py \
- `use_gpu`: 是否使用GPU。
- `init_checkpoint_path`: 模型加载路径。

## 4. 模型预测
### 模型预测

```shell
export CUDA_VISIBLE_DEVICES=0
Expand All @@ -98,7 +92,7 @@ python -u ./predict.py \
--init_checkpoint_path tmp/msra_ner/model_500.pdparams
```

## 5. 使用其它预训练模型
### 使用其它预训练模型

请参考[Transformer API文档](../../../docs/transformers.md)了解更多PaddleNLP支持的预训练模型信息,并更换`--model_name_or_path`参数即可对比其他预训练模型的效果。

Expand Down
19 changes: 5 additions & 14 deletions examples/information_extraction/waybill_ie/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -4,18 +4,9 @@

本示例将通过BiGRU-CRF和ERNIE + FC两类模型,演示如何从用户提供的快递单中,抽取姓名、电话、省、市、区、详细地址等内容,形成结构化信息。辅助物流行业从业者进行有效信息的提取,从而降低客户填单的成本。

## 2. 快速开始
## 快速开始

### 2.1 环境配置

- Python >= 3.6

- paddlepaddle >= 2.0.0,安装方式请参考 [快速安装](https://www.paddlepaddle.org.cn/install/quick)

- paddlenlp >= 2.0.0rc4, 安装方式:`pip install paddlenlp\>=2.0.0rc4`


### 2.2 数据准备
### 数据准备

数据集已经保存在data目录中,示例如下

Expand All @@ -37,11 +28,11 @@

数据标注采用**BIO模式**。其中 B(begin) 表示一个标签类别的开头,比如 P-B 指的是姓名的开头;相应的,I(inside) 表示一个标签的延续。O表示Outside无关字符。更多标注模式介绍请参考[Inside–outside–beginning (tagging)](https://en.wikipedia.org/wiki/Inside%E2%80%93outside%E2%80%93beginning_(tagging))

### 2.3 启动训练
### 启动训练

本项目提供了两种模型结构,一种是BiGRU+CRF结构,另一种是ERNIE+FC结构,前者显存占用小,推理速度快;后者能够在更快收敛并取得更高的精度,但推理速度较慢。

#### 2.3.1 启动BiGRU + CRF训练
#### 启动BiGRU + CRF训练

```bash
export CUDA_VISIBLE_DEVICES=0 # 只支持单卡训练
Expand All @@ -50,7 +41,7 @@ python run_bigru_crf.py

更多详细教程请参考:[基于Bi-GRU+CRF的快递单信息抽取](https://aistudio.baidu.com/aistudio/projectdetail/1317771)

#### 2.3.2 启动ERNIE + FC训练
#### 启动ERNIE + FC训练

```bash
export CUDA_VISIBLE_DEVICES=0 # 只支持单卡训练
Expand Down
6 changes: 0 additions & 6 deletions examples/language_model/bert/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -8,12 +8,6 @@

## 快速开始

### 环境配置
- Python >= 3.6
- paddlepaddle >= 2.0.0,安装方式请参考 [快速安装](https://www.paddlepaddle.org.cn/install/quick)
- paddlenlp >= 2.0.0rc, 安装方式:`pip install paddlenlp\>=2.0.0rc`
```
### 数据准备

#### Pre-training数据准备
Expand Down
23 changes: 0 additions & 23 deletions examples/language_model/bigbird/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -15,29 +15,6 @@
```
## 快速开始

### 安装说明

* PaddlePaddle安装

本项目依赖于 PaddlePaddle 2.0.1 及以上版本或适当的develop版本,请参考 [安装指南](https://www.paddlepaddle.org.cn/install/quick) 进行安装。

* Sentencepiece 安装

```shell
pip install sentencepiece
```

* PaddleNLP 安装

```shell
pip install paddlenlp\>=2.0.0rc5
```

* 下载代码

克隆代码库到本地


### 数据准备
根据论文中的信息,目前 Big Bird 的预训练数据是主要是由 Books,CC-News,Stories, Wikipedia 4种预训练数据来构造,用户可以根据自己的需要来下载和清洗相应的数据。目前已提供一份示例数据在 data 目录。

Expand Down
Loading

0 comments on commit d46bb2a

Please sign in to comment.