Simplify paddlenlp and paddlepaddle instalation docs

lijing89 · Mar 11, 2021 · d46bb2a · d46bb2a
1 parent 0a111bb
commit d46bb2a
Show file tree

Hide file tree

Showing 35 changed files with 120 additions and 499 deletions.
diff --git a/README.md b/README.md
@@ -32,14 +32,16 @@ PaddleNLP 2.0拥有**覆盖多场景的模型库**、**简洁易用的全流程A
 ### 环境依赖
 
 - python >= 3.6
-- paddlepaddle >= 2.0.0
+- paddlepaddle >= 2.0.1
 
 ### pip安装
 
 ```
-pip install paddlenlp\>=2.0.0rc
+pip install --upgrade paddlenlp -i https://pypi.org/simple 
 ```
 
+更多关于PaddlePaddle的安装和PaddleNLP安装详细教程请查看[Installation](./docs/get_started/installation.rst)
+
 ## 快速开始
 
 ### 数据集快速加载
@@ -52,7 +54,7 @@ train_ds, dev_ds, test_ds = load_dataset("chnsenticorp", splits=["train", "dev",
 
 可参考[Dataset文档](./docs/datasets.md)查看更多数据集。
 
-### 一键加载中文词向量
+### 一键加载预训练中文词向量
 
 ```python
 from paddlenlp.embeddings import TokenEmbedding

diff --git a/examples/README.md b/examples/README.md
@@ -45,7 +45,7 @@ PaddleNLP 提供了多种成熟的预训练模型技术，适用于自然语言
 
 | 模型    | 简介     |
 | ------- | ------- |
-| [BERT](./language_model/bert/) |[BERT(Bidirectional Encoder Representation from Transformers)](./examples/language_model/bert)     |
+| [BERT](./language_model/bert/) | [BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding](https://arxiv.org/abs/1810.04805)     |
 | [ERNIE](./text_classification/pretrained_models) | [ERNIE: Enhanced Representation through Knowledge Integration](https://arxiv.org/abs/1904.09223)   |
 | [ERNIE-Tiny](./text_classification/pretrained_models) | 百度自研的小型化ERNIE网络结构，采用浅层Transformer，加宽隐层参数，中文subword粒度词表结合蒸馏的方法使模型相比SOTA Before BERT 提升8.35%， 速度提升4.3倍。 |
 | [ERNIE-GEN](./text_generation/ernie-gen) | [ERNIE-GEN: An Enhanced Multi-Flow Pre-training and Fine-tuning Framework for Natural Language Generation](https://arxiv.org/abs/2001.11314) ERNIE-GEN是百度发布的生成式预训练模型，通过Global-Attention的方式解决训练和预测曝光偏差的问题，同时使用Multi-Flow Attention机制来分别进行Global和Context信息的交互，同时通过片段生成的方式来增加语义相关性。    |

diff --git a/examples/benchmark/glue/README.md b/examples/benchmark/glue/README.md
@@ -1,23 +1,13 @@
-# GLUE with PaddleNLP
+# GLUE Benchmark
 
 [GLUE](https://gluebenchmark.com/)是当今使用最为普遍的自然语言理解评测基准数据集，评测数据涵盖新闻、电影、百科等许多领域，其中有简单的句子，也有困难的句子。其目的是通过公开的得分榜，促进自然语言理解系统的发展。详细可参考 [GLUE论文](https://openreview.net/pdf?id=rJ4km2R5t7)
 
 本项目是 GLUE评测任务 在 Paddle 2.0上的开源实现。
 
-## 1. 发布要点
+## 快速开始
 
-1. 支持CoLA、SST-2、MRPC、STS-B、QQP、MNLI、QNLI、RTE 8个GLUE评测任务的Fine-tuning。
-2. 支持 ernie、bert、electra 等预训练模型运行这些GLUE评测任务。
-
-## 2. 快速开始
-
-### 2.1 环境配置
-- Python >= 3.6
-- paddlepaddle >= 2.0.0，安装方式请参考 [快速安装](https://www.paddlepaddle.org.cn/install/quick)。
-- paddlenlp >= 2.0.0rc, 安装方式：`pip install paddlenlp\>=2.0.0rc`
-
-### 2.2 启动GLUE任务
-以 GLUE/SST-2 任务为例，启动GLUE任务进行Fine-tuning 的方式如下：
+### 启动GLUE任务
+以 GLUE/SST-2 任务为例，启动GLUE任务进行Fine-tuning的方式如下：
 
 ```shell
 export CUDA_VISIBLE_DEVICES=0

diff --git a/examples/dialogue/dgu/README.md b/examples/dialogue/dgu/README.md
@@ -35,12 +35,6 @@ DGU模型中的6个任务，分别采用不同的评估指标在test集上进行
 
 ## 快速开始
 
-### 环境配置
-
-- python >= 3.6
-- paddlepaddle >= 2.0.0, 安装方式请参考 [快速安装](https://www.paddlepaddle.org.cn/install/quick)。
-- paddlenlp >= 2.0.0rc, 安装方式：`pip install paddlenlp==2.0.0rc`
-
 ### 数据准备
 
 下载数据集压缩包并解压后，DGU_datasets目录下共存在6个目录，分别对应每个任务的训练集train.txt、评估集dev.txt和测试集test.txt。

diff --git a/examples/dialogue/lic2021_baseline/README.md b/examples/dialogue/lic2021_baseline/README.md
@@ -12,12 +12,11 @@ UnifiedTransformer模型的细节可以[参阅论文](https://arxiv.org/abs/2006
 
 ## 快速开始
 
-### 环境配置
+### 环境依赖
 
-- python >= 3.6
-- paddlepaddle >= 2.0.1, 安装方式请参考 [快速安装](https://www.paddlepaddle.org.cn/install/quick)。
-- paddlenlp >= 2.0.0rc, 安装方式：`pip install paddlenlp\>=2.0.0rc`
-- sentencepiece, 安装方式：`pip install sentencepiece`
+- sentencepiece
+
+安装方式：`pip install sentencepiece`
 
 ### 数据准备
 

diff --git a/examples/dialogue/plato-2/README.md b/examples/dialogue/plato-2/README.md
@@ -14,12 +14,12 @@ PLATO-2的训练过程及其他细节详见 [Knover](https://github.com/PaddlePa
 
 ## 快速开始
 
-### 环境配置
+### 环境依赖
 
-- python >= 3.6
-- paddlepaddle >= 2.0.0, 安装方式请参考 [快速安装](https://www.paddlepaddle.org.cn/install/quick)。
-- paddlenlp >= 2.0.0rc, 安装方式：`pip install paddlenlp==2.0.0rc`
-- sentencepiece, termcolor, 安装方式：`pip install sentencepiece termcolor`
+- sentencepiece
+- termcolor  
+
+安装方式：`pip install sentencepiece termcolor`
 
 ### 数据准备
 

diff --git a/examples/information_extraction/DuEE/README.md b/examples/information_extraction/DuEE/README.md
@@ -12,29 +12,12 @@
 同时，我们提供了该示例在线运行展示教程：
 [PaddleNLP实战——LIC2021事件抽取任务基线](https://aistudio.baidu.com/aistudio/projectdetail/1605425)
 
-
-## 环境依赖
-
-* PaddlePaddle 安装
-
-   本项目依赖于 PaddlePaddle 2.0 及以上版本，请参考 [安装指南](http://www.paddlepaddle.org/#quick-start) 进行安装
-
-* PaddleNLP 安装
-
-   ```shell
-   pip install --upgrade paddlenlp\>=2.0.0rc5
-   ```
-
-* 环境依赖
-
-   Python的版本要求 3.6+，其它环境请参考 PaddlePaddle [安装说明](http://www.paddlepaddle.org/#quick-start) 部分的内容
-
 ## 目录结构
 
 以下是本项目主要目录结构及说明：
 
 ```text
-event_extraction/
+DuEE/
 ├── classifier.py # 文本分类训练脚本
 ├── duee_1_data_prepare.py # 句子级事件抽取数据预处理
 ├── duee_1_postprocess.py # 句子级事件抽取数据后处理

diff --git a/examples/information_extraction/DuIE/README.md b/examples/information_extraction/DuIE/README.md
@@ -9,30 +9,12 @@
 [PaddleNLP实战——LIC2021关系抽取任务基线](https://aistudio.baidu.com/aistudio/projectdetail/1611211)
 
 
-## 环境依赖
-
-* PaddlePaddle 安装
-
-   本项目依赖于 PaddlePaddle 2.0 及以上版本，请参考 [安装指南](http://www.paddlepaddle.org/#quick-start) 进行安装
-
-* PaddleNLP 安装
-
-   ```shell
-   pip install --upgrade paddlenlp\>=2.0.0rc5
-   ```
-
-* 环境依赖
-
-   Python的版本要求 3.6+，其它环境请参考 PaddlePaddle [安装说明](http://www.paddlepaddle.org/#quick-start) 部分的内容
-
-
 ## 目录结构
 
-
 以下是本项目主要目录结构及说明：
 
 ```text
-event_extraction/
+DuIE/
 ├── data_loader.py # 加载数据
 ├── extract_chinese_and_punct.py # 文本数据预处理
 ├── README.md # 文档说明

diff --git a/examples/information_extraction/msra_ner/README.md b/examples/information_extraction/msra_ner/README.md
@@ -11,15 +11,9 @@ MSRA-NER 数据集由微软亚研院发布，其目标是识别文本中具有
 
 PaddleNLP集成的数据集MSRA-NER数据集对文件格式做了调整：每一行文本、标签以特殊字符"\t"进行分隔，每个字之间以特殊字符"\002"分隔。
 
-## 2. 快速开始
+## 快速开始
 
-### 2.1 环境配置
-
-- Python >= 3.6
-- paddlepaddle >= 2.0.0，安装方式请参考 [快速安装](https://www.paddlepaddle.org.cn/install/quick)。
-- paddlenlp >= 2.0.0rc10, 安装方式：`pip install paddlenlp\>=2.0.0rc10`
-
-### 2.2 模型训练
+### 模型训练
 
 ```shell
 export CUDA_VISIBLE_DEVICES=0
@@ -65,7 +59,7 @@ Precision                     | 0.908957    |
 Recall                        | 0.926683    |
 F1                            | 0.917734    |
 
-## 3. 模型评估
+### 模型评估
 
 ```shell
 export CUDA_VISIBLE_DEVICES=0
@@ -85,7 +79,7 @@ python -u ./eval.py \
 - `use_gpu`: 是否使用GPU。
 - `init_checkpoint_path`: 模型加载路径。
 
-## 4. 模型预测
+### 模型预测
 
 ```shell
 export CUDA_VISIBLE_DEVICES=0
@@ -98,7 +92,7 @@ python -u ./predict.py \
     --init_checkpoint_path tmp/msra_ner/model_500.pdparams
 ```
 
-## 5. 使用其它预训练模型
+### 使用其它预训练模型
 
 请参考[Transformer API文档](../../../docs/transformers.md)了解更多PaddleNLP支持的预训练模型信息，并更换`--model_name_or_path`参数即可对比其他预训练模型的效果。
 

diff --git a/examples/information_extraction/waybill_ie/README.md b/examples/information_extraction/waybill_ie/README.md
@@ -4,18 +4,9 @@
 
 本示例将通过BiGRU-CRF和ERNIE + FC两类模型，演示如何从用户提供的快递单中，抽取姓名、电话、省、市、区、详细地址等内容，形成结构化信息。辅助物流行业从业者进行有效信息的提取，从而降低客户填单的成本。
 
-## 2. 快速开始
+## 快速开始
 
-### 2.1 环境配置
-
-- Python >= 3.6
-
-- paddlepaddle >= 2.0.0，安装方式请参考 [快速安装](https://www.paddlepaddle.org.cn/install/quick)。
-
-- paddlenlp >= 2.0.0rc4, 安装方式：`pip install paddlenlp\>=2.0.0rc4`
-
-
-### 2.2 数据准备
+### 数据准备
 
 数据集已经保存在data目录中，示例如下
 
@@ -37,11 +28,11 @@
 
 数据标注采用**BIO模式**。其中 B(begin) 表示一个标签类别的开头，比如 P-B 指的是姓名的开头；相应的，I(inside) 表示一个标签的延续。O表示Outside无关字符。更多标注模式介绍请参考[Inside–outside–beginning (tagging)](https://en.wikipedia.org/wiki/Inside%E2%80%93outside%E2%80%93beginning_(tagging))
 
-### 2.3 启动训练
+### 启动训练
 
 本项目提供了两种模型结构，一种是BiGRU+CRF结构，另一种是ERNIE+FC结构，前者显存占用小，推理速度快；后者能够在更快收敛并取得更高的精度，但推理速度较慢。
 
-#### 2.3.1 启动BiGRU + CRF训练
+#### 启动BiGRU + CRF训练
 
 ```bash
 export CUDA_VISIBLE_DEVICES=0 # 只支持单卡训练
@@ -50,7 +41,7 @@ python run_bigru_crf.py
 
 更多详细教程请参考：[基于Bi-GRU+CRF的快递单信息抽取](https://aistudio.baidu.com/aistudio/projectdetail/1317771)
 
-#### 2.3.2 启动ERNIE + FC训练
+#### 启动ERNIE + FC训练
 
 ```bash
 export CUDA_VISIBLE_DEVICES=0 # 只支持单卡训练

diff --git a/examples/language_model/bert/README.md b/examples/language_model/bert/README.md
@@ -8,12 +8,6 @@
 
 ## 快速开始
 
-### 环境配置
-- Python >= 3.6
-- paddlepaddle >= 2.0.0，安装方式请参考 [快速安装](https://www.paddlepaddle.org.cn/install/quick)。
-- paddlenlp >= 2.0.0rc, 安装方式：`pip install paddlenlp\>=2.0.0rc`
-   ```
-
 ### 数据准备
 
 #### Pre-training数据准备

diff --git a/examples/language_model/bigbird/README.md b/examples/language_model/bigbird/README.md
@@ -15,29 +15,6 @@
 ```
 ## 快速开始
 
-### 安装说明
-
-* PaddlePaddle安装
-
-    本项目依赖于 PaddlePaddle 2.0.1 及以上版本或适当的develop版本，请参考 [安装指南](https://www.paddlepaddle.org.cn/install/quick) 进行安装。
-
-* Sentencepiece 安装
-
-   ```shell
-   pip install sentencepiece
-   ```
-
-* PaddleNLP 安装
-
-   ```shell
-   pip install paddlenlp\>=2.0.0rc5
-   ```
-
-* 下载代码
-
-    克隆代码库到本地
-
-
 ### 数据准备
 根据论文中的信息，目前 Big Bird 的预训练数据是主要是由 Books，CC-News，Stories, Wikipedia 4种预训练数据来构造，用户可以根据自己的需要来下载和清洗相应的数据。目前已提供一份示例数据在 data 目录。