11 Oct 18:32

ZeyuChen

91d81c9

PaddleNLP v2.1.0

New Features

新增开箱即用的工业级NLP能力Taskflow，预置中文分词、词性标注、专名识别、句法分析、情感分析、文本纠错等8个任务，更多使用说明请参考Taskflow文档。
新增基于Promot Tuning的NLP小样本学习应用实例，配合R-Drop策略显著提升效果，更多技术细节请参考FewCLUE。
集成FasterTransformer加速能力，显著提升翻译、对话等文本生成任务的推理速度。支持Transformer/GPT/BART等主流生成结构与Beam Search与Sampling-based解码策略，更多使用说明请参考FasterTransformer使用文档。

New Examples

新增无监督语义匹配模型SimCSE。
新增模型压缩策略MiniLMv2。
新增文本纠错模型ERNIE-CSC。
新增句法分析应用示例dependency_parsing。
新增小样本学习应用示例few_shot。
新增文本摘要应用示例BART。
完善ERNIE-1.0/GPT/GPT-3的多机分布式预训练代码。@zhaoyinglia @wangxicoding

New Pretrained Models

新增RoFormer模型 #804 ，感谢 @JunnYu 的贡献🎉。
新增ConvBert模型 #819，感谢 @JunnYu 的贡献🎉。
新增MPNet模型 #869，感谢 @JunnYu 的贡献🎉。

New Dataset

新增文本摘要数据集CNN/DailyMail #1061。

Bug Fix

修复维特比解码在长度为1的输入下预测不准确的问题 #1126 。
修复词法分析模型的计算精度问题 #962 。
修复Tokenizer计算offset mapping时对特殊字符处理的问题 #882，感谢 @JunnYu 的贡献🎉。
修复Windows环境下出现的int类型变量错误 #856 #1023 #1146。

Docs

优化Transformer API Reference文档，更加清晰准确易懂。感谢 @huhuiwen99 的贡献🎉。

New Contributors

@huhuiwen99 made their first contribution in #914 🎉
@iamqiz made their first contribution in #950 🎉
@ForFishes made their first contribution in #986 🎉
@AI-Mart made their first contribution in #1009 🎉
@zhaoyinglia made their first contribution in #1064 🎉

Contributors

wangxicoding, ForFishes, and 5 other contributors

Assets 2

22 Aug 13:07

smallv0221

v2.0.8

fe8c2d6

PaddleNLP v2.0.8

New Pretrained-Models

新增文本生成UNIMO-text模型和tokenizer，包括unimo-text-1.0和unimo-text-1.0-large。
新增长文本预训练模型ERNIE-Doc。

New Dataset

新增问题生成数据集DuReaderQG。
新增文案生成数据集AdvertiseGen。
新增短摘要生成数据集LCSTS_new。
新增长文本语义匹配数据集CAIL2019-SCM。
新增长阅读理解数据集C3。
新增文本分类数据集HYP、THUCNews。

New Feature

新增Layerwise-decay优化器。
新增 R-Drop loss API.

BugFix

修复生成API中min_out_len参数不起作用的bug和一些文档问题。
修复tokenizer计算offset mapping时会把原本有意义的#删除的问题。 @JunnYu

New Examples

新增【千言：面向事实一致性的生成评测比赛】baseline。
新增【千言-问题匹配鲁棒性评测】baseline.。

Contributors

JunnYu

Assets 2

02 Aug 02:45

gongel

v2.0.7

ebc2b1b

PaddleNLP v2.0.7

功能更新

新增PET策略的Few-Shot Learning基线；
新增BART模型；
新增C3, TriviaQa, CAIL2019-SCM数据集;
FasterTransformer能力增强
4.1 Unified Transformer新增Beam Search和Sampling解码策略;
4.2 Top-k Sampling解码策略支持任意k;

Bug Fix

简化依赖，提升安装速度;
修复TaskFlow API的多线程使用问题;

Assets 2

20 Jul 13:15

wawltor

v2.0.6

84a8dca

PaddleNLP v2.0.6

功能更新

新增TaskFlow一键预测API，支持情感分析、知识关联(text2knowledge)任务；
文本匹配任务新增SimBERT模型；
情感分析模块中新增情绪分析任务；
新增长文本分类hyp thunews数据集；

Bug Fix

修复GPT任务中ClipGradByGlobalNorm 和 Megatron不一致的Bug；
修复Unified Transformer在Windows上的数据类型；
修复CRF batch_size=1的训练出错问题；

Assets 2

29 Jun 06:22

smallv0221

v2.0.5

ccd3557

PaddleNLP v2.0.5

Bug fix

修复了预训练模型vocab无法保存的问题。

Bug fix

修复了ERNIE-GRAM的vocab中，idx_to_token和token_to_idx不对应的问题。感谢@BFJL的贡献！🎉 🎉 🎉

Finetuned model

新增ernie-2.0-en-finetuned-squad模型，由ernie-2.0-en在squad1.0数据集上finetune得到。

Assets 2

17 Jun 15:21

smallv0221

v2.0.3

995ebc1

PaddleNLP v2.0.3

API功能优化

升级了load_dataset()方法，现在同时传入splits和data_files参数时将由splits参数来指定读取本地数据集的格式。行为更加符合直觉。
生成式APIgenerate()现在支持GPT预训练模型了！

丰富预训练模型

新增多粒度语言知识预训练模型ERNIE-Gram，该模型在多项中文NLP任务取得SOTA成绩。
新增NeZha中文预训练模型，感谢 @jm12138 的高质量贡献！ 🎉 🎉 🎉
新增GPT CPM-Distill中文小型化模型，感谢 @jm12138 的高质量贡献！🎉 🎉 🎉

Bug Fix

修复了softmax_with_crossentropy API导致的deprecated warning
更新了ChnSentiCorp等数据集的官方下载链接。

Assets 2

20 May 08:42

guoshengCS

v2.0.0

7ac9971

PaddleNLP v2.0.0

PaddleNLP 2.0是飞桨生态的文本领域核心库，具备易用的文本领域API，多场景的应用示例、和高性能分布式训练三大特点，旨在提升飞桨开发者文本领域建模效率，并提供基于飞桨框架2.0的NLP领域最佳实践。

特性

易用的文本领域API

提供从数据集加载、文本预处理、组网建模、评估、到推的领域API：如一键加载丰富中文数据集的Dataset API, 可灵活高效的进行数据与处理的Data API，预置60+预训练词向量的Embedding API, 内置50+预训练模型，提供预训练模型生态基础设施的Transformer API等，可大幅提升NLP任务建模和迭代的效率。更多API详细说明请查看PaddleNLP官方文档

多场景的应用示例

PaddleNLP 2.0提供多粒度多场景的应用示例，涵盖从NLP基础技术、NLP核心技术、NLP系统应用以及文本相关的拓展应用等。全面基于飞桨2.0全新API体系开发，为开发提供飞桨2.0框架在文本领域的最佳实践。

高性能分布式训练

基于飞桨核心框架『动静统一』的特性与领先的自动混合精度优化策略，通过分布式Fleet API，支持超大规模参数的4D混合并行策略，并且可根据硬件情况灵活可配，高效地完成超大规模参数的模型训练。

Assets 2

Releases: PaddlePaddle/PaddleNLP

PaddleNLP v2.1.0

New Features

New Examples

New Pretrained Models

New Dataset

Bug Fix

Docs

New Contributors

Contributors

Uh oh!

PaddleNLP v2.0.8

New Pretrained-Models

New Dataset

New Feature

BugFix

New Examples

Contributors

Uh oh!

PaddleNLP v2.0.7

功能更新

Bug Fix

Uh oh!

PaddleNLP v2.0.6

功能更新

Bug Fix

Uh oh!

PaddleNLP v2.0.5

Bug fix

更多的预训练模型

Uh oh!

PaddleNLP v2.0.4

Bug fix

更多的数据集

Finetuned model

Uh oh!

PaddleNLP v2.0.3

API功能优化

更多的数据集

Uh oh!

PaddleNLP v2.0.2

丰富预训练模型

Bug Fix

Uh oh!

PaddleNLP v2.0.0

特性

易用的文本领域API

多场景的应用示例

高性能分布式训练

Uh oh!