Skip to content

Releases: PaddlePaddle/PaddleNLP

PaddleNLP v2.1.0

11 Oct 18:32
91d81c9
Compare
Choose a tag to compare

New Features

  • 新增开箱即用的工业级NLP能力Taskflow,预置中文分词、词性标注、专名识别、句法分析、情感分析、文本纠错等8个任务,更多使用说明请参考Taskflow文档
  • 新增基于Promot Tuning的NLP小样本学习应用实例,配合R-Drop策略显著提升效果,更多技术细节请参考FewCLUE
  • 集成FasterTransformer加速能力,显著提升翻译、对话等文本生成任务的推理速度。支持Transformer/GPT/BART等主流生成结构与Beam Search与Sampling-based解码策略,更多使用说明请参考FasterTransformer使用文档

New Examples

New Pretrained Models

  • 新增RoFormer模型 #804 ,感谢 @JunnYu 的贡献🎉。
  • 新增ConvBert模型 #819,感谢 @JunnYu 的贡献🎉。
  • 新增MPNet模型 #869,感谢 @JunnYu 的贡献🎉。

New Dataset

  • 新增文本摘要数据集CNN/DailyMail #1061

Bug Fix

  • 修复维特比解码在长度为1的输入下预测不准确的问题 #1126
  • 修复词法分析模型的计算精度问题 #962
  • 修复Tokenizer计算offset mapping时对特殊字符处理的问题 #882,感谢 @JunnYu 的贡献🎉。
  • 修复Windows环境下出现的int类型变量错误 #856 #1023 #1146

Docs

  • 优化Transformer API Reference文档,更加清晰准确易懂。感谢 @huhuiwen99 的贡献🎉。

New Contributors

PaddleNLP v2.0.8

22 Aug 13:07
fe8c2d6
Compare
Choose a tag to compare

New Pretrained-Models

新增文本生成UNIMO-text模型和tokenizer,包括unimo-text-1.0和unimo-text-1.0-large。
新增长文本预训练模型ERNIE-Doc。

New Dataset

新增问题生成数据集DuReaderQG。
新增文案生成数据集AdvertiseGen。
新增短摘要生成数据集LCSTS_new。
新增长文本语义匹配数据集CAIL2019-SCM。
新增长阅读理解数据集C3。
新增文本分类数据集HYP、THUCNews。

New Feature

新增Layerwise-decay优化器。
新增 R-Drop loss API.

BugFix

修复生成API中min_out_len参数不起作用的bug和一些文档问题。
修复tokenizer计算offset mapping时会把原本有意义的#删除的问题。 @JunnYu

New Examples

新增【千言:面向事实一致性的生成评测比赛】baseline。
新增【千言-问题匹配鲁棒性评测】baseline.。

PaddleNLP v2.0.7

02 Aug 02:45
ebc2b1b
Compare
Choose a tag to compare

功能更新

  1. 新增PET策略的Few-Shot Learning基线;
  2. 新增BART模型;
  3. 新增C3, TriviaQa, CAIL2019-SCM数据集;
  4. FasterTransformer能力增强
    4.1 Unified Transformer新增Beam Search和Sampling解码策略;
    4.2 Top-k Sampling解码策略支持任意k;

Bug Fix

  1. 简化依赖,提升安装速度;
  2. 修复TaskFlow API的多线程使用问题;

PaddleNLP v2.0.6

20 Jul 13:15
Compare
Choose a tag to compare

功能更新

  1. 新增TaskFlow一键预测API,支持情感分析、知识关联(text2knowledge)任务;
  2. 文本匹配任务新增SimBERT模型;
  3. 情感分析模块中新增情绪分析任务;
  4. 新增长文本分类hyp thunews数据集;

Bug Fix

  1. 修复GPT任务中ClipGradByGlobalNorm 和 Megatron不一致的Bug;
  2. 修复Unified Transformer在Windows上的数据类型;
  3. 修复CRF batch_size=1的训练出错问题;

PaddleNLP v2.0.5

29 Jun 06:22
ccd3557
Compare
Choose a tag to compare

Bug fix

  • 修复了预训练模型vocab无法保存的问题。

更多的预训练模型

  • 新增macbert-base-chinesemacbert-large-chinese预训练模型,与其他BERT模型的加载方式一致。

PaddleNLP v2.0.4

29 Jun 06:09
ccd3557
Compare
Choose a tag to compare

Bug fix

  • 修复了ERNIE-GRAM的vocab中,idx_to_tokentoken_to_idx不对应的问题。感谢@BFJL的贡献!🎉 🎉 🎉

更多的数据集

  • 新增SE-ABSA16_CAME中文情感分类数据集,感谢 @jiaqianjing 的高质量贡献! 🎉 🎉 🎉
  • 新增COTE-BD & COTE-MFW中文语义角色识别数据集,感谢 @jiaqianjing 的高质量贡献! 🎉 🎉 🎉

Finetuned model

  • 新增ernie-2.0-en-finetuned-squad模型,由ernie-2.0-ensquad1.0数据集上finetune得到。

PaddleNLP v2.0.3

17 Jun 15:21
995ebc1
Compare
Choose a tag to compare

API功能优化

  • 升级了load_dataset()方法,现在同时传入splitsdata_files参数时将由splits参数来指定读取本地数据集的格式。行为更加符合直觉。
  • 生成式APIgenerate()现在支持GPT预训练模型了!

更多的数据集

  • 新增BQCorpus中文文本相似度数据集,感谢 @frozenfish123 的高质量贡献! 🎉 🎉 🎉
  • 新增PAWS-X中文文本相似度数据集,感谢 @jiaqianjing 的高质量贡献! 🎉 🎉 🎉
  • 新增NLPCC14-SC中文情感分类数据集,感谢 @fiyen 的高质量贡献! 🎉 🎉 🎉

PaddleNLP v2.0.2

04 Jun 07:24
Compare
Choose a tag to compare

丰富预训练模型

  • 新增多粒度语言知识预训练模型ERNIE-Gram,该模型在多项中文NLP任务取得SOTA成绩。
  • 新增NeZha中文预训练模型,感谢 @jm12138 的高质量贡献! 🎉 🎉 🎉
  • 新增GPT CPM-Distill中文小型化模型,感谢 @jm12138 的高质量贡献!🎉 🎉 🎉

Bug Fix

  • 修复了softmax_with_crossentropy API导致的deprecated warning
  • 更新了ChnSentiCorp等数据集的官方下载链接。

PaddleNLP v2.0.0

20 May 08:42
7ac9971
Compare
Choose a tag to compare

PaddleNLP 2.0是飞桨生态的文本领域核心库,具备易用的文本领域API,多场景的应用示例、和高性能分布式训练三大特点,旨在提升飞桨开发者文本领域建模效率,并提供基于飞桨框架2.0的NLP领域最佳实践。

特性

易用的文本领域API

提供从数据集加载、文本预处理、组网建模、评估、到推的领域API:如一键加载丰富中文数据集的Dataset API, 可灵活高效的进行数据与处理的Data API,预置60+预训练词向量的Embedding API, 内置50+预训练模型,提供预训练模型生态基础设施的Transformer API等,可大幅提升NLP任务建模和迭代的效率。更多API详细说明请查看PaddleNLP官方文档

多场景的应用示例

PaddleNLP 2.0提供多粒度多场景的应用示例,涵盖从NLP基础技术、NLP核心技术、NLP系统应用以及文本相关的拓展应用等。全面基于飞桨2.0全新API体系开发,为开发提供飞桨2.0框架在文本领域的最佳实践。

高性能分布式训练

基于飞桨核心框架『动静统一』的特性与领先的自动混合精度优化策略,通过分布式Fleet API,支持超大规模参数的4D混合并行策略,并且可根据硬件情况灵活可配,高效地完成超大规模参数的模型训练。