英文原版-永久语言知识蒸馏.pdfVIP

下载本文档

0
0
约5.53万字
约 12页
2023-06-29 发布于山西
举报
版权申诉

英文原版-永久语言知识蒸馏.pdf

1、本文档共12页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

英文文献学习素材声明：素材来源于互联网公共免费领域，由上传者搜集、整理、编译，旨在帮助科研领域人士扩展学习途径，丰富科研素材。中文摘要永久语言知识蒸馏在没有任何性能降低的情况下，在一系列不同任务上进行终身语言学习（LLL）是具有挑战性的。为了解决这个问题，我们提出了终身语言知识蒸馏（L2KD），这是一种简单而有效的方法，可以轻松应用于现有的 LLL 架构，以减轻降级。具体来说，当 LLL 模型训练新任务时，我们会指派一个教师模型来先学习新任务，并通过知识蒸馏将知识传递给LLL 模型。因此，LLL 模型可以更好地适应新任务，同时保留先前学到的知识。实验表明，所提出的L2KD 始终改善了先前的最新模型，并且与LLL 任务中的多任务模型相比，序列生成和文本分类任务的降级得到了很好的缓解。 models. The target unit for considering the errors Algorithm 1 L2KD: Lifelong Language Knowl- can be done in the word level or the sequence level. edge Distillation Input: current task dataset , teacher model with param- Word-Level (Word-KD) We minimize the eters , knowledge distillation loss function KD , pseudo- cross-entropy between the output distributions data sample rate . from student and teacher models when predicting Output: LLL model parameters . Optimize teacher model on to get parameters . the next word: Sample pseudo-data from to form prev . for all training samples do Word-KD for to do update to minimize KD end for Sample samples prev from prev for to do update to minimize NLL prev