http://www.iamlze.cn

Hugghuggingingce发布开源库Tokenizers

  1月14日消息,Huggingce近日新发布了一个开源库Tokenizers,用于自然语言处理(NLP)神经网络模型的超快速和通用标记化(即在模型输入张量中转换字符串)。其主要特点包括:在20秒内编码1GB;提供BPE/字节级-BPE/WordPiece/SentencePiece;计算详尽的输出集(偏移映射,hugginghugging注意蒙版,hugging特殊令牌蒙版...);用Rust和Python和node.js的绑定编写等。

原文标题:Hugghuggingingce发布开源库Tokenizers 网址:http://www.iamlze.cn/lvyoupindao/2020/0523/12833.html

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。