为什么二进制对编码(BPE)不适用于二进制数据而只能适用于自然语言?

问题描述 投票:0回答:1

我知道 BPE 用于可以生成某种标记化和配对的句子,并使用备用字节来创建此类映射。为什么它在 BPE 上不起作用?

实际尝试执行 BPE 作为二进制数据压缩形式的最佳猜测/方法是什么?

nlp compression huggingface-transformers binary-data
1个回答
0
投票

我没有使用过二进制对编码,所以可能会感到困惑,但它看起来与霍夫曼编码非常相似。

字典的构造与霍夫曼代码类似。但霍夫曼代码不是使用字符来表示字典中的单词,而是根据单词重复的频率分配较短的“二进制值(0 或 1)”。最常见的单词被分配较短的二进制值 Huffman 代码已用于许多压缩算法中,例如

DEFLATE

JPEGMP3Brotli 等。

© www.soinside.com 2019 - 2024. All rights reserved.