我知道 BPE 用于可以生成某种标记化和配对的句子,并使用备用字节来创建此类映射。为什么它在 BPE 上不起作用?
实际尝试执行 BPE 作为二进制数据压缩形式的最佳猜测/方法是什么?
我没有使用过二进制对编码,所以可能会感到困惑,但它看起来与霍夫曼编码非常相似。
字典的构造与霍夫曼代码类似。但霍夫曼代码不是使用字符来表示字典中的单词,而是根据单词重复的频率分配较短的“二进制值(0 或 1)”。最常见的单词被分配较短的二进制值。 Huffman 代码已用于许多压缩算法中,例如
、JPEG、MP3、Brotli 等。