如何修复已被错误的字节计数长度破坏的序列化字符串？

Question

我使用Hotaru CMS和图像上传插件，如果我尝试将图像附加到帖子，我会收到此错误，否则没有错误：

unserialize（）[function.unserialize]：偏移时出错

违规代码（错误指向**）：

/**
     * Retrieve submission step data
     *
     * @param $key - empty when setting
     * @return bool
     */
    public function loadSubmitData($h, $key = '')
    {
        // delete everything in this table older than 30 minutes:
        $this->deleteTempData($h->db);

        if (!$key) { return false; }

        $cleanKey = preg_replace('/[^a-z0-9]+/','',$key);
        if (strcmp($key,$cleanKey) != 0) {
            return false;
        } else {
            $sql = "SELECT tempdata_value FROM " . TABLE_TEMPDATA . " WHERE tempdata_key = %s ORDER BY tempdata_updatedts DESC LIMIT 1";
            $submitted_data = $h->db->get_var($h->db->prepare($sql, $key));
            **if ($submitted_data) { return unserialize($submitted_data); } else { return false; }** 
        }
    }

表中的数据，注意结束位有图像信息，我不是PHP的专家，所以我想知道你们/ gals可能会怎么想？

tempdata_value：

a:10:{s:16:"submit_editorial";b:0;s:15:"submit_orig_url";s:13:"www.bbc.co.uk";s:12:"submit_title";s:14:"No title found";s:14:"submit_content";s:12:"dnfsdkfjdfdf";s:15:"submit_category";i:2;s:11:"submit_tags";s:3:"bbc";s:9:"submit_id";b:0;s:16:"submit_subscribe";i:0;s:15:"submit_comments";s:4:"open";s:5:"image";s:19:"C:fakepath100.jpg";}

编辑：我想我已找到序列化位...

/**
     * Save submission step data
     *
     * @return bool
     */
    public function saveSubmitData($h)
    {
        // delete everything in this table older than 30 minutes:
        $this->deleteTempData($h->db);

        $sid = preg_replace('/[^a-z0-9]+/i', '', session_id());
        $key = md5(microtime() . $sid . rand());
        $sql = "INSERT INTO " . TABLE_TEMPDATA . " (tempdata_key, tempdata_value, tempdata_updateby) VALUES (%s,%s, %d)";
        $h->db->query($h->db->prepare($sql, $key, serialize($h->vars['submitted_data']), $h->currentUser->id));
        return $key;
    }

Answer 1

由于长度无效，unserialize() [function.unserialize]: Error at offset是invalid serialization data的会费

快速解决

你能做的是序列化数组中元素的recalculating the length

您当前的序列化数据

$data = 'a:10:{s:16:"submit_editorial";b:0;s:15:"submit_orig_url";s:13:"www.bbc.co.uk";s:12:"submit_title";s:14:"No title found";s:14:"submit_content";s:12:"dnfsdkfjdfdf";s:15:"submit_category";i:2;s:11:"submit_tags";s:3:"bbc";s:9:"submit_id";b:0;s:16:"submit_subscribe";i:0;s:15:"submit_comments";s:4:"open";s:5:"image";s:19:"C:fakepath100.jpg";}';

没有重新计算的示例

var_dump(unserialize($data));

产量

Notice: unserialize() [function.unserialize]: Error at offset 337 of 338 bytes

重新计算

$data = preg_replace('!s:(\d+):"(.*?)";!e', "'s:'.strlen('$2').':\"$2\";'", $data);
var_dump(unserialize($data));

产量

array
  'submit_editorial' => boolean false
  'submit_orig_url' => string 'www.bbc.co.uk' (length=13)
  'submit_title' => string 'No title found' (length=14)
  'submit_content' => string 'dnfsdkfjdfdf' (length=12)
  'submit_category' => int 2
  'submit_tags' => string 'bbc' (length=3)
  'submit_id' => boolean false
  'submit_subscribe' => int 0
  'submit_comments' => string 'open' (length=4)
  'image' => string 'C:fakepath100.jpg' (length=17)

以下基于正则表达式的替换仅在补救字节计数方面有效，仅此而已。

看起来很多早期的帖子只是从别人那里复制粘贴一个正则表达式模式。如果不在替换中使用，则没有理由捕获可能损坏的字节计数。此外，如果字符串值包含换行符/换行符，则添加19模式修饰符是合理的包含。

*对于那些不了解序列化处理多字节字符的人，你不能在自定义回调中使用17，因为它是存储的字节数而不是字符数，请参阅我的输出...

代码：（s）（mb_strlen()）（Demo with OP's data）

Demo with arbitrary sample data

输出：

Demo with condition replacing

兔子洞下方的一条腿...即使双引号出现在字符串值中，上面的工作也很好，但是如果一个字符串值包含$corrupted = <<<STRING a:4:{i:0;s:3:"three";i:1;s:5:"five";i:2;s:2:"newline1 newline2";i:3;s:6:"garçon";} STRING; $repaired = preg_replace_callback( '/s:\d+:"(.*?)";/s', // ^^^- matched/consumed but not captured because not used in replacement function ($m) { return "s:" . strlen($m[1]) . ":\"{$m[1]}\";"; }, $corrupted ); echo $corrupted , "\n" , $repaired; echo "\n---\n"; var_export(unserialize($repaired));或其他一些令人讨厌的sbustring，你需要更进一步并实现“lookarounds” 。我的新模式

检查领先的a:4:{i:0;s:3:"three";i:1;s:5:"five";i:2;s:2:"newline1 Newline2";i:3;s:6:"garçon";} a:4:{i:0;s:5:"three";i:1;s:4:"five";i:2;s:17:"newline1 Newline2";i:3;s:7:"garçon";} --- array ( 0 => 'three', 1 => 'five', 2 => 'newline1 Newline2', 3 => 'garçon', )是：

整个输入字符串的开头或
之前是";

并检查s是：

在整个输入字符串的末尾或
其次是;或
后跟一个字符串或整数声明";或}

我没有测试每一种可能性;事实上，我对序列化字符串中的所有可能性相对不熟悉，因为我从不选择使用序列化数据 - 在现代应用程序中总是使用json。如果还有其他可能的前导或尾随字符，请留下评论，我会扩展外观。

扩展片段：（s:）

i:

输出：

Demo

Answer 7

$corrupted_byte_counts = <<<STRING a:12:{i:0;s:3:"three";i:1;s:5:"five";i:2;s:2:"newline1 newline2";i:3;s:6:"garçon";i:4;s:111:"double " quote \"escaped";i:5;s:1:"a,comma";i:6;s:9:"a:colon";i:7;s:0:"single 'quote";i:8;s:999:"semi;colon";s:5:"assoc";s:3:"yes";i:9;s:1:"monkey";wrenching doublequote-semicolon";s:3:"s:";s:9:"val s: val";} STRING; $repaired = preg_replace_callback( '/(?<=^|;)s:\d+:"(.*?)";(?=$|}|[si]:)/s', //^^^^^^^^--------------^^^^^^^^^^^^^-- some additional validation function ($m) { return 's:' . strlen($m[1]) . ":\"{$m[1]}\";"; }, $corrupted_byte_counts ); echo "corrupted serialized array:\n$corrupted_byte_counts"; echo "\n---\n"; echo "repaired serialized array:\n$repaired"; echo "\n---\n"; print_r(unserialize($repaired));用于修复损坏的序列化字符串。

我想补充一点，这主要是由于在数据库上进行搜索和替换以及序列化数据（特别是corrupted serialized array: a:12:{i:0;s:3:"three";i:1;s:5:"five";i:2;s:2:"newline1 newline2";i:3;s:6:"garçon";i:4;s:111:"double " quote \"escaped";i:5;s:1:"a,comma";i:6;s:9:"a:colon";i:7;s:0:"single 'quote";i:8;s:999:"semi;colon";s:5:"assoc";s:3:"yes";i:9;s:1:"monkey";wrenching doublequote-semicolon";s:3:"s:";s:9:"val s: val";} --- repaired serialized array: a:12:{i:0;s:5:"three";i:1;s:4:"five";i:2;s:17:"newline1 newline2";i:3;s:7:"garçon";i:4;s:24:"double " quote \"escaped";i:5;s:7:"a,comma";i:6;s:7:"a:colon";i:7;s:13:"single 'quote";i:8;s:10:"semi;colon";s:5:"assoc";s:3:"yes";i:9;s:39:"monkey";wrenching doublequote-semicolon";s:2:"s:";s:10:"val s: val";} --- Array ( [0] => three [1] => five [2] => newline1 newline2 [3] => garçon [4] => double " quote \"escaped [5] => a,comma [6] => a:colon [7] => single 'quote [8] => semi;colon [assoc] => yes [9] => monkey";wrenching doublequote-semicolon [s:] => val s: val )）没有根据替换进行更新而导致“损坏”。

尽管如此，上面的工具使用以下逻辑来修复序列化数据（Here is an Online Tool）。

key length

Answer 8

我没有足够的声誉来发表评论，所以我希望使用上述“正确”答案的人能够看到这一点：

从php 5.5开始，preg_replace（）中的/ e修饰符已被完全弃用，上面的preg_match将出错。 php文档建议在其位置使用preg_match_callback。

请找到以下解决方案作为上述提议的preg_match的替代方案。

function findSerializeError($data1) {
    echo "<pre>";
    $data2 = preg_replace ( '!s:(\d+):"(.*?)";!e', "'s:'.strlen('$2').':\"$2\";'",$data1 );
    $max = (strlen ( $data1 ) > strlen ( $data2 )) ? strlen ( $data1 ) : strlen ( $data2 );

    echo $data1 . PHP_EOL;
    echo $data2 . PHP_EOL;

    for($i = 0; $i < $max; $i ++) {

        if (@$data1 {$i} !== @$data2 {$i}) {

            echo "Diffrence ", @$data1 {$i}, " != ", @$data2 {$i}, PHP_EOL;
            echo "\t-> ORD number ", ord ( @$data1 {$i} ), " != ", ord ( @$data2 {$i} ), PHP_EOL;
            echo "\t-> Line Number = $i" . PHP_EOL;

            $start = ($i - 20);
            $start = ($start < 0) ? 0 : $start;
            $length = 40;

            $point = $max - $i;
            if ($point < 20) {
                $rlength = 1;
                $rpoint = - $point;
            } else {
                $rpoint = $length - 20;
                $rlength = 1;
            }

            echo "\t-> Section Data1  = ", substr_replace ( substr ( $data1, $start, $length ), "<b style=\"color:green\">{$data1 {$i}}</b>", $rpoint, $rlength ), PHP_EOL;
            echo "\t-> Section Data2  = ", substr_replace ( substr ( $data2, $start, $length ), "<b style=\"color:red\">{$data2 {$i}}</b>", $rpoint, $rlength ), PHP_EOL;
        }

    }

}

Answer 9

$toDatabse = base64_encode(serialize($data)); // Save to database $fromDatabase = unserialize(base64_decode($data)); //Getting Save Format失败的另一个原因是因为您不正确地将序列化数据放入数据库，请参阅$fixed_data = preg_replace_callback ( '!s:(\d+):"(.*?)";!', function($match) { return ($match[1] == strlen($match[2])) ? $match[0] : 's:' . strlen($match[2]) . ':"' . $match[2] . '";'; },$bad_data );。由于unserialize()返回二进制数据并且php变量不关心编码方法，因此将其放入TEXT，VARCHAR（）将导致此错误。

解决方案：将序列化数据存储到表中的BLOB中。

Answer 10

快速解决

重新计算序列化数组中元素的长度 - 但不使用（preg_replace）它已被弃用 - 更好地使用preg_replace_callback：

Official Explanation

编辑：新版本现在不仅错误的长度，但它也修复了换行符并使用aczent计算正确的字符（感谢serialize()）

$data = preg_replace_callback('!s:(\d+):"(.*?)";!', function($m) { return 's:'.mb_strlen($m[2]).':"'.$m[2].'";'; }, $data);

Answer 11

导致此错误的原因是您的charset错误。

打开标签后设置charset：

mickmackusa

并在您的数据库中设置charset utf8：

// New Version
$data = preg_replace_callback('!s:\d+:"(.*?)";!s', function($m) { return "s:" . strlen($m[1]) . ':"'.$m[1].'";'; }, $data);

Answer 12

您可以使用以下函数修复损坏的序列化字符串，并使用多字节字符处理。

header('Content-Type: text/html; charset=utf-8');

Answer 13

public function unserializeKeySkills（$ string）{

mysql_query("SET NAMES 'utf8'");

Answer 14

function repairSerializeString($value)
{

    $regex = '/s:([0-9]+):"(.*?)"/';

    return preg_replace_callback(
        $regex, function($match) {
            return "s:".mb_strlen($match[2]).":\"".$match[2]."\""; 
        },
        $value
    );
}

您无法使用建议的正则表达式修复损坏的序列化字符串：

    $output = array();
    $string = trim(preg_replace('/\s\s+/', ' ',$string));
    $string = preg_replace_callback('!s:(\d+):"(.*?)";!', function($m) { return 's:'.strlen($m[2]).':"'.$m[2].'";'; }, utf8_encode( trim(preg_replace('/\s\s+/', ' ',$string)) ));
    try {
        $output =  unserialize($string);
    } catch (\Exception $e) {
        \Log::error("unserialize Data : " .print_r($string,true));
    }
    return $output;
}

您可以使用以下正则表达式修复损坏的序列化字符串：

$badData = 'a:2:{i:0;s:16:"as:45:"d";
Is \n";i:1;s:19:"as:45:"d";
Is \r\n";}';

产量

$data = preg_replace('!s:(\d+):"(.*?)";!e', "'s:'.strlen('$2').':\"$2\";'", $badData);
var_dump(@unserialize($data)); // Output: bool(false)

// or

$data = preg_replace_callback(
    '/s:(\d+):"(.*?)";/',
    function($m){
        return 's:' . mb_strlen($m[2]) . ':"' . $m[2] . '";';
    },
    $badData
);
var_dump(@unserialize($data)); // Output: bool(false)

要么

$data = preg_replace_callback(
    '/(?<=^|\{|;)s:(\d+):\"(.*?)\";(?=[asbdiO]\:\d|N;|\}|$)/s',
    function($m){
        return 's:' . mb_strlen($m[2]) . ':"' . $m[2] . '";';
    },
    $badData
);

var_dump(@unserialize($data));

Answer 15

array(2) { [0] => string(17) "as:45:"d"; Is \n" [1] => string(19) "as:45:"d"; Is \r\n" }说它应该返回false并设置E_NOTICE

但由于您收到错误，因此错误报告设置为由E_NOTICE触发

这是一个修复程序，允许您检测由array(2) { [0] => string(16) "as:45:"d"; Is \n" [1] => string(18) "as:45:"d"; Is \r\n" }返回的false

official docs

您可能要考虑使用base64编码/解码

unserialize

如何修复已被错误的字节计数长度破坏的序列化字符串？

问题描述投票：85回答：14

14个回答

以下基于正则表达式的替换仅在补救字节计数方面有效，仅此而已。

最新问题

如何修复已被错误的字节计数长度破坏的序列化字符串？

问题描述 投票：85回答：14

14个回答

以下基于正则表达式的替换仅在补救字节计数方面有效，仅此而已。

最新问题

问题描述投票：85回答：14