将 strpos() 与多字节字符串一起使用时出现意外结果[重复]

Question

我有以下函数，可以将特殊重音字符（如 ă）转换为字符串中的 a-zA-Z 字符：

function tradu($sir){

        $sir_aux = $sir;

        $diacritice = array("ă"=>"a", "â"=>"a", "î"=>"i", "Î"=>"I", "ș"=>"s", "ş"=>"s", "ţ"=>"t", "ț"=>"t");

        for($i=0; $i<strlen($sir_aux); $i++){

            foreach($diacritice as $key=>$value){
                if($sir_aux[$i]==$key)
                    $sir_aux[$i]=$value;
            }
        }

        $sir_aux = strtr($sir, $diacritice);

        return $sir_aux;
    }

假设 a 是原始字符串，a_translated 是翻译后的字符串。

当我使用

strpos(a, string_to_find)

和
strpos(a_translated, string_to_find)
时，返回的值是不同的。我还检查了
strlen(a)
和
strlen(a_translate)
，它们给出了不同的结果。 为什么会出现这种情况？

我需要这个解释，因为我需要搜索带重音的字符串是否包含给定的普通字符串（不带重音），但我必须返回原始字符串中找到它的部分，即使它包含重音。

我尝试过的 我翻译原始字符串并找到 searched_string 开始的位置，然后我

substr(ORIGINAL_STRING, position)

。这是我注意到位置不对应的地方。

示例：原始字符串：Universitatea a fost înfiinşată în 2001 年提供... 搜索的字符串： infiintata 期望的结果：înfiinşată în 2001 pentru a oferi...

Answer 1

从

strpos

获得的位置不正确，因为您的原始字符串是多字节的，而

strpos

无法处理多字节字符串。尝试使用 mb_strpos 来代替。

尝试：

mb_strpos(a,string_to_find,0,'UTF-8');

和

mb_strpos(a_translated,string_to_find,0,'UTF-8');

你会看到他们有相同的结果。

请参阅此代码演示了 strpos（无法处理多字节字符串）和 mb_strpos 之间的区别：

$original_multibyte_string       = 'țată în  HERE';
$a_non_multibyte_str_same_length = '123456789HERE';
// HERE is on 10th (index 9 on array) character

echo 'strpos finds HERE in multibyte at: '.strpos($original_multibyte_string,'HERE').' '.'strpos finds HERE in non-multibyte at: '.strpos($a_non_multibyte_str_same_length,'HERE');
// OUTPUTS: strpos finds HERE in multibyte at: 12 strpos finds HERE in non-multibyte at: 9

echo "\n";
// now lets test the multibyte:

echo 'mb_strpos finds HERE in multibyte at: '.mb_strpos($original_multibyte_string,'HERE',0,'UTF-8').' '.'mb_strpos finds HERE in non-multibyte at: '.mb_strpos($a_non_multibyte_str_same_length,'HERE',0,'UTF-8');
// OUTPUTS: mb_strpos finds HERE in multibyte at: 9 mb_strpos finds HERE in non-multibyte at: 9

http://3v4l.org/ksYal

Answer 2

这是因为这些函数不支持UTF8字符。

a = 1 位编码 ă = 2 位编码

这就是答案！

将 strpos() 与多字节字符串一起使用时出现意外结果[重复]

问题描述投票：0回答：2

2个回答

最新问题

将 strpos() 与多字节字符串一起使用时出现意外结果[重复]

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2