无法使用javascript替换特殊的字符组合

问题描述 投票:3回答:4

我想从段落中删除所有字符“ا”的‍。我使用以下方法,但控制台说没有找到这种组合。请考虑这是波斯语单词,字符“ا”紧跟在‍之后,因为字符从右到左书写,字符“ا”之前的尾部证明它们连接在一起。

$(document).ready(function(){
   var htm=$("div").html();
   var shouldRemove="‍ا";
   if (htm.includes(shouldRemove)){
       console.log('found');
   }
   else{
       console.log('not found');
   }
})
body{font-size:26pt}
<script src="https://cdnjs.cloudflare.com/ajax/libs/jquery/3.3.1/jquery.min.js"></script>
<div>&zwj;احترام</div>
javascript html arabic farsi
4个回答
1
投票

而不是在HTML中搜索实体&zwj;,而是在code point +U200D节点(而不是其HTML)的文本值中搜索字符本身(div):

console.log("Found?", $("div").text().includes("\u200Dا"));
<script src="https://cdnjs.cloudflare.com/ajax/libs/jquery/3.3.1/jquery.min.js"></script>
<div>&zwj;احترام</div>

1
投票

一种方法是使用下面的方法将&zwj;ا转换为文本,并获取div的文本而不是其html,然后比较两个文本:

$(document).ready(function(){
   // get the text
   var div_txt = $("div").text();
   var shouldRemove = "&zwj;ا";
   // put it as html in a span, then get it as text
   var rem_txt = $("<span>").html(shouldRemove).text();
   if (div_txt.includes(rem_txt)) {
       console.log('found');
   } else {
       console.log('not found');
   }
})
body {
    font-size:26pt
}
<script src="https://cdnjs.cloudflare.com/ajax/libs/jquery/3.3.1/jquery.min.js"></script>

<div>&zwj;احترام</div>

1
投票

这里的问题是,当从DOM读取HTML实体时,实体被解析,因此字符序列&zwj;变成单个字符ZERO WIDTH JOINER。

如果要在命令行上运行JavaScript,您的方法将起作用:

$ node
> s = '<div>&zwj;احترام</div>'
'<div>&zwj;احترام</div>'
> s.includes("&zwj;ا")
true

即使在浏览器中,如果您直接使用JavaScript控制台,也可以按照您的预期正常工作:

screen capture of JS console in browser

那么从DOM读取(在您的情况下,使用jQuery)有什么不同?要查看发生了什么,让我们检查字符串中的实际字符:

$(document).ready(function(){
   var htm=$("div").text();
   console.log(Array.from(htm));
   console.log(Array.from("&zwj;ا"));
})
<script src="https://cdnjs.cloudflare.com/ajax/libs/jquery/3.3.1/jquery.min.js"></script>
<div>&zwj;احترام</div>

这给出了:

Another cap

啊哈,所以jQuery正在解析HTML实体!因此,您要搜索的文本应该包含JavaScript zwj,而不是HTML。像这样指定:

$(document).ready(function(){
   var htm=$("div").html();
   var shouldRemove="\u{200d}ا";
   if (htm.includes(shouldRemove)){
       console.log('found');
   }
   else{
       console.log('not found');
   }
})
body{font-size:26pt}
<script src="https://cdnjs.cloudflare.com/ajax/libs/jquery/3.3.1/jquery.min.js"></script>
<div>&zwj;احترام</div>

现在它输出true

所以RTL(文本方向)都很好!事实证明,这只是HTML实体何时被解析的问题。 :)


0
投票

如果您在控制台上记录您的htm变量,它将o / p为:احترام,这就是为什么当您尝试使用“ا”搜索它时,它会输出为“未找到”。请尝试以下方法:

$(document).ready(function(){
   var htm=$("div").html();
   var shouldRemove="ا";
   if (htm.includes(shouldRemove)){
       console.log('found');
   }
   else{
       console.log('not found');
   }
})
body{font-size:26pt}
<script src="https://cdnjs.cloudflare.com/ajax/libs/jquery/3.3.1/jquery.min.js"></script>
<div>&zwj;احترام</div>
© www.soinside.com 2019 - 2024. All rights reserved.