从数据集中删除包含特殊字符的行

问题描述 投票:0回答:1
Amsterdam     Amsterdam-Zuidoost 
             14797                    167 
           Berlín                 Berlin 
                 0                  13641 
       Björkhagen         爱ä¸\u0081å ¡ 
                 0                      0 
      Берлин Ð\u0090мÑ\u0081тердам 
                 0                      0 
         Edinburgh Enskede-Årsta-Vantör 
              7920                      0 
         Fruängen             HÄGERSTEN 
                 0                      0 
        Hägersten Hägersten-Liljeholmen 
                 0                      0 
         Hässelby   Hässelby-Vällingby 
                 0                      0 
      Hökarängen        Hammarbyhöjden 
                 0                      0 
 ì—\u0090ë“ ë²„ëŸ¬           스톡홀름 
                 0                      0 
         Kärrtorp      Ladugårdsgärdet 
                 0                      0 
            Others             Södermalm 
                49                      0 
       Schöneberg            Skärholmen 
                 0                      0 
 Skarpnäcks Gård                Spånga 
                 0                      0 
    Spånga-Tensta              Stockholm 
                 0                    685 
            VÃ¥rby 
                 0 

'''

我已应用以下grepl函数来删除变量“城市”中包含特殊字符的行,但是当我使用摘要函数时,仍然可以看到它们。我希望这些值从我的数据集中消失,以便当我输入“ summary(housingdata)”时,仅包含“ Amsterdam”,“ Amsterdam-Zuidoost”,“ Berlin”,“ Edinburgh”,“ Others”和“斯德哥尔摩”将出现。

r special-characters delete-row mutate grepl
1个回答
0
投票

[如果您知道只想要某些城市,并且希望省去使用正则表达式的麻烦,则可以使用dplyr行过滤器

housingdata %>%
filter(cities %in% c("Amsterdam", "Amsterdam-Zuidoost", "Berlin", "Edinburgh", "Others", "Stockholm")

假设具有城市名称的列称为cities

否则,作为正则表达式的一般起点,我建议将您要匹配的一些匹配项复制到此Shiny Regex Testing App中,并确保正则表达式正确匹配。如果您仍然可以看到行,则您的正则表达式可能无法正常工作。

© www.soinside.com 2019 - 2024. All rights reserved.