跳过 read.csv 中的一些行

Question

我有一个 csv 文件，我使用以下函数读取该文件：

csvData <- read.csv(file="pf.csv", colClasses=c(NA, NA,"NULL",NA,"NULL",NA,"NULL","NULL","NULL"))
dimnames(csvData)[[2]]<- c("portfolio", "date", "ticker", "quantity")

它读取该文件中的所有行。但我想跳过阅读中的一些行。如果

ticker

列的值为：

ABT

或

ADCT

，则不应读取该行。可以吗？

我的 csv 文件示例如下：

RUS1000,01/29/1999,21st Centy Ins Group,TW.Z,90130N10,72096,1527.534,0.01,21.188
RUS1000,01/29/1999,3com Corp,COMS,88553510,358764,16861.908,0.16,47.000
RUS1000,01/29/1999,3m Co,MMM,88579Y10,401346,31154.482,0.29,77.625
RUS1000,01/29/1999,A D C Telecommunicat,ADCT,00088630,135114,5379.226,0.05,39.813
RUS1000,01/29/1999,Abbott Labs,ABT,00282410,1517621,70474.523,0.66,46.438
RUS1000,02/26/1999,21st Centy Ins Group,TW.Z,90130N10,72096,1378.836,0.01,19.125
RUS1000,02/26/1999,3com Corp,COMS,88553510,358764,11278.644,0.11,31.438
RUS1000,02/26/1999,3m Co,MMM,88579Y10,402146,29783.938,0.29,74.063

Answer 1

可以使用 sqldf 包，使用

read.csv.sql

假设

sample.csv

的内容如下所示：

id,name,age
1,"a",23
2,"b",24
3,"c",23

现在只读取年龄 = 23 的行：

require(sqldf)

df <- read.csv.sql("sample.csv", "select * from file where age=23")

df
  id name age
1  1  "a"  23
2  3  "c"  23

可以选择必要的列：

df <- read.csv.sql("sample.csv", "select id, name from file where age=23")
df
  id name
1  1  "a"
2  3  "c"

Answer 2

最好按照评论中的建议稍后阅读全部内容和子集：

csvData [!csvData$ticker %in% c('ADCT','ABT'),]

编辑

您可以使用

fread

包中的

data.table

来更有效地读取文件。

library(read.table)
fread(file="pf.csv")

Answer 3

对我来说，sqldf 包的 read.csv.sql 乍一看看起来很棒。但是当我尝试使用它时，它无法处理“NULL”字符串。（其他人也发现了这一点。）不幸的是，它不支持所有 read.csv 功能。所以我必须自己写。我很惊讶没有一个好的包装。

fetchLines=function(inputFile,match,fixed=T,n=100,maxlines=100000){ #inputFile='simple.csv'; match='APPLE';
  message('reading:',inputFile)
  n=min(n,maxlines)
  con  <- base::file(inputFile, open = "r",encoding = "UTF-8-BOM")
  data=c(readLines(con, n = 1, warn = FALSE))
  while (length(oneLine <- readLines(con, n = n, warn = FALSE)) > 0) {
    grab=grep(match,oneLine,value=T,fixed=fixed)
    if(length(grab)>0){
      data=c(data,grab)
      if(length(data)>maxlines){
        warning("bailing out too many");
        return(data);
      }
      cat('.')
    }
  } 
  close(con)
  gc()
  cat("\n")
  data;
}

#To avoid: argument 'object' must deparse to a single character string
fdata=textConnection( fetchLines("datafile.csv",'\\bP58\\b',fixed=F,maxlines = 100000))
df<-read.csv(fdata,header=T,sep=",",na.strings = c('NULL',''),fileEncoding = "UTF-8-BOM",stringsAsFactors = F)

R textConnection：“参数‘object’必须解析为单个字符串”

Answer 4

您现在可以在

readr

包中执行此操作。

library(tidyverse)
csvData <- read_csv(file="pf.csv") %>%
 filter(!ticker-column %in% c('ABT','ADCT')

跳过 read.csv 中的一些行

问题描述投票：0回答：4

4个回答

最新问题

跳过 read.csv 中的一些行

问题描述 投票：0回答：4

4个回答

最新问题

问题描述投票：0回答：4