Quanteda Textstat_simil距离仅用于相邻文本

Question

有趣的问题。我没有可复制的示例，但是我想我可以使用内置的第一语言集数据集创建一个示例。在这里，我将文档变量Year用作时间变量，并将唯一的总裁（全名）姓名用作您的组织的类比（因为您不希望对不同组织进行年度比较。因此，如果将您的组织和时间变量替换为下面的变量应该起作用。

请注意，我将外部的“循环”设置为lapply，而内部的则为实际的循环，但是有一些巧妙的方法可以使内部的部分也变为lapply。为了简单起见，这里将其保留为for循环。

[首先，请使用唯一的名称，因为有些（不同的）总裁共享相同的姓氏。

library("quanteda")
## Package version: 2.0.1

data_corpus_inaugural$president <- paste(data_corpus_inaugural$President,
  data_corpus_inaugural$FirstName,
  sep = ", "
)
head(data_corpus_inaugural$president, 10)
##  [1] "Washington, George" "Washington, George" "Adams, John"       
##  [4] "Jefferson, Thomas"  "Jefferson, Thomas"  "Madison, James"    
##  [7] "Madison, James"     "Monroe, James"      "Monroe, James"     
## [10] "Adams, John Quincy"

simpairs <- lapply(unique(data_corpus_inaugural$president), function(x) {
  dfmat <- corpus_subset(data_corpus_inaugural, president == x) %>%
    dfm(remove_punct = TRUE)
  df <- data.frame()
  years <- sort(dfmat$Year)
  for (i in seq_along(years)[-length(years)]) {
    sim <- textstat_simil(
      dfm_subset(dfmat, Year %in% c(years[i], years[i + 1])),
      method = "jaccard"
    )
    df <- rbind(df, as.data.frame(sim))
  }
  df
})
现在，当我们加入他们时，您可以看到我们只计算了我们需要的。

Answer 1

有趣的问题。我没有可复制的示例，但是我想我可以使用内置的第一语言集数据集创建一个示例。在这里，我将文档变量Year用作时间变量，并将唯一的总裁（全名）姓名用作您的组织的类比（因为您不希望对不同组织进行年度比较。因此，如果将您的组织和时间变量替换为下面的变量应该起作用。

请注意，我将外部的“循环”设置为lapply，而内部的则为实际的循环，但是有一些巧妙的方法可以使内部的部分也变为lapply。为了简单起见，这里将其保留为for循环。

[首先，请使用唯一的名称，因为有些（不同的）总裁共享相同的姓氏。

library("quanteda")
## Package version: 2.0.1

data_corpus_inaugural$president <- paste(data_corpus_inaugural$President,
  data_corpus_inaugural$FirstName,
  sep = ", "
)
head(data_corpus_inaugural$president, 10)
##  [1] "Washington, George" "Washington, George" "Adams, John"       
##  [4] "Jefferson, Thomas"  "Jefferson, Thomas"  "Madison, James"    
##  [7] "Madison, James"     "Monroe, James"      "Monroe, James"     
## [10] "Adams, John Quincy"

simpairs <- lapply(unique(data_corpus_inaugural$president), function(x) {
  dfmat <- corpus_subset(data_corpus_inaugural, president == x) %>%
    dfm(remove_punct = TRUE)
  df <- data.frame()
  years <- sort(dfmat$Year)
  for (i in seq_along(years)[-length(years)]) {
    sim <- textstat_simil(
      dfm_subset(dfmat, Year %in% c(years[i], years[i + 1])),
      method = "jaccard"
    )
    df <- rbind(df, as.data.frame(sim))
  }
  df
})
现在，当我们加入他们时，您可以看到我们只计算了我们需要的。

Quanteda Textstat_simil距离仅用于相邻文本

问题描述投票：1回答：1

1个回答

最新问题

Quanteda Textstat_simil距离仅用于相邻文本

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1