Gabor数据分析:第一章卡在代码中:如何设置目录

问题描述 投票:0回答:1

亲爱的 Stackoverflow 社区,

我正在尝试使用教科书“Békés,Gábor。商业、经济和政策的数据分析”(https://gabors-data-analysis.com/) 自学 R 和数据分析,并且我使用维也纳酒店数据集(https://osf.io/y6jvb)陷入以下代码中。

---我确实有一些 R 经验,但由于我的基础知识很薄弱,所以我从头开始重新自学,并且确实需要您逐步指导如何计算下面的代码。

教科书的实际问题: 以本章中使用的hotels-vienna数据集为例,使用计算机选取大小为25、50和200的样本。计算每个样本中酒店价格的简单平均值,并将其与整个数据集中的酒店价格进行比较。重复此练习三次并记录结果。评论不同大小样本的平均值如何变化。

数据集:https://osf.io/y6jvb

代码

清除内存

rm(list=ls())

安装.packages(“tidyverse”)

library(tidyverse)

#------------------------------------------------ -------------------------------------------------- --

设置工作目录

选项 A:将材料作为项目打开

选项 B:为 da_case_studies 设置工作目录

示例:setwd(“C:/Users/bekes.gabor/Documents/github/da_case_studies/”)

设置数据目录,加载主题和功能

`setwd("C:/Users/sha/Desktop/R/intro/data/da_case_studies/")
source("ch00-tech-prep/theme_bg.R")source("ch00-tech-prep/da_helper_functions.R")`

如果源代码无法运行,请安装以下软件包:

#install.packages(“urca”) #install.packages(“观星者”)


我不知道如何做 data_dir 并获取 set-data-directory.R (有关如何设置计算机的链接 https://gabors-data-analysis.com/howto-r/

使用的数据

`source("set-data-directory.R") #data_dir must be first defined #data_in <- paste(data_dir,"hotels-vienna","clean/", sep = "/")
use_case_dir <- "ch01-hotels-data-collect/"data_out <- use_case_diroutput <- paste0(use_case_dir,"output/")create_output_if_doesnt_exist(output)`

加载干净整洁的数据并创建工作文件

df <-  read.csv(paste0(data_in,"hotels-vienna.csv"))

或从网站

df<- read_csv("https://osf.io/y6jvb/download")

##############################################

第一眼

##############################################

df <- df%>%
  select(hotel_id, accommodation_type, country, city, city_actual, neighbourhood, center1label, distance,center2label, distance_alter, stars, rating, rating_count, ratingta, ratingta_count, year, month,weekend, holiday, nnights, price, scarce_room, offer, offer_cat)
summary(df)glimpse(df)

导出列表

df <- subset(df, select = c(hotel_id, accommodation_type, country, city, city_actual, center1label, distance, stars, rating, price)) write.csv(df[1:5,], paste0(output, "hotel_listobs.csv"), row.names = F)

################################################## #######################################

我尝试过的:

################################################## #####################################`

rm(list=ls())library(tidyverse)
install.packages("renv")renv::restore()
setwd("C:/Users/sha03/Desktop/R/intro/data/da_case_studies/")
source("theme_bg.R")source("da_helper_functions.R")
read.csv('C:/Users/sha03/Desktop/R/intro/data/da_case_studies/hotels-vienna.csv')
summary(df)summary(df)     
glimpse(df)

我似乎无法得到我应该得到的答案。这是

https://github.com/gabors-data-analysis/da_case_studies/blob/master/ch01-hotels-data-collect/ch01-hotels-data-collect.ipynb请帮忙。

r statistics data-analysis summary
1个回答
0
投票

尝试一下。它不会给你想要的答案,但是嘿,至少你得到了汇总统计数据。祝你好运,弄清楚其他事情。

setwd("C:/Users/tf/Desktop/R/data/da_case_studies/") 
df <- read.csv('C:/Users/tf/Desktop/R/data/hotels-vienna.csv')

    summary(df)

    hotel_id     accommodation_type   country              city           city_actual        center1label      
 Min.   :21894   Length:428         Length:428         Length:428         Length:428         Length:428        
 1st Qu.:22028   Class :character   Class :character   Class :character   Class :character   Class :character  
 Median :22156   Mode  :character   Mode  :character   Mode  :character   Mode  :character   Mode  :character  
 Mean   :22154                                                                                                 
 3rd Qu.:22279                                                                                                 
 Max.   :22409                                                                                                 
                                                                                                               
    distance          stars           rating          price       
 Min.   : 0.000   Min.   :1.000   Min.   :1.000   Min.   :  27.0  
 1st Qu.: 0.700   1st Qu.:3.000   1st Qu.:3.700   1st Qu.:  83.0  
 Median : 1.300   Median :3.500   Median :4.000   Median : 109.5  
 Mean   : 1.659   Mean   :3.435   Mean   :3.971   Mean   : 131.4  
 3rd Qu.: 2.000   3rd Qu.:4.000   3rd Qu.:4.400   3rd Qu.: 146.0  
 Max.   :13.000   Max.   :5.000   Max.   :5.000   Max.   :1012.0  
                                  NA's   :35                      
glimpse()
© www.soinside.com 2019 - 2024. All rights reserved.