dataframe 相关问题

数据框是表格数据结构。通常,它包含数据,其中行是观察值,列是各种类型的变量。虽然“数据框架”或“数据框架”是这个概念用于多种语言的术语(R,Apache Spark,deedle,Maple,Python中的pandas库和Julia中的DataFrames库),“table”是用于的术语MATLAB和SQL。

PySpark 1.6.1 DataFrame.write.parquet作业没有完成

我有这个代码:data_frame.write.parquet('/ tmp / test','overwrite',partitionBy = None)这是它的架构:root | - A:string(nullable = true)| - timestamp:timestamp(可空的......

回答 1 投票 1

如何基于r数据帧中的多个列条件创建基于排名的列

我有一个包含3列的数据框,我想根据其他列中给出的值创建第4列。对于创建new_rank列,我们从1开始,作为所有用户的起点和...

回答 2 投票 2

比较两个不同表的列并替换字符串R中的特定单词

有人可以给我一个建议吗?我试着比较两列。一列是带有地址的字符串,另一列是带有国家/地区名称的表。但是有些国家的名字是英文的,我...

回答 2 投票 0

用pandas编写单个CSV标头

我正在将数据解析为列表并使用pandas来构建和写入CSV文件。首先,我的数据被带入一个集合,其中inv,name和date都是包含大量条目的列表。然后我用concat来......

回答 1 投票 1

如何计算基于另一列内容的方法?

我对R不太熟悉,我的df看起来像这样:df = data.frame(path = c(“A”,“A”,“A”,“B”,“B”),S1 = c (10,20,25,15,20),S2 = c(2,4,5,7,8))rownames(df)= c(“G1”,“G2”,“G3”,“G4”, “G5”)......

回答 2 投票 0

从每一行获取索引并与原始data.frame合并

我有以下data.frame user_id 1 2 3 4 5 6 7 8 9 1 54449024717783 0 0 1 0 0 0 0 0 0 2 117592134783793 0 0 0 0 0 1 0 0 0 3 187145545782493 0 0 1 ...

回答 6 投票 3

通过分隔项将列表类型列转换为长形式

我有一个表有两个感兴趣的列,如下所示:Status_id | hashtag 947306525726527488 | NEWYEARSEVEPARTY919 947306316959281153 | MakeItALifestyle 947306315952611330 | c(“Ejuice”,“......

回答 3 投票 4

pandas groupby和rolling_apply忽略了NaN

我有一个pandas数据帧,我想计算列的滚动平均值(在groupby子句之后)。但是,我想排除NaN。例如,如果groupby返回[2,NaN,1],结果......

回答 3 投票 8

将字符串转换为日期格式:DD-MMM-YYYY到Python中的日期时间[复制]

我有一个pandas数据框,其中的列包含如下字符串01-May-2012 16:44:55.113 01-Jun-2012 18:49:57.466 01-May-2012 14:64:45.119 01-May-2012 14:23 :55.113我要转换......

回答 1 投票 0

根据r中列的值添加遗漏值

这是我的样本数据集:vector1

回答 3 投票 2

将pandas数据帧转换为另一种布局

我有一个如下所示的数据框:column1 column2 column3 0 A 0.020 0.76 1 B 0.045 1.30 2 C 0.230 0.32 3 D 0.130 0.67我想......

回答 2 投票 3

熊猫:将IP解决到国家的最快方式

我有一个函数find_country_from_connection_ip,它接受一个ip,并在一些处理后返回一个国家。如下所示:def find_country_from_connection_ip(ip):#做一些处理......

回答 3 投票 3

将数据拆分为具有最少数量的NA的时间段

我需要将我的数据分成3个不同的时间段,但我希望以每个Y的间隙数最少(缺少数据)的方式进行。这是我的数据:数据

回答 1 投票 1

根据会话随机分配治疗虚拟变量

我想分配一个名为“sender”的虚拟变量,但是,我想在每个会话中随机进行,而不是整个实验。假设我有180名学生的数据。每次会议......

回答 2 投票 2

组的行块在R中的数据帧中的每个块应用不同的减法(不是函数)

我是R的新手,但我想知道是否有办法应用特定的计算(不是函数)来分隔数据框中的行块。在我的例子中,我有以下数据框...

回答 1 投票 1

按组格式化数据框输出到JSON记录

我的数据框看起来像这样df:count_arena_users count_users事件时间戳0 4458 12499足球2017-04-30 1 ...

回答 1 投票 0

熊猫 - 地图 - 虚拟变量 - 赋值1

我有两个数据帧,x.head()看起来像这样:top mid adc支持丛林Irelia Ahri Jinx Janna RekSai Gnar Ahri Caitlyn Leona Rengar Renekton Fizz ......

回答 3 投票 1

有什么更快的方法来匹配数据框中的行并删除不匹配的行?

我有一个包含时间,纬度,经度,海拔,速度的数据框,我正在使用它来减少基于公差的数据集以平滑纬度/经度对。它工作正常,但当我......

回答 1 投票 1

拆分pandas列前置实际列名称

>>> table1 col1 col2 row1 A A row2 B A row3 A B row4 B A我想只将上述数据框中的一列转换为......

回答 4 投票 0

Pandas DataFrame:列中的大多数数据都是'float',我想删除'str'这一行

wu = pd.DataFrame({'a':['hhh',2,3,4,5],'b':[1,2,np.nan,np.nan,5]}我想删除用'hhh'排,因为'a'中的所有数据都是数字。原始数据量很大。非常感谢。

回答 3 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.