categorical-data 相关问题

统计数据类型,其值是固定数量的名义类别之一。

Pandas - 用 numpy 数组替换分类文本以进行机器学习

我有一个文件: 数据 = pd.read('data.csv') 该文件包含有关数字用户的分类文本数据,例如:(来源 = 'google'、'facebook'、'twitter')和(国家 = 'US'、'FR'、'GER')。 ...

回答 2 投票 0

在 pandas 中重新编码分类变量,每列都有不同的映射

我有一个分类数据的数据框,我想重新编码。 每列都有其单独的重新编码值字典。 下面是我迄今为止所拥有的代码的玩具示例: 进口熊猫...

回答 1 投票 0

测试和训练数据有不同的城市,如何查找差异并在测试和训练数据的两列上使用相同的编码系统进行编码

我有一个测试集和训练集。他们有一个城市列,其中一个(火车)有 290 个唯一的,而测试有 30 个。我希望有重叠,即伦敦、布里斯托尔都在两组中,但格洛斯特可能......

回答 2 投票 0

每个示例使用多个类别对分类特征进行编码

我正在研究一个数据集,该数据集的一个特征是单个示例具有多个类别。 该功能如下所示:- 特征 0 [类别 1、类别 2、类别...

回答 4 投票 0

处理不平衡分类数据的模型

我正在尝试创建出生缺陷数据的分类模型。目标是确定哪些父亲变量与前 5 种出生缺陷最相关。目标变量 'd...

回答 1 投票 0

lavaan:输出分类变量

我们正在运行一个中介模型(SEM),以分类变量作为中介和结果。我们使用“WLSMV”估计器并按顺序定义分类变量。 有没有可能...

回答 1 投票 0

根据列表按列中的值对Python数据帧进行排序

我有一个 pandas 数据框,我试图根据列中的值进行排序,但排序不是按字母顺序排列的。排序基于“排序器”列表(即给出...

回答 1 投票 0

对 pd.pivot_table 中的旋转列进行排序

我有一个这样的数据框: 原始数据框 我打算对其进行调整,使 3 种类型的奖牌成为列,它们各自的计数和平均分数成为值。像这样:

回答 1 投票 0

当 n = r

我最近发现了这个答案,它提供了 Cramer V 的无偏版本的代码,用于计算两个分类变量的相关性: 将 scipy.stats 导入为 ss def cramers_ Corrected...

回答 1 投票 0

Python pandas 字符串处理来自 SQL 数据库的分类数据

我有一个大数据集,需要读入 pandas 数据框。 它包含大量由一些相当长的字符串组成的分类数据。 尝试使用 pandas read_sql_query 方法我无法...

回答 2 投票 0

您能在seaborn中突出显示分类散点图中的具体观察结果吗?

我有 8 个类别,并且我已经使用 sns.catplot 绘制了分类散点图。有没有办法突出显示每个类别中的特定观察结果,以比较相对于...的位置

回答 1 投票 0

将全局 P 值添加到逻辑回归和 cox 比例风险模型 - 使用哪些测试?这是沃尔德测试吗?

我被要求为我的多变量逻辑回归模型和多变量 cox 比例风险模型中的分类变量添加全局 p 值。 我用过这个功能

回答 2 投票 0

如何使用pandas的read_csv读取分类列?

我尝试使用 read_csv 作为 dtype={n: pandas.Categorical} 传递 dtype 参数,但这无法正常工作(结果是一个对象)。说明书不清楚。 可以读吗

回答 2 投票 0

更改分类变量的值 - PYTHON

我有一个如下所示的日期框: 城市_公司 主题 伦敦 卫生保健 西雅图 创业精神 哥本哈根 工程 墨尔本 法律 山顶风光 乙 布里斯班 C 旧金山 d 有洛...

回答 1 投票 0

处理 QY 数据:如何定义 QY 因素的水平

我有一个包含“年”、“季度”、“QY”列和许多数值变量的数据集。 #示例数据集 年 = c("2019", "2020", "2021", “2019”、“2020”……

回答 1 投票 0

catboost 有最大类别数吗?

我正在考虑尝试对大量类别进行建模。我读到 catboost 有一种算法可以将类别转换为有序浮点数以优化决策树分割。算法有吗...

回答 1 投票 0

如何绘制 X 轴上有两个分类变量(一个嵌套,但都可见)并用其他变量填充的条形图?

我有一个包含两个分类变量、区域和函数的数据集。共有92个区域,分为13个功能类别。除了这些属于功能性区域的区域...

回答 1 投票 0

如果列是最近一年,则从多个列返回值

我有一个包含变量的数据集 “年”(2014-2023), 'Landcover2013'(分类变量 1-4), '土地覆盖2015', '土地覆盖2017', '土地覆盖2019', '土地覆盖2021', 'Sub_landcover2013' (

回答 1 投票 0

根据包含多个其他变量的子句计算新变量

我有一个包含变量的数据集 “年”(2014-2023), 'Landcover2013'(分类变量 1-4), '土地覆盖2015', '土地覆盖2017', '土地覆盖2019', '土地覆盖2021', 'Sub_landcover2013' (

回答 1 投票 0

在 R 中对时间序列数据中的分类变量进行上采样

如果这是多余的,我深表歉意,但我尝试寻找解决方案,但没有找到任何似乎是我的问题的答案。所以,我有一堆变量的时间序列数据......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.