scikit-learn 相关问题

scikit-learn是一个用于Python的机器学习库,它为数据分析和数据挖掘提供简单有效的工具,重点是机器学习。它可供所有人使用,并可在各种环境中重复使用。它建立在NumPy和SciPy之上。该项目是开源的,可商业使用(BSD许可证)。

如何使用 StandardScaler 正确缩放训练集、验证集和测试集?

有些文章说,如果只有训练集和测试集,我们首先需要使用 fit_transform() 来缩放训练集,然后只使用 Transform() 来缩放测试集,以防止数据泄漏...

回答 2 投票 0

如何存储 TfidfVectorizer 以供将来在 scikit-learn 中使用?

我有一个 TfidfVectorizer,它可以对文章集合进行矢量化,然后进行特征选择。 向量化器 = TfidfVectorizer() X_train = vectorizer.fit_transform(语料库) 选择器 = SelectKBest(chi2,...

回答 3 投票 0

如何在onnx(onnxruntime)上进行类似于sklearn的多重推理

我想使用 python 中的 onnxruntime 根据 onnx 模型的许多输入推断输出。一种方法是使用 for 循环,但这似乎是一种非常琐碎且缓慢的方法。有没有办法做到...

回答 3 投票 0

查找其他列的线性组合的列

我对统计和sklearn相当陌生,所以如果这是一个非常基本的问题,请原谅我。我有一个 m x n 矩阵(数千行,数百列),我正在尝试查找列......

回答 1 投票 0

数组列表的最近邻居

`我有一个像这样的数组列表(以x,y坐标表示): 坐标=数组([[ 300, 2300], [ 670, 2360], [ 400, 2300]]), 数组([[1500, 1960], [1620, 2200], [1505, 1975]]), ...

回答 1 投票 0

train_test_split中如何选择RandomState? [已关闭]

我理解数据分割中的随机状态参数每次改变都会导致不同的精度。因此,我的算法的性能随着每次运行而变化。为了我的大学

回答 2 投票 0

Pandas - 用 numpy 数组替换分类文本以进行机器学习

我有一个文件: 数据 = pd.read('data.csv') 该文件包含有关数字用户的分类文本数据,例如:(来源 = 'google'、'facebook'、'twitter')和(国家 = 'US'、'FR'、'GER')。 ...

回答 2 投票 0

手动计算TPR、FPR与通过ROC曲线的scikit-learn计算

因此,为 scikit-learn 函数 roc_curve 提供两个 True 和 False 值数组 fpr,tpr,阈值= roc_curve(self.real_values_discrete,self.predictions_discrete) 我收到这样的价值观...

回答 2 投票 0

如何生成像sklearn一样的API参考?

为了使我正在编写的Python包更易于使用,我正在考虑制作详细的API文档。 机器学习包 sklearn 的 API 参考是我试图模拟的。 S...

回答 1 投票 0

如何添加 .transform Nystroem 方法将新观测值投影到现有空间中? (Python 中的扩散图)

我正在从mapalign复制一些代码,用于使用sklearn api计算扩散图。 目前,没有 .transform 方法,所以我已经分叉了存储库,并且我正在尝试自己添加它,但是......

回答 1 投票 0

多标签计算类权重 - 不可哈希类型

使用 Keras、sklearn 等在我的神经网络中处理具有 13 种可能输出的多标签分类问题... 每个输出可以是一个数组,如 [0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1 ,0]....

回答 4 投票 0

如何在多元/3D 中实现核密度估计

我有类似以下 fromat 的数据集,我试图找出具有最佳带宽的内核密度估计。 数据 = np.array([[1, 4, 3], [2, .6, 1.2], [2, 1, 1.2], [2, 0.5, 1...

回答 1 投票 0

导入错误:无法从“sklearn.utils”导入名称“_get_column_indices”

尝试为 RandomOverSampler 导入 imblearn.over_sampling 时出现导入错误。我相信问题不在于我的代码,而在于库冲突,但我不确定。 导入

回答 1 投票 0

仅绘制时间序列中稳定的点并执行线性回归

我在一份帮助请求中提出了两个问题。所以我希望它不会让这里变得人满为患。 我花了相当长的时间来解决这个问题,但到目前为止还没有成功。我正在尝试绘制唯一的点...

回答 1 投票 0

Scikit-learn:preprocessing.scale() 与 preprocessing.StandardScalar()

我理解缩放意味着以平均值为中心(平均值= 0)并制作单位方差(方差= 1)。 但是,科学中的 preprocessing.scale(x) 和 preprocessing.StandardScalar() 有什么区别...

回答 3 投票 0

如何使用 if 条件将两个 scikit-learn 子模型组合成一个整体并将其保存到 pickle 文件中?

我使用 IF 条件训练了两个 scikit-learn 模型(2 个基于 X1 特征定义标准的结果训练集)。我怎样才能将这个 IF 条件与这 2 个经过训练的模型包装成一个

回答 1 投票 0

如何将两个具有 IF 逻辑条件的子 scikit-learn 模型包装成一个集成模型并将其保存到 pickle 文件中?

我使用 IF 条件训练了两个 scikit-learn 模型(2 个基于 X1 特征定义标准的结果训练集)。我怎样才能将这个 IF 条件与这 2 个经过训练的模型包装成一个

回答 1 投票 0

SK学习使用度量函数的不同方法

我想澄清一个困扰我的问题。 从 sklearn.metrics 导入 r2_score、mean_absolute_error、mean_squared_error 从 sklearn.ensemble 导入 RandomForestRegressor ### 其余的

回答 1 投票 0

GridSearchCV 返回的精度比默认值差

我正在使用 Kaggle 的心脏病预测数据集,并发现了一些奇怪的东西,但我找不到答案。 使用带有“liblinear”求解器的默认 Logistic 回归 (C = 1) 我...

回答 1 投票 0

如何在Python中使用kNN动态时间扭曲

我有一个带有两个标签(0 和 1)的时间序列数据集。我使用动态时间规整 (DTW) 作为相似性度量,使用 k 最近邻 (kNN) 进行分类,如这两篇文章中所述

回答 3 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.