数据科学涉及以任何形式或形式从数据中提取知识或见解。它可以包含预测分析,通常需要进行大量的数据争论。请考虑在https://datascience.stackexchange.com/上发帖
我可以从Jupyter Notebook运行Processing.org Python sketch并传递数据吗?
我正在寻找一种从Jupyter笔记本中运行“Processing in Python”脚本的方法,所以我安装了calysto_processing。然后我发现它想说Javascript但我想留在Python中。 ...
因此弹性网应该是岭回归(L2正则化)和套索(L1正则化)之间的混合。然而,似乎即使l1_ratio为0,我也得不到与岭相同的结果。 ...
我在整理一个过滤现有数据框的查询时遇到问题,以显示男性和女性相同的名字数。如果数字我们指定了一个女性的名字......
导入Dask数据帧会导致错误无法导入名称'is_datetime64tz_dtype'
我使用下面的命令在我的Jupyter笔记本中安装了Dask!pip install“dask [complete]”之后当我运行import命令import dask.dataframe作为dd我得到以下错误。 ...
我有一组包含50个特征(c1,c2,c3 ......)的数据,行数超过80k。每行包含标准化数值(范围0-1)。它实际上是一个标准化的虚拟变量,有些行...
我有一套很大的车辆“车速与发动机转速”值。我试着预测车辆在每个档位上花费的时间。我在数据集上运行了K-Means聚类,得到了以下内容......
如何从Pandas DataFrame开始绘制堆积时间直方图?
考虑以下DataFrame df:日期种类2018-09-01 13:15:32红色2018-09-02 16:13:26蓝色2018-09-04 22:10:09蓝色2018-09-04 09:55: 30红......
如何按时间值从CSV对数据帧进行分组,以便我可以计算每小时的频率?
这是我的数据集dataset_for_this_Question我想根据'时间'和'类型'对数据集进行分组,这样我就可以每小时获得'名称'的频率。 [每小时有多少种类型和什么......
2个数据帧与PySpark DataBricks中的计数的交集
我希望unique_ID匹配上的2个数据帧(列)的交集值,并且new_column-1中的存储交集值也获取new_column_3中的交集数据的计数。我给出的数据帧......
当我使用preProcess =“medianImpute”时,Caret会出现缺失值错误?
最近完成了Datacamp的课程“机器学习工具箱”我想应用我学到的东西:插入符号可以使用参数preProcess =“medianImpute”输入缺失的值如果我运行表(...
我正在尝试创建一个循环来分析时间序列数据,并在单独的pandas数据帧中平均每天“数据”。现在,如果我编制一些假的时间序列数据来实现...
我有一个数据帧ABC 1 2 3 2 3 4 3 8 7我想只采取C列中有3,4序列的行(在这种情况下 - 前两行)这样做的最佳方法是什么?
当我尝试naive-bayes-classifier形式https://github.com/muatik/naive-bayes-classifier我得到像错误
ModuleNotFoundError Traceback(最近一次调用最后一次) 在 ()3从functools导入运算符4导入reduce ----> 5 from ...
是否有一个可用于sklearn.Normalization的invert_transform方法
我有一个数据帧df定义如下:df = pd.DataFrame({'x1':np.random.randint(-100,100,1000).astype(float)})我使用了sklearn.preprocessing方法规范化如下:scaler = ...
我一直试图对R中的一些缺失值进行KNN估算,但是它已经在列中产生负值,其中不应该像年龄那样存在任何负值。(年龄确实......
如果dataframe中的另一列使用pandas匹配某个值,则从dataframe中的列中减去值
说我有两个矩阵原始和参考导入大熊猫作为pa打印“原始数据框”#创建一个数据框oldcols = {'col1':['a','a','b','b'],'col2' :['c','d','c','d'],'col3':[1,2,3,4]} a = ...
我在尝试将行转换为列然后只获取最新记录(使用时间戳)时遇到问题。这是我的数据集:下面是生成此数据集的代码:df
假设我们使用给定的数据集训练自组织映射(SOM)。将SOM的神经元聚类而不是原始数据点是否有意义?阅读后,这个疑问来到我身边......
R:如何从一个非常大的表中快速选择两列中的常用词或相同数字?
我有一个非常大的表(1,000,000 X 20)来处理并且需要以快速的方式完成。例如,我的表中有2列X2和X3:在此处输入图像描述X1 X2 ...
假设我有两个NumPy数组,a和b:a = np.array([[1,2,3],[2,3,4]])b = np.array([8,9])我想将相同的数组b附加到每一行(即添加多个...