data-science 相关问题

数据科学涉及以任何形式或形式从数据中提取知识或见解。它可以包含预测分析,通常需要进行大量的数据争论。请考虑在https://datascience.stackexchange.com/上发帖

使用Python优化大数据集中的用户名匿名化

我正在开发一个项目,需要对包含 510,718 个帖子的数据集中的用户名进行匿名化。该数据集包括 19,346 个唯一用户名。我的目标是替换所有出现的用户名...

回答 1 投票 0

Jupyter Notebook 未使用 pandas 分析呈现报告

(https://i.stack.imgur.com/1YpBw.png) 我在使用 Pandas Profiling 库生成报告时遇到问题。 我已经卸载并在新创建的环境中再次安装了该库...

回答 1 投票 0

为什么我会收到张量流安装错误

我正在尝试安装 TensorFlow,但似乎无法通过此错误进行任何操作,但我已经超过了使用“y”接受安装的级别 有人可以告诉我该怎么做吗

回答 1 投票 0

从 URL 中提取参数

我首先要说的是,我不知道如何使用 gsub,而且我无法理解 chatgpt 下面给我的代码,该代码可以工作,但它提取了错误的 url 参数。 示例网址:...

回答 1 投票 0

如何使用pandas将非结构化数据转换为结构化数据

我有一堆巨大的传感器数据,在Excel文件中,数据看起来像json格式(不完全是)需要解析数据我不知道数据看起来像这样 FM4 [

回答 1 投票 0

决定如何缩放数据以及使用哪个缩放器?

我正在尝试在 keras 中训练具有两个密集层的 MLP 模型,以对大约 100 个单变量时间序列的小数据集进行预测。该模型应获取 6 天的值并预测...

回答 3 投票 0

Pyspark:用最后一个值向前填充空值

我有一个与此类似的数据框: 值 = [ (“2019-10-01”,“004”,1.0), (“2019-10-02”,“005”,无), (“2019-10-03”、“004”、...

回答 2 投票 0

机器学习:以连续数组作为输入、标量分类变量作为输出的分类技术

如果您对以下内容有任何想法,那就太好了。 假设对于给定的数据集:T 和 Y 是数组,其中 T = [0 1 2 3 5 6 7] Y= [4 7 9 3 6 1] 因此,在 T=0、Y=4 处,依此类推 Z = [Red ] 与...

回答 1 投票 0

如何使用 Q1、Q2、Q3、最小/最大信息从头开始创建箱线图

我有一个分布,但它是差分私有的 - 这意味着我无法访问各个点本身或将分布本身传递给 plt.boxplot 或 sns.boxplot。 我唯一拥有的东西...

回答 1 投票 0

Kaggle 数据集 - 字母和数字含义

我在 Kaggle 上发现了一些数据。 https://www.itl.nist.gov/div898/strd/nls/data/LINKS/DATA/MGH09.dat 我正在尝试通过复制和粘贴将其插入到 Excel 中。字母和数字代表什么...

回答 2 投票 0

是否可以自动化数据挖掘过程以自动生成见解

我是一名前端开发人员,负责数据洞察(救命!)大家好! 我是一名应届毕业生,从事前端开发工作。这是我第一份真正的工作,我有点陷入困境了!我的第一个...

回答 1 投票 0

数据分析:映射和纠正列中拼写错误的问题

我是新来的,所以如果我问问题很糟糕,我很抱歉。 我一直在审查 jupyter 上的一个项目的数据,我希望映射一些数据 以适应公司的特定类别。 最后,我

回答 1 投票 0

当我尝试在 pandas 版本 2.0.3 中查找平均值时出错

df.mean() 我面临以下错误: ValueError:无法将字符串转换为浮点数 为了解决这个问题我使用: df.describe().mean() 这个问题的原因是什么?

回答 2 投票 0

根据一列中的字符串值创建多个新列[重复]

我想编写一个Python代码,在其中我可以根据各行中用逗号分隔的一些字符串值在数据框中创建新的多列。 输入: 我期望输出如下: ...

回答 1 投票 0

无法使用此代码从文章中提取信息

这段代码应该从不同的文章链接中提取标题和正文,但由于没有找到任何标题或文本,它只是跳过了网址 # 网页抓取和数据处理 对于范围内的 i(2, ws.

回答 1 投票 0

类型错误:当我创建“图例”时,“列表”对象不可调用

plt.figure(figsize=(10,6)) plt.scatter(df.age[df.target==1], df.thalach[df.target==1], 颜色=“鲑鱼”) plt.scatter(df.age[df.target==0], df.thalach[df.ta...

回答 2 投票 0

使用 ggplot 在一个月内绘制三个不同值的最佳方法

我有一些来自名为monthly_totals 的数据框的数据,如下所示: 月 数量_已售出 净销售额 全科医生 一月 67 78英镑 68英镑 二月 45 850英镑 600英镑 行进 23 300.60 英镑 250英镑 四月 67 700.50 英镑 ...

回答 1 投票 0

Sagemaker studio 无法加载

Sagemaker Studio 在前 6 个月里为我完美工作。然后我就开始观察这个问题。错误消息的屏幕截图 屏幕永远保持在这个阶段。这就是我所拥有的...

回答 2 投票 0

如何改进回归模型以将噪声数据与真实曲线匹配?

我遇到了回归问题。如图所示,橙色线是真实情况,蓝色散点是我的数据。数据的整体趋势与真实情况相符,但有很多...

回答 1 投票 0

如何在sqlmesh中编写source.yml来从Snowflake导入表?

我正在尝试在 sqlmesh 上运行模型,就像在 dbt 中一样,但我发现了一些问题。首先,我不知道 sqlmesh 中的 source.yml 的语法是什么。我在 dbt 上找到了示例,但没有找到 sqlm 的示例...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.