数据科学涉及以任何形式或形式从数据中提取知识或见解。它可以包含预测分析,通常需要进行大量的数据争论。请考虑在https://datascience.stackexchange.com/上发帖
将Excel文件转换为Dataframe,然后转换为Excel
我有一个高级格式的Excel文件,任务是读取Excel文件并使用Python将其转换为简单的Excel格式。我尝试过 Pandas 库,但我很困惑......
我有一个数据集,其中有两个目的地以及它们之间的距离! 城市1 城市2 距离 101 102 56 102 103 34 103 104 6 105 106 15 106 107 9 107 108 90 我想准备一张桌子......
https://www.kaggle.com/datasets/akshaydattatraykhare/diabetes-dataset 我使用这个 Kaggle 数据集作为我的糖尿病数据集,并尝试创建一个 LogisticRegression 模型来预测结果。 我…
pandas 是否在数据帧达到一定大小后将一列列表转换为浮点数?
我尝试使用pandas来分析Ao3数据集。具体来说,我正在尝试追踪十大粉丝群体的增长。为此,我需要查看任何给定的作品是否拥有这十个粉丝群之一。 ...
我需要抓取此页面(https://www.cotodigital3.com.ar/sitios/cdigi/browse/catalogo-textil-indumentaria-ni%C3%B1os-remeras/_/N-1vjzjgf)。我将根据我需要的过滤器更改链接...
如何使用 DAX 在 power bi 中复制特定的 tableau 度量
我有一个关键问题,需要使用 DAX 在 power bi 中复制 tableau 度量。 这是表格测量: 表格测量= [工作时间] / 案例([国家]) 当“意大利”时 40 * 60 * ({FI...
根据大多数社交媒体平台,禁止从它们身上抓取数据(最近 X 宣布) 这是我的问题: 以科学研究为目的进行抓取是否违法(
我几个月前开始编程,了解一点Python和前端Web开发。 并从头开始学习 ai-ml,因此请建议最佳的学习资源。 我已经尝试过一些你...
我需要将已用时间转换为总秒数。我使用了三个函数,但没有成功。 第一个功能: ny["经过的时间"].time() AttributeError:“系列”对象没有属性“时间” 秒...
如何修复 OverflowError:int64 加法中溢出
我试图从 df['DOB'] 列中减去 df['date_of_admission'] 列,以找到两者之间的差异并将年龄值存储在 df['age'] 列中,但是,我收到此错误:
Python IDE、包/库和 shell 命令如何组合在一起?
我对python的实现很困惑。作为参考,我是一名数据分析师。基本上,IDE、包、库、pip install 和使用实际的 shell 命令如何协同工作?我有一个...
合并 100,000 个 csv 文件并在每次迭代中添加缺失的信息
我正在编写一个代码,它将大约 100,000 个文本文件组合在一起并添加丢失的数据。每次迭代调用 pandas df 都很慢,有更推荐的方法吗? 对于 os.walk 中的 root、dirs、文件(
我有两个包含足球运动员数据的表,我将从名称功能中合并它们,但是一个表具有“长名称”功能,另一个表具有“短名称”功能。例如,一名玩家的名字为“
我需要用python在google工作表中进行操作。我正在寻找一个可以帮助我完成这项任务的图书馆。 我找到了Gspread。但我需要知道图书馆是否会导致我的谷歌帐户产生费用......
多输出回归模型的 RMSE(使用 sklearnmean_squared_error)
我尝试了两种方法来获取多输出回归模型的 RMSE: #方法1 mean_squared_error(y_test, y_pred, 平方 = False) 和 #方法2 math.sqrt(mean_squared_error(y_test, y_pred))
ValueError:无法将字符串转换为浮点数:'F。罗伯逊'
我尝试创建逻辑回归,但收到这样的错误:“ValueError:无法将字符串转换为浮点数:'F.Robertson'”。我删除了带有玩家姓名的列。 fifa_df_2.drop(co...
我有很多行,它们在图表上形成了三条明显的线。 样本数据 行位置、队列号、实际序列 0,2280,41171 55,3375,24999 5573311506 45,3939,29185 80,1522,14121 70,1022,1...
我需要对包含 4 个类别的列进行编码,即包含学士、硕士、博士和高中类别的教育。当我将标签编码器安装到训练集(tr,此处)并转换测试时...
我是Python新手(我过去使用过R)。我有一个 pandas 数据框,其中一列包含日期。我想过滤在某一特定日期发生的观察结果。 ## 创建帕...
一般在机器学习或数据科学中,表格数据被视为结构化数据,而其他数据类型,如图像、音频/视频剪辑、文本等被视为非结构化数据。 ...