bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

处理大数据时应该如何编写Elasticsearch搜索查询?

我有一个爬行平台(带有节点/javascript的微服务),我在其中索引了我爬行的文档(每个爬行的url/子页面是我的Mongodb中的单个文档),我想找出最好的

回答 1 投票 0

numpy.memmap 在 x32 机器上的最大数组大小?

我在 x32 win xp 上使用 python x32 有时程序上线失败 fp = np.memmap('C:/memmap_test', dtype='float32', mode='w+', shape=(行,列)) memmap.py 中的错误 追溯(最近的校准...

回答 1 投票 0

从巨大的 csv 文件创建 kmer 数据库

我有一个巨大的csv文件(7.5GB),它由三列组成(无标题),第一个是一个包含7个字符的字符串(SSSSDKI),第二个是计数(100),第三个代表冷...

回答 1 投票 0

如何构建像 Ahrefs 这样可扩展的网络抓取和数据分析基础设施?

我正在寻求构建一个可扩展的基础设施,用于网络抓取和数据分析,类似于 Ahrefs 所做的事情。我需要以下技术方面的建议: 网页抓取框架:什么是...

回答 1 投票 0

Apache Ranger 构建错误:无法创建程序集:创建程序集存档架构注册表插件时出错:创建 jar 时出现问题

尝试使用 Java 1.8 在 Ubuntu 20.04 上构建 Apache Ranger 2.4.0 版本。我在 r 上运行 Maven 命令 mvn -Pall -DskipTests=false clean 编译包安装时收到错误...

回答 1 投票 0

如何像我们在电子表格中看到的那样按列对 CSV 文件进行排序?

假设我有以下 CSV 文件: 列 1、列 2、列 3 C,3,1 B,2,2 A,3,3 C,3,10 B,2,20 A,2,30 C,3,100 B,1,200 A,1,300 我想排序 首先按 Column1 第二列(按 Column2) 第三栏第三...

回答 1 投票 0

如何修改STRUCT类型列?

有一个名为newtest的表,列名是struct类型的source。 我想将此结构类型更新/修改为 struct 有一个名为 newtest 的表,列名称为 source,类型为 struct<name:string, size:bigint>. 我想更新/修改这个结构类型为 struct<name:string, size:bigint, index:bigint> 如何更改/修改上面提到的source列。 尝试使用下面的sql查询它不起作用: ALTER TABLE newtest MODIFY COLUMN source STRUCT<name: STRING, size: bigint, index:bigint> ALTER TABLE newtest ADD COLUMNS (source.index bigint AFTER size)

回答 1 投票 0

如何使用 Apache Sedona 将 parquet 格式数据框中的纬度和经度列转换为点类型(几何)?

我有 100 TB 的 parquet 格式的数据。该数据有很多列,包括纬度和经度列。我想使用 Apache Sedona 将这些列转换为点类型列(

回答 1 投票 0

GeoMesa Accumulo 自定义迭代器

我想创建一个自定义迭代器并使用 GeoTools API 使用它。 目前,我正在使用 DataStore 和 SimpleFeatures 对象检索数据,并尝试找到一种调用自定义迭代器的方法...

回答 1 投票 0

Apache NiFi:在 UI 上默认删除用户名和密码登录

我目前正在设置 NiFi,我注意到作为版本 1.14.0 版本的一部分,默认情况下我们启用了安全功能,需要用户名和密码才能访问 UI....

回答 3 投票 0

如何在大型数据库上优化 whereHas 的性能?

这是我的代码:这个查询太慢了,当我运行它时,我的 MySQL 服务器崩溃了。 ->when($this->search, 函数 ($query) { 返回 $query->where(函数 ($query) { $que...

回答 1 投票 0

如何在循环函数(大数据集)中使用 rowMeans 函数计算项目中的新变量?

我需要你的帮助,因为我有一个关于疾病的大数据集(宽格式)。因此,我有 54 种不同的疾病,每种疾病都有 18 个问题(数据嵌套在疾病和参与者中)。 一个...

回答 1 投票 0

为什么 bigQueryML 的转换子句不支持 ML.NGRAM?

我正在使用以下查询来创建模型,但编辑器抱怨转换子句中不支持 ML.NGRAM。 创建或替换模型 `singular-hub-291814.movie_sentiment.my...

回答 1 投票 0

大数据集如何将宽数据转换为长数据格式?

我正在进行一项关于 54 种疾病的横断面在线研究,并且有 10 个变量/列作为参与者的背景信息,然后参与者被随机分配到一组 9 个不同的...

回答 1 投票 0

Google Big Query:SQL 请求长度限制

我有一个关于 GBQ 以及一次找到大量行的可能性的问题。我的 GBQ 表包含 3 亿行和 50 列(例如品牌、型号、颜色)。另外,我有一个 70K 行的 CSV 文件,其中只有

回答 1 投票 0

MariaDB / MySQL 上的计数(*)极其缓慢

运行 EXPLAIN SELECT COUNT(*) FROM 活动显示它计划使用二级索引,并且只有一列 int 和 keylen 为 5。操作需要 2 分钟到 6 分钟不等,偶尔发生

回答 1 投票 0

将非常大的表包含到代码中的正确方法是什么? С++

我的代码中有非常大的哈希表,它们用于计算。现在这两个表是一个包含 5,000,000 个 float 类型的数组。可能会有更多的桌子,尺寸更大。 当我加入...

回答 1 投票 0

根据工作线程、核心和 DataFrame 大小确定 Spark 分区的最佳数量

Spark-land 中有几个相似但不同的概念,围绕如何将工作分配给不同的节点并同时执行。具体来说,有: Spark 驱动程序节点 (

回答 2 投票 0

使用Python在地图上进行交互式大2D点云数据可视化

我有一个2D点云数据时间序列。数据的形状是[N,T]。 N是一个很大的数字(百万),T是2D点云图像的数量,一般小于300。我也有

回答 1 投票 0

从 scala 中的 CSV 文件加载时,我需要从数据框中跳过三行

我正在将 CSV 文件加载到数据框中,我可以做到这一点,但我需要跳过文件中的前三行。 我尝试了 .option() 命令,将 header 设置为 true,但它忽略了唯一的...

回答 4 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.