MapR是一个商业数据平台,提供兼容HDFS的分布式文件系统,允许以BigTable或JSON存储数据的数据库以及用于消息传递的流媒体平台。 MapR利用来自Hadoop,Kafka,HBase等开源工具的API,并提供用C语言编写的专有实现,以提高性能。
我的hadoop集群被许多用户使用,并且配置单元中有1000个数据库。我们最近观察到启动蜂巢终端的巨大时间延迟。当我将蜂巢日志级别更改为INFO --hiveconf ...
我需要将前一天处理和合并的json文件移到新的hdfs路径中。要求是递归搜索未处理的文件并移动待处理的未处理的文件。 ...
Apache Nifi将小于当前日期的文件移动到新的hdfs文件夹中
我正在创建端到端流,以通过对通过Tealium事件流接收的Json文件使用Consume Kafka来将数据消耗到HDFS中。目前,我已经使用Consum Kafka->评估Json ...
我正在尝试根据需要为不同的用户创建MapR票证。我通过运行脚本来手动完成此任务,该脚本部署了一个pod并将票证复制到Kubernetes中的密钥。现在,我想这样做...
Apache nifi将年,月和日时间戳附加到合并的输出文件中
我正在创建端到端流,以通过对通过Tealium事件流接收的Json文件使用Consume Kafka来将数据消耗到HDFS中。目前,我已经使用Consum Kafka->评估Json路径-> ...
如何将文件系统MAPR和HDInsight Blob存储之间DistCp使用
我试图执行下面的命令DistCp使用,但它是抛出异常:Hadoop的DistCp使用date_load = 201901 * wasb://[email protected]/luiz/producao/performance/ .. 。
Pyspark - DataFrame persist()错误输出java.lang.OutOfMemoryError:超出GC开销限制
当我尝试持久化在大小为~270GB的表上创建的DataFrame时,Pyspark作业失败,错误在线程“yarn-scheduler-ask-am-thread-pool-9”中出现异常java.lang.OutOfMemoryError:GC ...
我在mapr-clusters.conf中指定了两个集群cluster1 secure = true cldb1:7222 cldb2:7222 cldb3:7222 cluster2 secure = true cldb4:7222 cldb5:7222 cldb6:7222在某些情况下,我想加载...
java.io.IOException:没有用于scheme的FileSystem:maprfs。将maprfs jar添加到bash_profile不起作用
通过spark-shell运行以下命令时出现以下错误。我还在我的bash_profile中添加了maprfs jar,如下所示。我尝试了类似帖子中的大多数解决方案,...
我在MapR环境中使用带有kafka 0.9的spark 2.1.0版本。我正在尝试从Kafka主题读入spark spark。但是,当我运行Kafkautils时,我面临如下错误...
Apache Drill:散列连接不支持架构更改额外列上的错误
在Apache Drill中查询表时,我收到此错误:SYSTEM ERROR:SchemaChangeException:散列连接不支持架构更改。查询如下:从...中选择abc,xyz,proxyip
我正在使用Drill 1.13。当我使用sqlline.bat -u“jdbc:drill:zk = local”启动钻取实例时,我可以进入控制台并查询数据库。但是,当我尝试通过...访问钻孔DB时
DataFrame Write PartitionBy - 无法参数化多个列
创建一个接受TableName和Partition列作为输入的通用代码。但是在尝试将数据帧写为分区表时遇到问题。 partAttr ='product_category_id,product_id'......
我不知道它是否是mapr-db json的常见问题。我使用一个Streamsets目的地,它是一个Mapr-DB json表来推送包含10列的记录。我精确地把第一列变成了一行......
在下面的“IN”子句中,hive是否支持多列的查询? select * from address where(se10,ctry_nm)IN(44444444,“USA”);我在这个查询中遇到错误 - 在org.antlr ....
Spark应用程序不读取Jar中存在的log4j.properties
我正在使用MapR5.2 - Spark版本2.1.0而且我在Yarn CLuster模式下运行我的spark app jar。我已经尝试了我找到的所有可用选项但是无法成功。这是我们的生产......
我需要通过Java代码连接MapR-DB(HBase)。我在“/ mapr / root / main / database”(路径)中有二进制表'Table01'。 maprcli引用此路径“/ mapr / root”,我的完整表名是“/ main / ...
如何将数据从生产集群传输到datalab集群进行实时数据分析?
我们正在使用mapr,我们想部署一个新的(datalab)集群,我问的是将数据从生产集群传输到datalab集群的最佳方法?我们用镜像,在...之间