所以我有一个奇怪的分隔格式,我不熟悉它是基于聊天相关的应用程序的输出和格式是我特有的任何人都可以告诉我这个分隔格式是什么,如果它是标准和任何可能的方式如果可能,将其转换为带文本引号的CSV。
"NumValue1|""TextValue2""|""TextValue3""|""TextValue"""
所以我对这种数据格式的假设是有一行“”文本限定符是“”text“”,而deiminator是|
以这种格式分隔的价值是什么,因为csv与文本限定符有关?文本值似乎没有“在其中
Talend是我的首选工具,但可以使用任何东西来解决这个问题。
我认为这是一个嵌套的结构。我认为原始数据是由管道分隔的报价附带的CSV文件。
NumValue1 | “TextValue2” | “TextValue3” | “TextValue”
现在他们想把它括在引号中,但需要处理原始引号。所以他们加倍了(SQL中的常用技术)
我的快速和肮脏的建议是在talend中创建一个工作流程:tFileInputfullRow -> tJavaRow -> tFileOutputDelimited
(默认情况下OutputDelimited是错误的,所以它会保持你的线完整至少在Talend 5就像那样)
row2.line = row1.line.substring(1,row1.line.length()-2).replace("\"\"","\"")
然后你可以用|
和"
做一个tFileInputDelimited