如何提取符号（<<) and its corresponding alphabets from a string with sed, awk or grep

Question

但我无法如下提取

GAG

<<<

GAGC

<<<<

或

GAGCA

<<<<

有人可以帮忙使用 sed、awk 或 grep - 提前谢谢你

Answer 1

如果我理解正确，你想打印全部

< characters plus characters above the < characters

我试过这个

$ awk '{ if (match($0,/<+/)) { print substr(prevline,RSTART,RLENGTH); print substr($0,RSTART,RLENGTH); next}} { prevline=$0 }' file
GAG
<<<
GAGC
<<<<

Answer 2

这可能对你有用（GNU sed）：

sed -E 'N;:a;s/^.(.*\n)[^<]|.(\n.*)[^<]$/\1\2/;ta;' file

通过设置选项

-E

 使用扩展正则表达式。

添加以下行。

引入循环。

使用替换蚕食两条线的前面和后面，直到只剩下掩码和掩码的结果。