打开网站和编辑使用python的HTML

问题描述 投票:0回答:1

我有点卡住了。该计划应该打开一个网站,阅读它保存在一个文件中。然后,它supposd向上直到它找到一个字符串读取的一切,之前删除一切,在一个新的文件重新保存。但是,当我运行它,我得到的HTML,我试图让原来是空白的第二个文件的第一个文件。任何人都可以点我在正确的方向?

import fileinput
import re
import requests
import sys

#linkToGet=sys.argv[1]                  //Hvordan hente link fra terminalen
#r = requests.get(linkToGet)

#nameOfFile=sys.argv[2]

#Hent nettsiden og lagre kildekoden som en textfil
r = requests.get('https://www.bibel.no/Nettbibelen?query=ud8MMrJeKwHNJdqN05oJoRgo89+A24MHmKzQYWJRSygk2+FVqgPK3UvcYb+xB3j7')  #Bare sånn jeg kan builde enkelt fra Atom
print (r.text)
f= open("kap3.txt","w+")
f.write(r.text)
f.close

#Fjern all tekst frem til en linje

TAG = """<A HREF="/Nettbibelen?query=ud8MMrJeKwHNJdqN05oJoc7CfBH5MjZKa4lw+sXwPrCzmbEZmCUXfQz2ApCFmHAq" class='versechapter'>50</A> """

tag_found = False
with open('kap3.txt') as in_file:
    with open('kap3ren.txt', 'w') as out_file:
        for line in in_file:
            if not tag_found:
                if line.strip() == TAG:
                    tag_found = True
            else:
                out_file.write(line)
python urllib2
1个回答
1
投票

它看起来像你只叫out_file.write(line)如果你发现你正在寻找的线,你的其他的语句应缩进成为内如果。

for line in in_file:
    if not tag_found:
        if line.strip() == TAG:
            tag_found = True
        else:
            out_file.write(line)

当然,这使得外如果基本无用,因此它可以被简化为如下:

for line in in_file:
    if line.strip() == TAG:
        # you're done here so you can break the loop
        break
    else:
        out_file.write(line)
© www.soinside.com 2019 - 2024. All rights reserved.