如何从div内部提取文本

问题描述 投票:0回答:1

我正在尝试提取此内容:enter image description here

从此链接:https://www.arabam.com/ilan/sahibinden-satilik-peugeot-407-2-0-hdi-comfort/sahibinden-peugeot-407-1-6-hdi-comfort-2008-model/12776039

我正在使用scrapy提取信息。

Edit:我尝试过这种方式提取文本,但没有:response.xpath("/html/body/div[3]/div[6]/div[3]/div/div[1]/div[3]/div/div[3]/div/div/div[2]/dl[1]/dd/span")

[如果有人要重新创建,则只需复制粘贴此代码并运行。您可以访问任何页面,只需提取该信息即可。

import scrapy
from scrapy.spiders import SitemapSpider
from scrapy.crawler import CrawlerProcess
import googletrans
# from googletrans import Translator
from translate import Translator

class Myspider(SitemapSpider):
    name = 'spidername'
    sitemap_urls = ['https://www.arabam.com/sitemap/otomobil_1.xml']
    sitemap_rules = [
        ('/otomobil/', 'parse'),
        # ('/category/', 'parse_category'),
    ]
    def parse(self,response):


            for td in response.xpath("/html/body/div[3]/div[6]/div[4]/div/div[2]/table/tbody/tr/td[4]/div/a/@href").extract():
                # / html / body / div[3] / div[6] / div[4] / div / div[2] / table / tbody / tr / td[4] / div / a
                checks = str(td.split("/")[3]).split("-")

                for items in checks:
                    if items.isdigit():

                        if int(items) > 2001:

                            url = "https://www.arabam.com/"+ td
                            yield scrapy.Request(url, callback=self.parse_dir_contents)


    def parse_dir_contents(self,response):
        ##some other stuff im scraping

        overview1 = response.xpath("/html/body/div[3]/div[6]/div[3]/div/div[1]/div[3]/div/div[3]/div/div/div[2]/dl[1]/dd/span")
        print(response)
        print("s"+ str(overview1))



process = CrawlerProcess({

})

process.crawl(Myspider)
process.start() # the script will block here until the c

完成搜寻

编辑:预期的输出是获得这些确切的键值对。

编辑:在答案中使用标签,我得到了这个:

[......or Kaputu: ', ' Orijinal ', '  ', 'Sol Ön Çamurluk: ', ' Boyanmış ', '  ', 'Ön Tampon: ', ' Orijinal ', '  ', 'Arka Tampon: ', ' Orijinal ', '  ', 'Belirtilmemiş', 'Orijinal', 'Boyalı', 'Değişmiş', '   ', '  ', ' Tramer tutarı yok ', '  ', '  ', '  ', 'ARAÇ BİLGİLERİ', '  ', ' ', 'DONANIM', '\xa0', '  ', '\xa0', '  ', '\xa0', '  ', '\xa0', '  ', '\xa0', '  ', '\xa0', '  ', '  ', 'KREDİ', '  ', '  ', 'SPONSORLU BAĞLANTILAR', " googletag.cmd.push(function () { googletag.display('div-gpt-ad-1547030262883-0'); }); ", " googletag.cmd.push(function () { googletag.display('div-gpt-ad-1547030358839-0'); }); "]
python web-scraping scrapy
1个回答
0
投票

这将获得该部分中的所有文本:

"//div[@class='detail-head-wrapper']//text()"

输出:

AÇIKLAMA
5-6 parça boya var
1 parça değişik
Ön cam çatlak 
Baskı balata yeni değişti
Orjinal kilometre
Enjektör değişicek fiyattan düşülür
BOYA - DEĞİŞEN
Satıcı bu ilan için boya - değişen bilgisi vermemiştir.
Detaylı bilgi almak için satıcı ile iletişime geçebilirsiniz.
Tramer tutarı belirtilmemiş
ARAÇ BİLGİLERİ
Genel Bakış
Yıl
2008
Yakıt Tipi
Dizel
Vites Tipi
Düz
Kasa Tipi
Sedan
Kilometre
260.000 km
Araç Türü
Bireysel Araç
Renk
Siyah
Plaka Uyruğu
(TR) Türkiye
Garantisi
Garantisi Yok
Takasa Uygun
Takasa Uygun Değil
Aracın ilk sahibiyim
İlk Sahibi Değilim
Kimden
Sahibinden
Yıllık MTV
1.124 TL
Motor ve Performans
Çekiş
Önden Çekiş
Silindir Sayısı
4
Tork
320 nm
Motor Hacmi
1997 cc
Motor Gücü
138 hp
Hızlanma (0-100)
10,4 sn
Maksimum Hız
208 km/s
Yakıt Tüketimi
Ortalama Yakıt Tüketimi
5,4 lt
Şehir İçi Yakıt Tüketimi
7,3 lt
Şehir Dışı Yakıt Tüketimi
4,9 lt
Yakıt Deposu
66 lt
Boyut ve Kapasite
Uzunluk
4676 mm
Genişlik
1811 mm
Yükseklik
1455 mm
Ağırlık
2020 kg
Boş Ağırlığı
1415 kg
Koltuk Sayısı
5
Bagaj Hacmi
407 lt
Ön Lastik
205/60 R16
Aks Aralığı
2725 mm
....

© www.soinside.com 2019 - 2024. All rights reserved.