Gnéithe Scraper Gréasáin - Saineolaí Semalt

Is síneadh brabhsálaí Chrome é scraper gréasáin a bhfuil sé mar aidhm aige sonraí a bhaint as leathanaigh ghréasáin. Leis an síneadh seo, is féidir leat léarscáil suímh nó plean a chruthú, a thaispeánann an bealach is oiriúnaí chun láithreán a nascleanúint agus sonraí a bhaint as.

Tar éis do léarscáil an láithreáin a fháil, déanfaidh Web Scraper nascleanúint ar leathanach an láithreáin foinse i ndiaidh an leathanaigh agus scríobfaidh sé an t-ábhar riachtanach. Is féidir sonraí eastósctha a easpórtáil mar CSV nó i bhformáidí eile. Thairis sin, is féidir an síneadh seo a shuiteáil ó Chrome Store gan aon fhadhb.

Tugtar breac-chuntas ar chuid de na gnéithe de Web Scraper thíos

  • Cumas leathanaigh iolracha a scrabhadh

Tá sé de chumas ag an uirlis sonraí a bhaint as roinnt leathanaigh ghréasáin ag an am céanna má leagtar síos é ar an léarscáil suímh. Más gá duit na híomhánna go léir a bhaint as suíomh Gréasáin 100 céim, b’fhéidir go dtógfadh sé go leor ama ort gach ceann de na leathanaigh a sheiceáil agus eolas a fháil ar na cinn ina bhfuil íomhánna agus cé na cinn nach bhfuil. Mar sin, is féidir leat treoir a thabhairt don uirlis gach íomhá a sheiceáil.

  • Stórálann an uirlis sonraí i CouchDB nó i stóráil áitiúil an bhrabhsálaí
  • Stórálann an uirlis mapaí suímh agus sonraí eastósctha i stóráil áitiúil an bhrabhsálaí nó CouchDB
  • In ann sonraí iolracha a bhaint

Ós rud é gur féidir leis an uirlis oibriú le cineálacha éagsúla sonraí, is féidir le húsáideoirí cineálacha éagsúla sonraí a roghnú le haghaidh eastóscadh ar an leathanach céanna. Mar shampla, féadann sé íomhánna agus téacs a scríobadh ó leathanaigh ghréasáin ag an am céanna

  • Scrape sonraí ó leathanaigh dhinimiciúla

Tá Web Scraper chomh cumhachtach gur féidir leis sonraí a scrabhadh fiú ó leathanaigh dhinimiciúla mar Ajax agus JavaScript

  • Cumas féachaint ar shonraí eastósctha

Ligeann an uirlis d’úsáideoirí féachaint ar shonraí scrapáilte fiú sula ndéantar iad a shábháil san áit ainmnithe

  • Onnmhairíonn sé sonraí eastósctha mar CSV

Onnmhairíonn Web Scraper sonraí a bhaintear mar CSV de réir réamhshocraithe, ach féadann sé iad a onnmhairiú i bhformáidí eile freisin.

  • Mapaí suímh a onnmhairiú agus a allmhairiú

B’fhéidir go mbeidh ort léarscáileanna suímh a úsáid arís agus arís eile ionas gur féidir leis an uirlis mapaí suímh a iompórtáil agus a easpórtáil ar iarratas.

  • Ag brath ar bhrabhsálaí Chrome amháin

Ar an drochuair, is míbhuntáiste é seo gur buntáiste é. Oibríonn sé go heisiach le brabhsálaí Chrome.

Uirlisí scrapála sonraí eile

Tá roinnt uirlisí simplí scrapála sonraí ann a d’fhéadfadh a bheith úsáideach duit freisin. Tá cuid acu liostaithe thíos.

1. Teiripe

Is féidir an creat seo a úsáid chun ábhar uile do shuíomh Gréasáin a scrabhadh. Ní hé scrapáil ábhair an t-aon fheidhm atá aige. Is féidir é a úsáid freisin le haghaidh tástála uathoibrithe, monatóireachta, mianadóireachta sonraí, crawling gréasáin, scrapáil scáileáin, agus go leor críocha eile.

2. Wget

Is féidir leat Wget a úsáid freisin chun suíomh Gréasáin iomlán a scrabhadh go héasca. Ach tá míbhuntáiste beag leis an uirlis seo, ní féidir leis comhaid CSS a pharsáil.

3. Is féidir leat an t-ordú seo a leanas a úsáid freisin chun ábhar do shuíomh Gréasáin a scrabhadh sula dtarraingítear anuas é:

file_put_contents ('/ some / eolaire / scrape_content.html', file_get_contents ('http://google.com'));