• 2024-06-30

Definisjon av Web Spidering og Web Crawlers

WEB SCRAPING WITH SCRAPY - FIRST SPIDER

WEB SCRAPING WITH SCRAPY - FIRST SPIDER

Innholdsfortegnelse:

Anonim

Edderkopper er programmer (eller automatiserte skript) som "kryper" gjennom nettet på jakt etter data. Edderkopper reiser gjennom webadresser og kan trekke data fra nettsider som e-postadresser. Edderkopper er også vant til å mate informasjon som finnes på nettsteder til søkemotorer.

Edderkopper, som også refereres til som "web crawlers", søker på nettet, og ikke alle er vennlige i deres hensikt.

Spammere Spider Websites å samle informasjon

Google, Yahoo! og andre søkemotorer er ikke de eneste som er interessert i krypende nettsteder - så er svindlere og spammere.

Edderkopper og andre automatiserte verktøy brukes av spammere til å finne e-postadresser (på internett er denne øvelsen ofte referert til som "høsting") på nettsteder og deretter bruke dem til å lage spamlister.

Edderkopper er også et verktøy som brukes av søkemotorer for å finne ut mer informasjon om nettstedet ditt, men etterlot ukontrollert, kan et nettsted uten instruksjoner (eller "tillatelser") om hvordan du gjennomsøker nettstedet ditt, presentere store sikkerhetsrisikoer for informasjon. Edderkopper reiser ved å følge koblinger, og de er svært dygtige til å finne lenker til databaser, programfiler og annen informasjon som du kanskje ikke vil ha dem til å ha tilgang til.

Webmastere kan se logger for å se hvilke edderkopper og andre roboter som har besøkt sine nettsteder. Denne informasjonen hjelper webmastere å vite hvem som indekserer nettstedet, og hvor ofte.

Denne informasjonen er nyttig fordi den tillater webmastere å finjustere deres SEO og oppdatere robot.txt-filer for å forby visse roboter fra å krysse nettstedet deres i fremtiden.

Tips om å beskytte nettstedet ditt mot uønskede robotsøkere

Det er en ganske enkel måte å holde uønskede crawlere ut av nettstedet ditt. Selv om du ikke er bekymret for ondsinnede edderkopper som gjennomsøker nettstedet ditt (forvirrende e-postadresse vil ikke beskytte deg mot de fleste crawlere), bør du fortsatt gi søkemotorer viktige instruksjoner.

Alle nettsteder skal ha en fil i rotkatalogen kalt en robots.txt-fil. Denne filen lar deg instruere webbrakere hvor du vil at de skal se på indekssider (med mindre annet er oppgitt i en bestemt sides metadata som ikke er indeksert) hvis de er en søkemotor.

På samme måte som du kan fortelle ønskede crawlere hvor du vil at de skal surfe, kan du også fortelle dem hvor de ikke kan gå og til og med blokkere bestemte crawlere fra hele nettstedet ditt.

Det er viktig å huske på at en godt satt sammen robots.txt-fil vil ha enorm verdi for søkemotorer, og kan til og med være et nøkkelelement for å forbedre nettstedets ytelse, men noen robotsøkebullere vil fortsatt ignorere instruksjonene dine. Av denne grunn er det viktig å holde hele programvaren din, programtillegg og apper oppdatert til enhver tid.

Relaterte artikler og informasjon

På grunn av utbredelsen av informasjonshøsting som ble brukt til falske (spam) formål, ble loven vedtatt i 2003 for å gjøre visse fremgangsmåter ulovlige. Disse lovene om forbrukervern faller under CAN-SPAM-loven fra 2003.

Det er viktig at du tar deg tid til å lese om CAN-SPAM-loven dersom virksomheten din engasjerer seg i massemelding eller høsting av informasjon.

Du kan finne ut mer om anti-spam lover og hvordan du håndterer spammere, og hva du som bedriftseier kanskje ikke gjør, ved å lese følgende artikler:

  • CAN-SPAM Act 2003
  • CAN-SPAM Act Regler for ideelle organisasjoner
  • 5 CAN-SPAM-regler Småbedriftseiere trenger å forstå

Interessante artikler

Seksuelt trakasseringslover og Valentinsdag

Seksuelt trakasseringslover og Valentinsdag

Selv om Valentinsdag er en dag for å uttrykke kjærlighet og romantiske følelser, kan noen bevegelser betraktes som seksuell trakassering. Her er det å vite.

Få en Music Business Degree

Få en Music Business Degree

Dedikerte musikkbransjen grad programmer er popping opp over alt. Finn ut om de hjelper deg med å få jobb i musikkbransjen.

Fordeler ved å ansette en bestillingsagent

Fordeler ved å ansette en bestillingsagent

Her er hvorfor du bør leie en booking agent når bandet ditt etablerer en fan base og er å ta inn nok penger til agentens provisjon.

Skal du gå til en musikkindustrikonvensjon?

Skal du gå til en musikkindustrikonvensjon?

Skal du gå til en musikkindustrikonvensjon? Finn ut når musikere kan ha mest nytte av musikkindustriens konvensjoner.

Skal jeg flytte når kjæresten min beveger seg?

Skal jeg flytte når kjæresten min beveger seg?

Hvis din signifikante andre får en jobb ut av staten, kan du flytte med ham / henne, prøve fjernkontrollen eller bryte opp. Bestem hva som passer deg.

Betaler for musikkdistribusjon

Betaler for musikkdistribusjon

Å betale for musikkdistribusjon får poster i butikker, men det kommer med betydelig risiko hvis du ikke har kampanje på plass.