• 2024-11-21

Definisjon av Web Spidering og Web Crawlers

WEB SCRAPING WITH SCRAPY - FIRST SPIDER

WEB SCRAPING WITH SCRAPY - FIRST SPIDER

Innholdsfortegnelse:

Anonim

Edderkopper er programmer (eller automatiserte skript) som "kryper" gjennom nettet på jakt etter data. Edderkopper reiser gjennom webadresser og kan trekke data fra nettsider som e-postadresser. Edderkopper er også vant til å mate informasjon som finnes på nettsteder til søkemotorer.

Edderkopper, som også refereres til som "web crawlers", søker på nettet, og ikke alle er vennlige i deres hensikt.

Spammere Spider Websites å samle informasjon

Google, Yahoo! og andre søkemotorer er ikke de eneste som er interessert i krypende nettsteder - så er svindlere og spammere.

Edderkopper og andre automatiserte verktøy brukes av spammere til å finne e-postadresser (på internett er denne øvelsen ofte referert til som "høsting") på nettsteder og deretter bruke dem til å lage spamlister.

Edderkopper er også et verktøy som brukes av søkemotorer for å finne ut mer informasjon om nettstedet ditt, men etterlot ukontrollert, kan et nettsted uten instruksjoner (eller "tillatelser") om hvordan du gjennomsøker nettstedet ditt, presentere store sikkerhetsrisikoer for informasjon. Edderkopper reiser ved å følge koblinger, og de er svært dygtige til å finne lenker til databaser, programfiler og annen informasjon som du kanskje ikke vil ha dem til å ha tilgang til.

Webmastere kan se logger for å se hvilke edderkopper og andre roboter som har besøkt sine nettsteder. Denne informasjonen hjelper webmastere å vite hvem som indekserer nettstedet, og hvor ofte.

Denne informasjonen er nyttig fordi den tillater webmastere å finjustere deres SEO og oppdatere robot.txt-filer for å forby visse roboter fra å krysse nettstedet deres i fremtiden.

Tips om å beskytte nettstedet ditt mot uønskede robotsøkere

Det er en ganske enkel måte å holde uønskede crawlere ut av nettstedet ditt. Selv om du ikke er bekymret for ondsinnede edderkopper som gjennomsøker nettstedet ditt (forvirrende e-postadresse vil ikke beskytte deg mot de fleste crawlere), bør du fortsatt gi søkemotorer viktige instruksjoner.

Alle nettsteder skal ha en fil i rotkatalogen kalt en robots.txt-fil. Denne filen lar deg instruere webbrakere hvor du vil at de skal se på indekssider (med mindre annet er oppgitt i en bestemt sides metadata som ikke er indeksert) hvis de er en søkemotor.

På samme måte som du kan fortelle ønskede crawlere hvor du vil at de skal surfe, kan du også fortelle dem hvor de ikke kan gå og til og med blokkere bestemte crawlere fra hele nettstedet ditt.

Det er viktig å huske på at en godt satt sammen robots.txt-fil vil ha enorm verdi for søkemotorer, og kan til og med være et nøkkelelement for å forbedre nettstedets ytelse, men noen robotsøkebullere vil fortsatt ignorere instruksjonene dine. Av denne grunn er det viktig å holde hele programvaren din, programtillegg og apper oppdatert til enhver tid.

Relaterte artikler og informasjon

På grunn av utbredelsen av informasjonshøsting som ble brukt til falske (spam) formål, ble loven vedtatt i 2003 for å gjøre visse fremgangsmåter ulovlige. Disse lovene om forbrukervern faller under CAN-SPAM-loven fra 2003.

Det er viktig at du tar deg tid til å lese om CAN-SPAM-loven dersom virksomheten din engasjerer seg i massemelding eller høsting av informasjon.

Du kan finne ut mer om anti-spam lover og hvordan du håndterer spammere, og hva du som bedriftseier kanskje ikke gjør, ved å lese følgende artikler:

  • CAN-SPAM Act 2003
  • CAN-SPAM Act Regler for ideelle organisasjoner
  • 5 CAN-SPAM-regler Småbedriftseiere trenger å forstå

Interessante artikler

Eksempler på positiv tilbakemelding på arbeidsplassen

Eksempler på positiv tilbakemelding på arbeidsplassen

Tilbakemelding er et kritisk verktøy for å fremme positiv ytelse på arbeidsplassen. Her er noen eksempler på positiv tilbakemelding sammen med ineffektiv kritikk.

Grunner til å forlate arbeidet tidlig (gode og dårlige unnskyldninger)

Grunner til å forlate arbeidet tidlig (gode og dårlige unnskyldninger)

Lær om gode grunner til å forlate arbeidet tidlig, unnskyld ikke å bruke for å forlate arbeidet, og den beste måten å spørre din veileder om du kan komme deg utenom arbeidet.

Hvordan komme opp med et boktittel som selger

Hvordan komme opp med et boktittel som selger

Komme opp med en flott boktittel er delkunst, delvitenskap, delmarkskunnskap. Lær om å skrive gode boktitler og undertekster.

Goodbye Letter Eksempler Når du forlater en jobb

Goodbye Letter Eksempler Når du forlater en jobb

Enten du forlater jobben din, eller en kollega eller kollega forlater, har vi farveleksempler og maler som dekker alle situasjoner.

Farvel e-post for samarbeidspartnere

Farvel e-post for samarbeidspartnere

Ta en titt på denne eksempeldagen e-postmeldingen for å sende til medarbeidere og hva du skal ta med, samt tips om hva du skal skrive når du forlater en jobb.

Hvorfor god kundeservice er ikke lenger nok

Hvorfor god kundeservice er ikke lenger nok

God kundeservice er ikke lenger nok, lederhåndboken John Reh intervjuer kommunikasjonsekspert Dianna Booher.