Definisjon av Web Spidering og Web Crawlers
WEB SCRAPING WITH SCRAPY - FIRST SPIDER
Innholdsfortegnelse:
- Spammere Spider Websites å samle informasjon
- Tips om å beskytte nettstedet ditt mot uønskede robotsøkere
- Relaterte artikler og informasjon
Edderkopper er programmer (eller automatiserte skript) som "kryper" gjennom nettet på jakt etter data. Edderkopper reiser gjennom webadresser og kan trekke data fra nettsider som e-postadresser. Edderkopper er også vant til å mate informasjon som finnes på nettsteder til søkemotorer.
Edderkopper, som også refereres til som "web crawlers", søker på nettet, og ikke alle er vennlige i deres hensikt.
Spammere Spider Websites å samle informasjon
Google, Yahoo! og andre søkemotorer er ikke de eneste som er interessert i krypende nettsteder - så er svindlere og spammere.
Edderkopper og andre automatiserte verktøy brukes av spammere til å finne e-postadresser (på internett er denne øvelsen ofte referert til som "høsting") på nettsteder og deretter bruke dem til å lage spamlister.
Edderkopper er også et verktøy som brukes av søkemotorer for å finne ut mer informasjon om nettstedet ditt, men etterlot ukontrollert, kan et nettsted uten instruksjoner (eller "tillatelser") om hvordan du gjennomsøker nettstedet ditt, presentere store sikkerhetsrisikoer for informasjon. Edderkopper reiser ved å følge koblinger, og de er svært dygtige til å finne lenker til databaser, programfiler og annen informasjon som du kanskje ikke vil ha dem til å ha tilgang til.
Webmastere kan se logger for å se hvilke edderkopper og andre roboter som har besøkt sine nettsteder. Denne informasjonen hjelper webmastere å vite hvem som indekserer nettstedet, og hvor ofte.
Denne informasjonen er nyttig fordi den tillater webmastere å finjustere deres SEO og oppdatere robot.txt-filer for å forby visse roboter fra å krysse nettstedet deres i fremtiden.
Tips om å beskytte nettstedet ditt mot uønskede robotsøkere
Det er en ganske enkel måte å holde uønskede crawlere ut av nettstedet ditt. Selv om du ikke er bekymret for ondsinnede edderkopper som gjennomsøker nettstedet ditt (forvirrende e-postadresse vil ikke beskytte deg mot de fleste crawlere), bør du fortsatt gi søkemotorer viktige instruksjoner.
Alle nettsteder skal ha en fil i rotkatalogen kalt en robots.txt-fil. Denne filen lar deg instruere webbrakere hvor du vil at de skal se på indekssider (med mindre annet er oppgitt i en bestemt sides metadata som ikke er indeksert) hvis de er en søkemotor.
På samme måte som du kan fortelle ønskede crawlere hvor du vil at de skal surfe, kan du også fortelle dem hvor de ikke kan gå og til og med blokkere bestemte crawlere fra hele nettstedet ditt.
Det er viktig å huske på at en godt satt sammen robots.txt-fil vil ha enorm verdi for søkemotorer, og kan til og med være et nøkkelelement for å forbedre nettstedets ytelse, men noen robotsøkebullere vil fortsatt ignorere instruksjonene dine. Av denne grunn er det viktig å holde hele programvaren din, programtillegg og apper oppdatert til enhver tid.
Relaterte artikler og informasjon
På grunn av utbredelsen av informasjonshøsting som ble brukt til falske (spam) formål, ble loven vedtatt i 2003 for å gjøre visse fremgangsmåter ulovlige. Disse lovene om forbrukervern faller under CAN-SPAM-loven fra 2003.
Det er viktig at du tar deg tid til å lese om CAN-SPAM-loven dersom virksomheten din engasjerer seg i massemelding eller høsting av informasjon.
Du kan finne ut mer om anti-spam lover og hvordan du håndterer spammere, og hva du som bedriftseier kanskje ikke gjør, ved å lese følgende artikler:
- CAN-SPAM Act 2003
- CAN-SPAM Act Regler for ideelle organisasjoner
- 5 CAN-SPAM-regler Småbedriftseiere trenger å forstå
Ansattes engasjement-Definisjon og eksempler
Trenger du å forstå hva medarbeider involvering innebærer som en organisatorisk strategi og filosofi? De fleste organisasjoner tar feil. Finn ut hvorfor.
Definisjon og konsekvenser av utroskap i militæret
Er utroskap fortsatt et lovbrudd under det militære rettssystemet? Selv om det ikke er en offisiell lovbrudd under UCMJ, er svaret både ja og nei.
Arbeid med fleksibelt tidsplan - Definisjon og veiledning
Er du interessert i å jobbe med en fleksibel tidsplan? Ta en titt på alternativene for en fleksibel tidsplan som den typiske arbeidsplassen tilbyr. Finne ut mer.