Udeluk scrapers fra dit website

Udgivet den 20. marts 2013 af Michael Oxkjær

Enhver der arbejder med søgemaskineoptimering ved, hvad det kan betyde såfremt man bliver ramt af duplicated content, så når nogle henter alt dit indhold fra dit website for at vise publiserer det på andre sites, ja så skal man reagerer på det.

Èn af metoderne er, at udelukke disse "scrapers" via den "User Agent" de udsender.

Dette indlæg kan forekomme lidt teknisk, så er du advaret, men ellers må du tage fat i din udbyder og få dem til at hjælpe :-)
 

 


I går aftes, udsendte Thomas Rosenstand en advarsel på Google + hvori han gjorde opmærksom på, at et firma fra Roskilde havde "scrapet" en lang række hjemmesider via en proxy.

Jeg skulle naturligvis se om jeg var ramt, og som det fremgår af nedenstående skærmprint, så var det tilfældet:



Jeg kiggede i min Analytics og kunne der se, at jeg i de sidste par dage havde haft enormt mange besøg fra Californien, der alle kun havde set en enkelt side og havde en varighed på 0 sekunder.
Netop enkeltsidefrekvensen, den lave besøgstid og ikke mindst mængden af dem bør få alarmklokkerne til at ringe.

Thomas kommer i sin advarsel med en metode hvortil man kan udelukke den pågældende scraper - der benytter sig af en "User Agent" streng der hedder "AppEngine" - såfremt ens website benytter PHP, og det er ved at indsætte følgende i sin htaccess fil:
 

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} AppEngine [NC]
RewriteRule .* - [F]


Nu er vi nogle der kører vore websites på Windowsservere og derfor ikke kan benytte htaccess, men i stedet kan vi bruge den fil der hedder web.config som ligger i roden af ens website.

Da jeg jo var ramt af måtte jeg finde ud af hvordan man løste det, og én af måderne er at tilføje følgende regel til sin web.config:
 

<rule name="BlokerAppEngine" patternSyntax="Wildcard" stopProcessing="true">
  <match url="*" />
    <conditions>
       <add input="{HTTP_USER_AGENT}" pattern="AppEngine" />
     </conditions>
       <action type="CustomResponse" statusCode="403" statusReason="Forbidden: Access is denied." statusDescription="Get Lost." />
 </rule>


Har man ikke en web.config liggende i roden af serveren, så opretter man blot en .txt fil der hedder web.config som ser således ud:
 

<?xml version="1.0" encoding="UTF-8"?>
<configuration>
   <system.webServer>

<rewrite> 
      <rules>

<rule name="BlokerAppEngine" patternSyntax="Wildcard" stopProcessing="true">
  <match url="*" />
    <conditions>
       <add input="{HTTP_USER_AGENT}" pattern="AppEngine" />
     </conditions>
       <action type="CustomResponse" statusCode="403" statusReason="Forbidden: Access is denied." statusDescription="Get Lost." />
 </rule>

      </rules> 
</rewrite>
 
    </system.webServer>
</configuration>

 


Test om det virker


Èn ting er jo at ændre sin htaccess eller sin web.config, en anden ting er om det virker efter hensigten, og det kan og bør man tjekke.

Der findes pluginns til diverse browsere, men du kan faktisk teste det uden at installerer noget overhovedet - hvis du da bruger Google Chrome. Har du ikke Google Chrome, så har du en anledning til at hente den :-)

Åben din hjemmeside og find udviklerværktøjer:



Når udviklerværktøjet er åbnet, klikker du på det lille tandhjul i nederste højre hjørne:



Så vælger du punktet "Overrides" og sætter indstillingerne som nedenstående:



Lad udviklervinduet stå åbent, og og genindlæs din side:



Hvis det virker, så skulle du blive nægtet adgang til siden:




Den pågældende proxy blev dog lukket ned i går aftes, men mon ikke de lukker op for den igen på et tidspunkt når stormen har lagt sig - det tror jeg i hvert fald :-)

Hvis du vil vide mere om "scraping" kan du læse det her.
 
 
 






Kommentarer til "Udeluk scrapers fra dit website"



Brian Reinhold Jensen skrev den 20. marts 2013 kl.11:03 følgende kommentar:

God opsummering, især tror jeg mange vil være glade for din howto på IIS - tak for det.

 

Det er værd at bemærke at der også findes andre "scrapers" derude, så det er bare med at få dem smidt i .htaccess eller config.web når de opdages i loggen.




Michael Oxkjær skrev den 20. marts 2013 kl.11:15 følgende kommentar:

Enig Brian, og man skal jo også passe på med ikke at blokerer for dem man gerne vil have besøg af wink

 

Mht. IIS, så er det tit noget som bliver forbigået, og jeg har en lille intern mission om, at finde løsninger der modsvarer de tips der kommer til htaccess (som jeg ikke fatter en bjælde af), da vi jo trods alt er en hel del der benytter Windowsservere smiley




Max Reimer-Nielsen skrev den 25. marts 2013 kl.09:29 følgende kommentar:

Super artikel har dog en lille rettelse til din web.config.

 

StatusDescription skal være med lille s i starten, ellers spænger websitet i luften :-)

 

Men stadig - super artikel og tak for hjælpen.




Michael Oxkjær skrev den 25. marts 2013 kl.09:42 følgende kommentar:

Tak for oplysningen Max, ikke at den ligefrem springer i luften, men det er korrekt den fejler, så det skal naturligvis være med lille "s" wink

 




Povl Sørensen skrev den 19. september 2013 kl.20:56 følgende kommentar:

Hej Michael

 

Tak for din gode artikel.

 

Kender du dette program: 

www.copyscape.com

som jeg selv omtaler på min hjemmeside

 

Med venlig hilsen

 

Povl Sørensen




Michael Oxkjær skrev den 19. september 2013 kl.20:56 følgende kommentar:

Hej Povl,

 

Jeg kender godt Copyscape, hvorfor spørger du?

 

Jeg kan for øvrigt heller ikke se du har nogen omtale af det på din hjemmesiden?




Cleverland skrev den 7. december 2013 kl.23:37 følgende kommentar:

Thank you! Er glad for jeg faldt over dette blog indlæg. Var slet ikke opmærksom på "scrappers" før jeg fik læst dette.. Det giver da stof til eftertanke surprise




Jesper skrev den 6. august 2014 kl.14:30 følgende kommentar:

Tak for det. Har du kendskab til andre scrapers, man skal være på vagt overfor?

 

-Jesper




Mathias skrev den 5. februar 2015 kl.10:30 følgende kommentar:

Tak for de gode råd! Havde aldrig hørt om scrapers før. Det er da skræmmende. Men nu er man da rustet til at håndtere det i fremtiden.




Nicolai skrev den 5. oktober 2015 kl.00:08 følgende kommentar:

Endelig! Jeg har ledt efter en løsning til at slippe af med scrapers på min hjemmeside i et godt stykke tid. Efter forskellige metoder, synes det omsider at denne virker. 

 

Lidt teknisk, så det er utrolig godt at der er billeder til at supplere guiden.

 

Tak for hjælpen :-)




Taylor James skrev den 8. januar 2016 kl.13:15 følgende kommentar:

@Jesper: Vi har haft mange problemer med Amazons S2 servere, hvor flere og flere scrapers bliver hosted fra. 




Morten skrev den 8. januar 2016 kl.13:15 følgende kommentar:

 
Kind af et problem jeg havde problemer med, tak, der virkelig ryddet ting op for mig. 



Anders Jensen skrev den 17. februar 2016 kl.16:00 følgende kommentar:

Stadig super relevant indlæg. Vi har selv været slemt plaget af scrapers - det har så både været udenlandske og danske forsøg.




Hazzlefree skrev den 21. februar 2016 kl.01:39 følgende kommentar:

Selvom opslaget er lidt gammelt, er det stadig super relevant. Sad netop og Googlede efter en løsning, og stødte på dette opslag. Håber det løser vores problemer i vores digitale bureau.

 

Tak!




Sparta Media skrev den 13. marts 2016 kl.09:58 følgende kommentar:

Tak for god info. Lige noget jeg kan bruge. Man kan aldrig blive for klog på nettet.




Nooky skrev den 16. marts 2016 kl.11:40 følgende kommentar:

Tak det er lige den information jeg har ledt efter til min side http://www.nooky.dk/

 

Det bliver implanteret med det samme.




Domæneguide skrev den 31. marts 2016 kl.12:46 følgende kommentar:

Artiklen er super gylden - men ikke lige så relevant, som den var for 3 år siden. Iøvrigt flot af dig, Michael at siden rankerer så flot på Google :) I dag er Googlew blevet langt bedre til at skelne mellem godt og ondt duplicate content. Ligeledes er vores bedste ven blevet bedre til at penalize den rette enhed. Der er overordnet ikke særlig stor grund til at være bange for det længere.

 

Dog er der en anden grund til, at blokere for scrapes (kun de rigtige). I SEO branchen er folk som gribbe og de studerer hverandens linkprofil møjsommeligt igennem for at kopiere backlinks. Dette kan man let imødekomme ved at blokere de gængse scrapere på markedet AHrefs, majestic, Moz etc etc.




Thomas skrev den 1. maj 2016 kl.14:23 følgende kommentar:

Jeg er enig med mr. domæneguide ovenfor. Jeg kan dog ikke helt forstå din ide med at blokere scrapers på DIN side for at udgå at folk kan se din linkprofil på f.eks. ahrefs. Linkprofilen er jo eksterne links, og ahref vil jo sagtens kunne crawlet et link fra en anden side og registere den til din side selvom ahrefs bot ikke møder en forbidden side hos dig. Så umiddelbart kan jeg kun se, at du kan rbuge blokering scraperes på din egen side, hvis du ikke ønsker at andre skal se, hvad du linker ud til?

 

 




Fargelinser skrev den 11. maj 2016 kl.13:12 følgende kommentar:

Hmmm - god beskrivelse, men skal godt nok lige holde tungen lige i munden, men er spændt på om det hjælper..

Mvh

Hans




Krua Thai skrev den 21. september 2016 kl.09:22 følgende kommentar:

Tak for det min side skal ikke scrabes. Men rigtig godt indlæg.

 

God dag :)




Steffen Kragh skrev den 9. oktober 2016 kl.12:27 følgende kommentar:

Super artikel og rigtig smart fundet på! Specielt ifm. det, som kaldes linkbygning, skal man bruge det.




Salezoo.dk skrev den 22. december 2016 kl.19:19 følgende kommentar:

Faldt lige over den her fine scrapers artikel igen. Er der nogen der ved hvilket firma fra Roskilde der var tale om?




Michael L. skrev den 8. februar 2017 kl.13:41 følgende kommentar:

Lækker artikel lige noget vi kunne bruge i vores arbejde på at sikre vores side.




Lars Staghøj Hansen skrev den 14. april 2017 kl.23:11 følgende kommentar:

Når man nu er igang med at lukke af for de dårlige sider kan man jo lige indsætte dem her med.
Passer til sider med php  

 

RewriteEngine On    

RewriteCond %{HTTP_USER_AGENT} AppEngine [NC] RewriteRule .* – [F]

RewriteCond %{HTTP_USER_AGENT} MJ12bot [NC] RewriteRule .* – [F]

RewriteCond %{HTTP_USER_AGENT} Updownerbot [NC] RewriteRule .* – [F]

 

 




Christoffer skrev den 4. maj 2017 kl.11:08 følgende kommentar:

Perfekt information 1000 tak for det.




Christoffer skrev den 25. maj 2017 kl.07:04 følgende kommentar:

God information og da jeg netop har fundet en masse trafik i analytic som er fra uvedkommende lande, så fandt jeg den her artikel :) dit løsning med crome er sku smart :) og rart at kunne selv tjekke at det virker




Ian Nielsen skrev den 26. juni 2017 kl.12:33 følgende kommentar:

Jeg takker for en god artikel om scrapers det er virkelig noget jeg kan bruge på min side.




Tanjs Lauritzen skrev den 30. juni 2017 kl.08:45 følgende kommentar:

Det lyder rigtig fint. Helt klart noget som man har bruge. Det er tilføjet min htaccess.

 

God artikel tak.

 

Mvh

Tanjs




Michael Lauritzen skrev den 29. august 2017 kl.08:53 følgende kommentar:

Jeg har prøvet at få flere sider srcabet det er underligt at se flere sider som ligner ens egen og man får enda links fra den.

 

Vidste ikke der fantes sådan en god løsning. Det er super tak.




Mytrends.dk skrev den 18. september 2017 kl.22:26 følgende kommentar:

Super fin artikel og guide Michael. Så håber jeg at jeg kan være på forkant med problemet hvis det stadig er udbredt.

Fatter simpelthen ikke at folk gider spilde deres tid på at ødelægge andres arbejde!




Torben skrev den 25. oktober 2017 kl.10:28 følgende kommentar:

Vi har netop haft samtlige scrapers på vores site - må lige se om vi ikke kan gøre noget ved det efter at se, at man kan prøve at sortere dem fra. Tak :-)



Skriv en kommentar til "Udeluk scrapers fra dit website".
Du er mere end velkommen til at skrive en kommentar. Bloggen har do-follow på links, men hvis vi fornemmer, at din kommentar bærer præg af at være skrevet med henblik på linkbuilding, eller links er af en karaktér som vi ikke kan stå inde for, så forbeholder vi os retten til at sætte no-follow på links, fjerne links fra din kommentar eller i særlige tilfælde, helt slette din kommentar.

Dit navn *
:

Din e-mail *
: (Offentliggøres ikke)

Evt. hjemmeside
:

Kommentar *

Hvad hedder det produkt der kommer fra danske malkekøer og er på fire bogstaver? (spamkode *)

Ja tak, jeg vil gerne have besked når der kommer nye kommentarer til dette blogindlæg

Felter markeret med * skal udfyldes


  • Currently 5,1/6 Stars.
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

Undgå at få dit website scrapet
Siden er vurderet til 5,1 ud af 6 baseret på 7 stemmer