Udeluk scrapers fra dit website

Udgivet den 20. marts 2013 af Michael Oxkjær

Enhver der arbejder med søgemaskineoptimering ved, hvad det kan betyde såfremt man bliver ramt af duplicated content, så når nogle henter alt dit indhold fra dit website for at vise publiserer det på andre sites, ja så skal man reagerer på det.

Èn af metoderne er, at udelukke disse "scrapers" via den "User Agent" de udsender.

Dette indlæg kan forekomme lidt teknisk, så er du advaret, men ellers må du tage fat i din udbyder og få dem til at hjælpe :-)
 

 


I går aftes, udsendte Thomas Rosenstand en advarsel på Google + hvori han gjorde opmærksom på, at et firma fra Roskilde havde "scrapet" en lang række hjemmesider via en proxy.

Jeg skulle naturligvis se om jeg var ramt, og som det fremgår af nedenstående skærmprint, så var det tilfældet:



Jeg kiggede i min Analytics og kunne der se, at jeg i de sidste par dage havde haft enormt mange besøg fra Californien, der alle kun havde set en enkelt side og havde en varighed på 0 sekunder.
Netop enkeltsidefrekvensen, den lave besøgstid og ikke mindst mængden af dem bør få alarmklokkerne til at ringe.

Thomas kommer i sin advarsel med en metode hvortil man kan udelukke den pågældende scraper - der benytter sig af en "User Agent" streng der hedder "AppEngine" - såfremt ens website benytter PHP, og det er ved at indsætte følgende i sin htaccess fil:
 

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} AppEngine [NC]
RewriteRule .* - [F]


Nu er vi nogle der kører vore websites på Windowsservere og derfor ikke kan benytte htaccess, men i stedet kan vi bruge den fil der hedder web.config som ligger i roden af ens website.

Da jeg jo var ramt af måtte jeg finde ud af hvordan man løste det, og én af måderne er at tilføje følgende regel til sin web.config:
 

<rule name="BlokerAppEngine" patternSyntax="Wildcard" stopProcessing="true">
  <match url="*" />
    <conditions>
       <add input="{HTTP_USER_AGENT}" pattern="AppEngine" />
     </conditions>
       <action type="CustomResponse" statusCode="403" statusReason="Forbidden: Access is denied." statusDescription="Get Lost." />
 </rule>


Har man ikke en web.config liggende i roden af serveren, så opretter man blot en .txt fil der hedder web.config som ser således ud:
 

<?xml version="1.0" encoding="UTF-8"?>
<configuration>
   <system.webServer>

<rewrite> 
      <rules>

<rule name="BlokerAppEngine" patternSyntax="Wildcard" stopProcessing="true">
  <match url="*" />
    <conditions>
       <add input="{HTTP_USER_AGENT}" pattern="AppEngine" />
     </conditions>
       <action type="CustomResponse" statusCode="403" statusReason="Forbidden: Access is denied." statusDescription="Get Lost." />
 </rule>

      </rules> 
</rewrite>
 
    </system.webServer>
</configuration>

 


Test om det virker


Èn ting er jo at ændre sin htaccess eller sin web.config, en anden ting er om det virker efter hensigten, og det kan og bør man tjekke.

Der findes pluginns til diverse browsere, men du kan faktisk teste det uden at installerer noget overhovedet - hvis du da bruger Google Chrome. Har du ikke Google Chrome, så har du en anledning til at hente den :-)

Åben din hjemmeside og find udviklerværktøjer:



Når udviklerværktøjet er åbnet, klikker du på det lille tandhjul i nederste højre hjørne:



Så vælger du punktet "Overrides" og sætter indstillingerne som nedenstående:



Lad udviklervinduet stå åbent, og og genindlæs din side:



Hvis det virker, så skulle du blive nægtet adgang til siden:




Den pågældende proxy blev dog lukket ned i går aftes, men mon ikke de lukker op for den igen på et tidspunkt når stormen har lagt sig - det tror jeg i hvert fald :-)

Hvis du vil vide mere om "scraping" kan du læse det her.
 
 
 






Kommentarer til "Udeluk scrapers fra dit website"



Brian Reinhold Jensen skrev den 20. marts 2013 kl.11:03 følgende kommentar:

God opsummering, især tror jeg mange vil være glade for din howto på IIS - tak for det.

 

Det er værd at bemærke at der også findes andre "scrapers" derude, så det er bare med at få dem smidt i .htaccess eller config.web når de opdages i loggen.




Michael Oxkjær skrev den 20. marts 2013 kl.11:15 følgende kommentar:

Enig Brian, og man skal jo også passe på med ikke at blokerer for dem man gerne vil have besøg af wink

 

Mht. IIS, så er det tit noget som bliver forbigået, og jeg har en lille intern mission om, at finde løsninger der modsvarer de tips der kommer til htaccess (som jeg ikke fatter en bjælde af), da vi jo trods alt er en hel del der benytter Windowsservere smiley




Max Reimer-Nielsen skrev den 25. marts 2013 kl.09:29 følgende kommentar:

Super artikel har dog en lille rettelse til din web.config.

 

StatusDescription skal være med lille s i starten, ellers spænger websitet i luften :-)

 

Men stadig - super artikel og tak for hjælpen.




Michael Oxkjær skrev den 25. marts 2013 kl.09:42 følgende kommentar:

Tak for oplysningen Max, ikke at den ligefrem springer i luften, men det er korrekt den fejler, så det skal naturligvis være med lille "s" wink

 




Povl Sørensen skrev den 19. september 2013 kl.20:56 følgende kommentar:

Hej Michael

 

Tak for din gode artikel.

 

Kender du dette program: 

www.copyscape.com

som jeg selv omtaler på min hjemmeside

 

Med venlig hilsen

 

Povl Sørensen




Michael Oxkjær skrev den 19. september 2013 kl.20:56 følgende kommentar:

Hej Povl,

 

Jeg kender godt Copyscape, hvorfor spørger du?

 

Jeg kan for øvrigt heller ikke se du har nogen omtale af det på din hjemmesiden?




Cleverland skrev den 7. december 2013 kl.23:37 følgende kommentar:

Thank you! Er glad for jeg faldt over dette blog indlæg. Var slet ikke opmærksom på "scrappers" før jeg fik læst dette.. Det giver da stof til eftertanke surprise




Jesper skrev den 6. august 2014 kl.14:30 følgende kommentar:

Tak for det. Har du kendskab til andre scrapers, man skal være på vagt overfor?

 

-Jesper




Mathias skrev den 5. februar 2015 kl.10:30 følgende kommentar:

Tak for de gode råd! Havde aldrig hørt om scrapers før. Det er da skræmmende. Men nu er man da rustet til at håndtere det i fremtiden.




Nicolai skrev den 5. oktober 2015 kl.00:08 følgende kommentar:

Endelig! Jeg har ledt efter en løsning til at slippe af med scrapers på min hjemmeside i et godt stykke tid. Efter forskellige metoder, synes det omsider at denne virker. 

 

Lidt teknisk, så det er utrolig godt at der er billeder til at supplere guiden.

 

Tak for hjælpen :-)




Taylor James skrev den 8. januar 2016 kl.13:15 følgende kommentar:

@Jesper: Vi har haft mange problemer med Amazons S2 servere, hvor flere og flere scrapers bliver hosted fra. 




Morten skrev den 8. januar 2016 kl.13:15 følgende kommentar:

 
Kind af et problem jeg havde problemer med, tak, der virkelig ryddet ting op for mig. 



Anders Jensen skrev den 17. februar 2016 kl.16:00 følgende kommentar:

Stadig super relevant indlæg. Vi har selv været slemt plaget af scrapers - det har så både været udenlandske og danske forsøg.




Hazzlefree skrev den 21. februar 2016 kl.01:39 følgende kommentar:

Selvom opslaget er lidt gammelt, er det stadig super relevant. Sad netop og Googlede efter en løsning, og stødte på dette opslag. Håber det løser vores problemer i vores digitale bureau.

 

Tak!




Sparta Media skrev den 13. marts 2016 kl.09:58 følgende kommentar:

Tak for god info. Lige noget jeg kan bruge. Man kan aldrig blive for klog på nettet.




Nooky skrev den 16. marts 2016 kl.11:40 følgende kommentar:

Tak det er lige den information jeg har ledt efter til min side http://www.nooky.dk/

 

Det bliver implanteret med det samme.




Domæneguide skrev den 31. marts 2016 kl.12:46 følgende kommentar:

Artiklen er super gylden - men ikke lige så relevant, som den var for 3 år siden. Iøvrigt flot af dig, Michael at siden rankerer så flot på Google :) I dag er Googlew blevet langt bedre til at skelne mellem godt og ondt duplicate content. Ligeledes er vores bedste ven blevet bedre til at penalize den rette enhed. Der er overordnet ikke særlig stor grund til at være bange for det længere.

 

Dog er der en anden grund til, at blokere for scrapes (kun de rigtige). I SEO branchen er folk som gribbe og de studerer hverandens linkprofil møjsommeligt igennem for at kopiere backlinks. Dette kan man let imødekomme ved at blokere de gængse scrapere på markedet AHrefs, majestic, Moz etc etc.




Thomas skrev den 1. maj 2016 kl.14:23 følgende kommentar:

Jeg er enig med mr. domæneguide ovenfor. Jeg kan dog ikke helt forstå din ide med at blokere scrapers på DIN side for at udgå at folk kan se din linkprofil på f.eks. ahrefs. Linkprofilen er jo eksterne links, og ahref vil jo sagtens kunne crawlet et link fra en anden side og registere den til din side selvom ahrefs bot ikke møder en forbidden side hos dig. Så umiddelbart kan jeg kun se, at du kan rbuge blokering scraperes på din egen side, hvis du ikke ønsker at andre skal se, hvad du linker ud til?

 

 




Fargelinser skrev den 11. maj 2016 kl.13:12 følgende kommentar:

Hmmm - god beskrivelse, men skal godt nok lige holde tungen lige i munden, men er spændt på om det hjælper..

Mvh

Hans




Krua Thai skrev den 21. september 2016 kl.09:22 følgende kommentar:

Tak for det min side skal ikke scrabes. Men rigtig godt indlæg.

 

God dag :)




Steffen Kragh skrev den 9. oktober 2016 kl.12:27 følgende kommentar:

Super artikel og rigtig smart fundet på! Specielt ifm. det, som kaldes linkbygning, skal man bruge det.




Salezoo.dk skrev den 22. december 2016 kl.19:19 følgende kommentar:

Faldt lige over den her fine scrapers artikel igen. Er der nogen der ved hvilket firma fra Roskilde der var tale om?




Couponix.dk skrev den 27. december 2016 kl.20:13 følgende kommentar:

Tusind tak fordi du tog tiden til at skrive denne artikel, har også haft oplevet dette, og har også implementeret dette til min side nu. 




Michael L. skrev den 8. februar 2017 kl.13:41 følgende kommentar:

Lækker artikel lige noget vi kunne bruge i vores arbejde på at sikre vores side.




Lars Staghøj Hansen skrev den 14. april 2017 kl.23:11 følgende kommentar:

Når man nu er igang med at lukke af for de dårlige sider kan man jo lige indsætte dem her med.
Passer til sider med php  

 

RewriteEngine On    

RewriteCond %{HTTP_USER_AGENT} AppEngine [NC] RewriteRule .* – [F]

RewriteCond %{HTTP_USER_AGENT} MJ12bot [NC] RewriteRule .* – [F]

RewriteCond %{HTTP_USER_AGENT} Updownerbot [NC] RewriteRule .* – [F]

 

 



Skriv en kommentar til "Udeluk scrapers fra dit website".
Du er mere end velkommen til at skrive en kommentar. Bloggen har do-follow på links, men hvis vi fornemmer, at din kommentar bærer præg af at være skrevet med henblik på linkbuilding, eller links er af en karaktér som vi ikke kan stå inde for, så forbeholder vi os retten til at sætte no-follow på links, fjerne links fra din kommentar eller i særlige tilfælde, helt slette din kommentar.
Jeg er træt af alle de links til lånesider og andre pengesider hvor kommentaren helt åbenlyst er skrevet for at få et link, så alle kommentarer af denne type slettes fremadrettet uden diskution!

Dit navn *
:

Din e-mail *
: (Offentliggøres ikke)

Evt. hjemmeside
:

Kommentar *

Hvad hedder det produkt der kommer fra danske malkekøer og er på fire bogstaver? (spamkode *)

Ja tak, jeg vil gerne have besked når der kommer nye kommentarer til dette blogindlæg

Felter markeret med * skal udfyldes


  • Currently 5,1/6 Stars.
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

Undgå at få dit website scrapet
Siden er vurderet til 5,1 ud af 6 baseret på 7 stemmer