Was ist Content Scraping?
Content Scraping ist eine illegale Methode, um Originalinhalte von einer legitimen Website zu stehlen und die gestohlenen Inhalte ohne Wissen oder Erlaubnis des Eigentümers des Inhalts auf eine andere Website zu stellen. Content-Scraper versuchen häufig, gestohlene Inhalte als ihre eigenen zu vererben und liefern den Eigentümern des Contents keine Zuschreibung.
Inhalts-Scraping kann durch manuelles Kopieren und Einfügen erreicht werden, oder es können ausgeklügeltere Techniken verwendet werden, wie z. B. die Verwendung spezieller Software, HTTP-Programmierung oder HTML- oder DOM-Parser.
Ein großer Teil des Inhalts, der dem Scraping zum Opfer fällt, ist urheberrechtlich geschütztes Material; es ohne die Zustimmung des Urheberrechtsinhabers zu veröffentlichen, ist strafbar. Scraper-Sites werden jedoch auf der ganzen Welt gehostet, und Scraper, die aufgefordert werden, urheberrechtlich geschützte Inhalte zu entfernen, können die Domains einfach wechseln oder verschwinden.
Content-Scraper sind in der Lage, den Traffic auf ihre Websites zu lenken, indem sie hochwertigen Content mit Keyword-Dichte von anderen Websites scrapen. Blogger sind besonders anfällig dafür, wahrscheinlich weil einzelne Blogger wahrscheinlich keinen legalen Angriff gegen Scraper starten. Scraper werden ermutigt, diese Praxis fortzusetzen, da Suchmaschinen noch keine effektive Möglichkeit gefunden haben, einzigartige Inhalte aus Scraped-Inhalten herauszufiltern, sodass Scraper weiterhin profitieren können.
Website-Administratoren können sich durch einfache Maßnahmen gegen das Scraping schützen, indem sie z. B. Links zu ihrer eigenen Website innerhalb des Inhalts hinzufügen. Dies wird ihnen zumindest erlauben, etwas Verkehr von abgekratztem Inhalt zu bekommen. Umfassendere Methoden zum Umgang mit Scraping durch Bots beinhalten:
– Kommerzielle Anti-Bot-Anwendungen
– Bots mit einem Honigtopf fangen und ihre IP-Adressen blockieren
– Blockieren von Bots mit JavaScript-Code