Google Search by Image scrapen und eigene Bilder überwachen 6

Auf der SEO Campixx 2012 habe ich gezeigt wie ich mit Bildern, die ich über Creative Commons freigebe, Links aufbaue. Vielen Dank für die vielen Session-Teilnehmer und das tolle Feedback. Bisher habe ich immer manuell ausgewertet, welche Seiten meine Bilder einsetzen.

Der Weg zur automatisierten Überwachung ist aber gar nicht so weit wie mir der sehr gute Votrag von Pascal gezeigt hat. Das Feedback von Ingo, dass man beim Google Scraping im kleinen Stil noch nicht an die Grenzen stößt (Captchas, Proxies etc), hat mich ermutigt, selbst in das Thema einzusteigen! Ich bin in zwei Schritten vorgegangen. Zunächst benötigt man eine Liste von allen zu überwachenden Bildern. Diese schickt man anschließend regelmäßig durch Google Search By Image und wertet aus, welche Seiten die Bilder einsetzen.

Zu überwachende Bilder bestimmen

Die Liste der überwachenden Bilder lässt sich schnell erzeugen. Da ich meine Bilder alle bei Flickr hoste, ziehe ich mir per API regelmäßig eine Liste aller Dateien. Es gibt sogar noch einen einfacheren Weg. Wer eine Bilder-Sitemap, die sich automatisch per CRM oder WordPress-Plugin erzeugen lässt, verwendet, ist schon am Ziel und kann die URLs einfach in eine Datenbank schreiben. Das Monitoren von Bildern lässt sich dadurch beispielsweise auch sehr leicht als Dienstleistung für Fotografen und Künstler anbieten, die lediglich eine Bilder-Sitemap zur Verfügung stellen müssen.

Neue Sitemap-Darstellung in GWT

Praktisch: neue Sitemap-Darstellung in den GWT

Auswertung

Beide Skripte laufen täglich und produzieren eine Liste von Fällen, die ich mir näher ansehe und bearbeite.

Gefundene Bild-Kopien

Gefundene Bild-Kopien

Update 11.07.2013

Ich biete das Tool nun für Jeden an: http://plaghunter.com

Sprecht mich bei Fragen und Anregungen einfach an. Vielleicht besteht auch Interesse an einem weiteren Workshop oder einem Screencast?

Ähnliche Beiträge

6 thoughts on “Google Search by Image scrapen und eigene Bilder überwachen

  1. Pingback: SEO Campixx 2012 Recap

  2. Reply Schnurpsel Mrz 14, 2012 11:32

    Du kannst ja als Selector noch table.ts vorschalten, also etwa so:
    foreach($html->find(‘table.ts a.l’) as $element) …

    Soweit ich das gesehen habe, liegen die echten Treffer in einer kleinen Tabelle drin.

  3. Reply netzaffin Mrz 26, 2012 17:45

    Ah sehr gut. Habe für mein jüngstes Projekt auch die Search by Image Funktion von google gescrapt, war mir aber noch nicht ganz im klaren darüber, wie ich das Bild in den kodierten String umwandle (also automatisiert).

    Das hätte sich damit auch geklärt. Besten Dank!

  4. Reply Justus Mrz 26, 2012 17:49

    Sehr sehr coole Skripte, vielen Dank für die Arbeit!

    Allerdings habe ich in meinem flickr-Account nicht alle Bilder in Alben organisiert, die werden von deinem Import-Skript nicht erfasst. Ich habe den Code etwas bearbeitet, sodass er den kompletten Fotostream erfasst:

    http://snippi.com/s/uh70ijr

  5. Reply Marco Mrz 26, 2012 17:52

    @Schnurpsel, Netzaffin und Justus!

    Danke für Feedback, Tipps und Code-Schnippsel!

  6. Reply Anja Feb 23, 2013 01:13

    Hallo Marco,
    ich hatte ein ähnliches Script bereits lange in betrieb, doch leider hat google jetzt eine Sicherung eingebaut um Curl zu blocken, hast du eine Idee wie man es dennoch lösen könnte? Ich bin schon Tage auf der Suche nach einer anderen Möglichkeit um weiter Search by Image so in der Art zu nutzen.

Leave a Reply