Gefundene Bild-Kopien

Google Search by Image scrapen und eigene Bilder überwachen

Auf der SEO Campixx 2012 habe ich gezeigt wie ich mit Bildern, die ich über Creative Commons freigebe, Links aufbaue. Vielen Dank für die vielen Session-Teilnehmer und das tolle Feedback. Bisher habe ich immer manuell ausgewertet, welche Seiten meine Bilder einsetzen.

Der Weg zur automatisierten Überwachung ist aber gar nicht so weit wie mir der sehr gute Votrag von Pascal gezeigt hat. Das Feedback von Ingo, dass man beim Google Scraping im kleinen Stil noch nicht an die Grenzen stößt (Captchas, Proxies etc), hat mich ermutigt, selbst in das Thema einzusteigen! Ich bin in zwei Schritten vorgegangen. Zunächst benötigt man eine Liste von allen zu überwachenden Bildern. Diese schickt man anschließend regelmäßig durch Google Search By Image und wertet aus, welche Seiten die Bilder einsetzen.

Zu überwachende Bilder bestimmen

Die Liste der überwachenden Bilder lässt sich schnell erzeugen. Da ich meine Bilder alle bei Flickr hoste, ziehe ich mir per API regelmäßig eine Liste aller Dateien. Es gibt sogar noch einen einfacheren Weg. Wer eine Bilder-Sitemap, die sich automatisch per CRM oder WordPress-Plugin erzeugen lässt, verwendet, ist schon am Ziel und kann die URLs einfach in eine Datenbank schreiben. Das Monitoren von Bildern lässt sich dadurch beispielsweise auch sehr leicht als Dienstleistung für Fotografen und Künstler anbieten, die lediglich eine Bilder-Sitemap zur Verfügung stellen müssen.

Neue Sitemap-Darstellung in GWT
Praktisch: neue Sitemap-Darstellung in den GWT

Auswertung

Beide Skripte laufen täglich und produzieren eine Liste von Fällen, die ich mir näher ansehe und bearbeite.

Gefundene Bild-Kopien
Gefundene Bild-Kopien

Update 11.07.2013

Ich biete das Tool nun für Jeden an: http://plaghunter.com

Sprecht mich bei Fragen und Anregungen einfach an. Vielleicht besteht auch Interesse an einem weiteren Workshop oder einem Screencast?

8 Gedanken zu „Google Search by Image scrapen und eigene Bilder überwachen“

  1. Du kannst ja als Selector noch table.ts vorschalten, also etwa so:
    foreach($html->find(‚table.ts a.l‘) as $element) …

    Soweit ich das gesehen habe, liegen die echten Treffer in einer kleinen Tabelle drin.

  2. Ah sehr gut. Habe für mein jüngstes Projekt auch die Search by Image Funktion von google gescrapt, war mir aber noch nicht ganz im klaren darüber, wie ich das Bild in den kodierten String umwandle (also automatisiert).

    Das hätte sich damit auch geklärt. Besten Dank!

  3. Sehr sehr coole Skripte, vielen Dank für die Arbeit!

    Allerdings habe ich in meinem flickr-Account nicht alle Bilder in Alben organisiert, die werden von deinem Import-Skript nicht erfasst. Ich habe den Code etwas bearbeitet, sodass er den kompletten Fotostream erfasst:

    http://snippi.com/s/uh70ijr

  4. Hallo Marco,
    ich hatte ein ähnliches Script bereits lange in betrieb, doch leider hat google jetzt eine Sicherung eingebaut um Curl zu blocken, hast du eine Idee wie man es dennoch lösen könnte? Ich bin schon Tage auf der Suche nach einer anderen Möglichkeit um weiter Search by Image so in der Art zu nutzen.

Hinterlasse eine Antwort

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *