Blog
.

FAQ

  1. Comparer-Ergebnisse sind zu schlecht - was kann ich tun?
  2. Wieviele Crawler können parallel laufen?
  3. Warum gibt es beim Image-Matching manchmal fehlerhafte Zuordnungen?
  4. Wie lange dauert es bis es Ergebnisse gibt?
  5. Warum werden beim Vergleich einer Domain mit sich selber unterschiedlich viele URLs gecrawled?
  6. Was bedeutet die Warnmeldung, dass das Ergebnis unvollständig sei?

 

1. Comparer-Ergebnisse sind zu schlecht - was kann ich tun?

Wenn die Ergebnisse des Vergleichs zu schlecht sind, liegt das in der Regel daran, dass der eigentliche Content der Seiten nicht korrekt gefunden werden kann. Die RelaunchApp versucht zwar beim Crawling den eigentlichen Content-Bereich zu finden, allerdings gelingt das oft nicht, da die Seiten zu unterschiedlich sind. 

Um die Vergleiche deutlich zu verbessern, lohnt es sich in der Regel, HTML-Elemente anzugeben, die den eigentlichen Content umschließen. Diese Start- und Stop-Sequenzen kannst du pro Domain eintragen. Wenn du dort sinnvolle Daten einträgst, sind die Ergebnisse in der Regel beim nächsten Crawl sehr viel besser!

Settings Separator

Es kann auch passieren, dass die Seiten bei zu vielen gleichzeitigen Crawlern leere Inhalte oder Fehlermeldungen auswerfen. Dann sind alle Inhalte aller Seiten gleich, weil eben überall die gleiche Fehlermeldung drin steht. Überprüfe dazu die Auslastung deines Servers. In diesem Fall solltest du die Anzahl der Crawler reduzieren. Dadurch dauert der Prozess zwar länger, aber die Resultate sind dann besser.

2. Wie viele Crawler können parallel laufen?

Das hängt davon ab, welchen Account du nutzt und ob du deine Seite validiert hast. Als Standard sind 10 Crawler parallel möglich - mehr gleichzeitige Aufrufe können deine Seite schädigen. Aus diesem Grund musst du deine Seite zuerst validieren, damit klar ist, dass du auch der Eigentümer bist. Taste dich am besten vorsichtig heran bis du sicher bist, dass es zu keiner Überlastung kommt.

3. Warum gibt es beim Image-Matching manchmal fehlerhafte Zuordnungen? 

Fehlerhafte Zuordnungen kommen in der Regel dann vor, wenn die Bilder sehr klein sind oder sehr wenig Inhalt haben. Dann sind die zu vergleichenden Daten sehr sehr klein und das Ergebniss kann dann überraschend sein, da es zu großen Sprüngen in der Zuordnung kommt. In der Regel passiert dies bei ca. 1 – 2 Bildern unter Tausend.

4. Wie lange dauert es, bis es Ergebnisse gibt?

Das hängt völlig davon ab, wieviel Power dein Server hat und wie viele Inhalte es auf der Seite gibt. Generell gilt, das die Bildvergleiche etwas länger brauchen als die Textvergleiche. Das bedeutet, dass bildlastige Seiten länger brauchen, bis sie Ergebnisse produzieren. Bei Seiten mit mehr als 100.000 Unterseiten und Bildern kann es aufgrund der enormen Datenmenge sogar mehr als einem Tag dauern, bis alle Ergebnisse vorliegen. 

5. Warum werden beim Vergleich einer Domain mit sich selber unterschiedlich viele URLs gecrawled?

Wenn man eine Domain z.B. mit sich selber vergleicht im Free-Tarif werden oft für alt und neu unterschiedlich viele URLs gecrawled. Das liegt daran dass der Aufruf der jeweiligen URLs in einer zufälligen Reihenfolge erfolgt. Erst wenn die Domain komplett durchgecrawled wird, sind die Ergebnisse identisch. Wenn die Domain aber nicht komplett gecrawled werden kann, ist das Ergebniss des Vergleichs natürlich auch nicht vollständig. So entsteht dann eine Liste von verlorenen URLs die beim kompletten Crawl nicht entstehen würde. In diesem Fall sollten Sie auch im Projekt-Dashboard die Warnmeldung sehen, dass das Ergebnis unvollständig ist.

6. Was bedeutet die Warnmeldung, dass das Ergebnis unvollständig sei?

Je nach Tarif gibt es unterschiedliche Limits, wie viele URLs insgesamt gecrawled werden. Sobald das Limit erreicht ist, wird das Crawlen unterbrochen und es werden nur die bis zu diesem Zeitpunkt analysierten Seiten verglichen. Je nachdem welche URLs bis dahin  gecrawled wurden, können dabei Seiten fälschlicherweise als "verloren" betrachtet werden oder nicht perfekt passende Weiterleitungen gefunden werden, weil die eigentlichen Zielseiten noch nicht vom Crawler untersucht wurden. Fazit: Wenn man valide Ergebnisse möchte muss die Domain immer vollständig gecrawled werden können. Im Zweifel benötigt man einen größer dimensionierten Tarif.

.

xxnoxx_zaehler

.

xxnoxx_zaehler