Kommentarlinks sind dofollow!

Link Checker im Test: Integrity als Xenu-Alternative für den Mac?

von Florian Elbers am 29. August 2010

Ich muss gestehen, ich crawle nebenbei ständig das Web. Damit verfolge ich meistens einen der drei folgenden Zwecke:

  1. Ich finde Expired Domains mit guten und vielen Backlinks oder mit schönen Keywords in der URL.
  2. Ich finde tote Links auf meinen eigenen Websites und kann diese reparieren.
  3. Ich finde tote Links auf anderen Seiten finden und mach daraufhin die Besitzer dieser darauf aufmerksam. Dabei bitte ich dann entweder um eine Verlinkung einer meiner Seiten oder aber ich starte eine eigene Seite mit Inhalten, die dem toten Linkziel ähneln und biete diese als alternatives Linkziel an.

Dafür habe ich bisher Xenu’s Link Sleuth für den PC benutzt und war damit immer zufrieden. Auf dem Mac habe ich die kostenlose Virtualisierungssoftware VirtualBox installiert und lasse dort Windows XP mit eben Xenu immer schön im Hintergrund laufen. Aber gerade beim Scannen größerer Websites oder einer ganzen Liste von Seiten schnellt die benötigte Rechenpower schon mal in die Höhe.

Deshalb habe ich mich nach einer nativen Alternative für Xenu auf dem Mac umgesehen und bin auf Integrity von PeacockMedia gestoßen. Grundsätzlich ist die Funktionsweise beider Programme identisch. Ich möchte deshalb hier nur auf die für mich entscheidenden Unterschiede eingehen.

Die Vorteile von Integrity sind für mich:

  • Man kann den Useragent beliebig ändern. Standardmäßig ist „integrity/3“ voreingestellt. Wer jedoch umgehen möchte, dass manche Seiten Integrity geblockt haben, der kann einfach den Useragent seines eigenen Browsers, in meinem Fall „Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0b3) Gecko/20100805 Firefox/4.0b3“ oder eines beliebigen anderen Browsers dort eintragen.
  • Integrity bietet zudem die Möglichkeit Query Strings zu ignorieren. Diese Abfrageausdrücke sind Teil einer URL und können zusätzliche Informationen übertragen. Beim HTTP-Protokoll folgt der Query String nach einem Fragezeichen, wie z. B. in http://www.domain.de/beispiel.php?variable=wert. Wenn diese auf der zu crawlenden Website nicht genutzt werden, ist dies egal, ob man den Haken setzt. Wenn eine Seite jedoch Parameter z. B. in Form von Session-IDs benutzt, ist es sinnvoll die Funktion zu aktivieren. Doch Vorsicht: Wenn der Query String festlegt, welche Unterseite angezeigt wird (z. B. auf einer WordPress-Installation ohne aktivierte Permalinks wie http://www.domain.de/?p=83), dann sollte man die Funktion nicht nutzen.
  • Eine weitere Möglichkeit das Crawlen zu beschleunigen ist die Option „Pages have unique titles“. Bevor Integrity einem internen Link auf z. B. „index.html“ folgt, überlegt es, ob es sich die angelinkte Seite schon einmal angesehen hat und vergleicht daher den Link mit der Liste schon gecrawlter Seiten. Früher passierte dies anhand der URL, aber da es häufig vorkommt, dass ein und die selbe Seite anhand unterschiedlicher URLs verlinkt wird, ist man jetzt dazu übergegangen, dies anhand der Titles zu bewerkstelligen. Voraussetzung hierfür ist jedoch, dass jede Unterseite einen individuellen Title Tag besitzt.
  • Schönes zusätzliches Feature: Integrity gibt die Anzahl der Verlinkungen pro URL an. So hat man einen schnellen Überblick, welche Pages oft verlinkt sind.

Die Nachteile von Integrity:

  • Die Anzahl der abzuarbeitenden Threads kann man nicht numerisch einstellen, während dies bei Xenu möglich ist. Man kann nur ein ungefähres Gefühl entwickeln, an wie vielen Threads Integrity gerade arbeitet.
  • Die Crawlingtiefe kann nicht differenziert bestimmt werden. Man hat nur die Wahl zwischen Crawlingtiefe 1 (also das Setzen eines Hakens bei „Check this page only“) oder unendlicher Crawlingtiefe. Xenu erlaubt hier das Einstellen eines konkreten Wertes, bis zu welcher Ebene das Programm crawlen soll.
  • Integrity erlaubt nur eine Domain gleichzeitig zu crawlen, bei Xenu können hingegen ganze Listen von URLs (im Textformat) abgespidert werden.
  • Bei Integrity existiert keine Anzeige wie z. B. ein Balken oder eine Prozentzahl um anzuzeigen, wie weit der Crawlvorgang fortgeschritten ist.

Fazit: Ich werde wohl weiterhin auf Xenu setzen. Hier überzeugen mich vor allem die Features ganze Textlisten von URLs abzuspidern und das genau Einstellen der Crawlingtiefe. Trotzdem bietet Integrity eine gute Alternative für den Mac.

Wie sind eure Erfahrungen mit Integrity? Oder kennt ihr noch ander bzw. bessere Softwarelösungen für oben genannte Zwecke?

In → Mac, SEO

14 Kommentare
  1. Die Idee mit einem eigenen Crawler Webseites nach bestimmten Informationen abzuscannen wollte ich schon immer mal wieder aufnehmen. Vor langer Zeit habe ich sogar selber spezielle “Crawler” für meinen damaligen Arbeitgeber programmiert (lief in PHP von einem Webserver aus).
    Hab mir zumindest erstmal Xenu runtergeladen, mal sehn wann ich dazu komme mal ein bisschen rumzuprobieren. :-)
    Interessieren würde mich noch aus welchen “Quellen” du deine URL-Listen aufbaust die du so abscannst.

    • Florian permalink

      Würds dir reichen, wenn ich als Quelle “Google” angebe? ;-)
      Arbeite halt oft mit den “site:”- oder “inurl:”-Operatoren und suche mir damit Trust-Seiten oder welche mit hohem PageRank raus. Und die werden dann fleissig im Texteditor zusammengetragen. Dafür nutze ich übrigens Textwrangler.

      • Jep, der Google-Hinweis “site:” und “inurl:” reicht mir :-)
        Wollte ja nur ne grundsätzliche Vorstellung deiner Vorgehensweise bekommen. Gibt ja wie bei allem immer mehrere Arten die Dinge anzugehen.

  2. Xenu ist gut für kleinere Webseiten (bis 2 mio Seiten), aber ab einer bestimmten Größe der Seite stürzt es bei mir ab… Ich benutze es nur noch zum testen eigener Projekte (Titles checken, errormails auslösen). Um Expired Domains effizient zu finden gibt es bessere Wege. Kannst dir ja mal meine Seite ansehen. Dort geht es genau um dieses Thema. :)

    • Florian permalink

      Die Erfahrung hab ich auch hin und wieder gemacht. Bei so großen Seiten stell ich dann die Crawingltiefe niedriger ein. Schau mir deine Seite gern an.

  3. Ich kannte weder das eine, noch das andere Programm bisher, obwohl ich im Rahmen meiner Onlinemarketing Agentur seit x Jahren ständig auf gute Software angewiesen bin… sag hab ich was verpasst? wahrscheinlich!

  4. Uih, das letzte Mal checkte ich tote Links, da gab’s meine aktuellen Seiten noch gar nicht. – Yut, XENU liegt schon einmal auf’m Desktop.

  5. Kann es sein, dass Integrity nicht auf PPC läuft?

    In den System requirements steht nur 10.3 oder höher. Habe noch einen alten Mac Mini hier rumstehen, der würde sich gut für sowas eignen, damit mein Produktivarbeitsplatz nicht unnötig Ressourcen verschwendet. Leider crasht Integrity sofort nach dem Start.

    • Florian permalink

      Mit Integrity auf 10.3 habe ich leider keine Erfahrungswerte. Somit bliebe dir wohl oder übel nur die Virtualisierungsvariante.

  6. Hallo,

    ich habe vor einigen Tagen mein Macbook Air bekommen, mein erstes Gerät ausserhalb der Windows-Welt.
    Ich suche nach und nach Tools für SEO, Analysen etc für den Mac. Auf dieser Seite bin auf integrity und textwrangler gestosse… das ist schonmal sehr gut.

    Kennt jemand eine alternative für “Linktausch Pro”? Ich brauche eine Software mit der ich Links eintragen, verwalten und checken kann!

    beste Grüße

  7. I used linkchecker from sourceforge, the command-line version should handle large sized sites, runs fine on a mac.

    http://linkchecker.sourceforge.net/

  8. Super Tip! Genau sowas habe ich für den Mac gesucht!

Trackbacks & Pingbacks

  1. Integrity – Der Link Checker | Apple Forum
  2. Google-Filter – Wie komme ich heraus?

Antworten

Beachte: XHTML ist erlaubt. Deine e-Mail-Adresse wird nicht veröffentlicht.

Neue Kommentare per RSS-Feed verfolgen

 
Highslide for Wordpress Plugin