Linkcheck einer Seite im Eigenbau

Verfasst am: 24. 04. 2010 [14:31]
Speedy86
Dabei seit: 24.06.2009
Themenersteller

95 Beiträge
Beitrag hilfreich?

Hallo SR Community,
vielleicht wissen es ja bereits einige, das ich ein neues Projekt mit Blogs groß ziehe.
Für das Projekt fehlt ein Script, was eine andere Seite auf einen Backlink durchforstet. Dabei spielt es keine Rolle ob der Link follow oder nicht follow ist.
Es soll ein schneller Check werden ob ein Link gefunden wurde oder nicht. Das Problem besteht aber darin, alle Seiten zu überprüfen und erst mit der Analyse aufzuhören,sobald ein Link gefunden wurde.
Ich weiß nicht ob ich da vielleicht nur auf einen Startseitenlink setze (bei Blogs ist das recht easy).

Um euch noch etwas Hintergrundwissen zu geben... jeder bekommt von meiner neuen Domain einen follow-Backlink, sobald dieser jemand einen Link zur Seite setzt. Um es nicht in Linkhandel ausarten zu lassen, bestehe ich auch nicht auf einen Follow Link. Wichtiger ist mir da Mund-Propaganda und das man sich einfach die neue Domain "merkt".


Nun meine Frage:
Wer hat soetwas schonmal Programmiert und kann mir einige Tipps dazu geben und vll auch gleich hier im Thread eine öffentliche Lösung mit mir erarbeiten (open Source sozusagen)?
Das wesentliche Problem ist eher die Geschwindigkeit. Würde den Crobjob auf 1x Wöchentlich beschränken - aber es werden dennoch mehrere 1000 Links immer geprüft. Vielleicht auch jeden Tag nur 100 Links bis man irgendwann durch ist.

Mfg, Speedy

[Dieser Beitrag wurde 1mal bearbeitet, zuletzt am 24.04.2010 um 14:33.]

 
Verfasst am: 24. 04. 2010 [15:08]
joerg
Dabei seit: 09.06.2009

1540 Beiträge
Beitrag hilfreich?

Hallo Markus

Warum willst du etwas bauen was ich jederzeit manipulieren kann?


Curl muss ich mir aber auch erst mal anschauen noch.

PHP
@$code = file_get_contents ("$url");
if (strpos($code,'example.com')!==false){echo '<a href="'.$url.'">'.$url.'</a>;}




PHP
if (strpos($_SERVER["REMOTE_ADDR"],'IP Adresse deiner Seite')!==false){Einen Link zu der Seite setzen}







 
Verfasst am: 24. 04. 2010 [15:38]
Raptor
Dabei seit: 10.05.2009

1159 Beiträge
Beitrag hilfreich?

@Jörg: Eine sehr motivierende Antwort von dir. wink.gif
Dieses Problem lässt sich umgehen, indem man das Kontroll-Script auch mal auf dem Localhost laufen lässt, denn da ist die IP dynamisch.

@Marcus: Sowas lässt sich mit entsprechender Kenntnis einfach realisieren. Im Grunde bräuchte man dazu nur ein Bot-Script und modifiziert dieses.

 
Verfasst am: 24. 04. 2010 [15:56]
joerg
Dabei seit: 09.06.2009

1540 Beiträge
Beitrag hilfreich?

Raptor schrieb:

@Jörg: Eine sehr motivierende Antwort von dir. wink.gif
Dieses Problem lässt sich umgehen, indem man das Kontroll-Script auch mal auf dem Localhost laufen lässt, denn da ist die IP dynamisch.


Hallo Florian

Autsch das hiesse dann ja ich muss den Localhost auch noch abfangen!
Okay dann frage ich halt eben noch $_SERVER["SERVER_NAME"] nach Localhost ab!

War ausser der Demotivation etwas an meiner Antwort falsch?

Andererseits könnte ich auch nach googlebot abfragen und den Link dann gar nicht setzen!
Aber das wäre dann ja Cloaking !

Gruß
Jörg

[Dieser Beitrag wurde 1mal bearbeitet, zuletzt am 24.04.2010 um 16:01.]

 
Verfasst am: 24. 04. 2010 [16:11]
Raptor
Dabei seit: 10.05.2009

1159 Beiträge
Beitrag hilfreich?

joerg schrieb:

Autsch das hiesse dann ja ich muss den Localhost auch noch abfangen!
Okay dann frage ich halt eben noch $_SERVER["SERVER_NAME"] nach Localhost ab!

Nein, ich meinte, man sollte das Script auch noch lokal laufen lassen, dann hat der Bot eine IP wie jeder andere Mensch auch, und nicht die eines Servers. Dann lässt sich kein Cloaking mehr betreiben, weil man ja jede IP "ausschliessen" müsste. Der Bot sieht dann dasselbe, was der Mensch am selben Computer auch sieht.

 
Verfasst am: 24. 04. 2010 [17:52]
joerg
Dabei seit: 09.06.2009

1540 Beiträge
Beitrag hilfreich?

Hallo Florian

Wenn ich ein Skript lokal ausführe kommt in der Regel soweit mir bekannt ist also IP 127.0.0.1 und die Kennung Localhost ! Zumindest war das so zu erkennen in meinem Logfile als ich meine Skripts getestet habe!

Das kann man dann zwar auch noch einstellen aber das bauscht sich dann immer mehr auf!

An der ganzen Idee finde ich sowieso negativ das es als Linktausch gewertet werde könnte wenn Markus das realisiert! Es ist in meinen Augen Aufwand der nicht gerechtfertigt ist! Ausserdem habe ich auch mit HTML die Möglichkeit einfach ein noindex/nofollow für die Seite zu setzen!

Da würde ich wenn ich in der Art so ein Programm schreiben wollte eher eins aufbauen das meine externen und internen Links darauf überprüft ob ein 200er gesendet wird!

Da es das aber schon gibt spare ich mir das auch!

Gruß
Jörg

 
Verfasst am: 24. 04. 2010 [18:08]
klaus_b
Dabei seit: 17.12.2009

327 Beiträge
Beitrag hilfreich?


joerg schrieb:
<snip>


Da es das aber schon gibt spare ich mir das auch!
wink.gif



icon_smile.gif

Servus,
Klaus

klaus_b@.NET über alles was an .NET und C# Spass macht.
http://www.seitenreport.de/twitter_icon_small.png
 
Verfasst am: 24. 04. 2010 [18:46]
joerg
Dabei seit: 09.06.2009

1540 Beiträge
Beitrag hilfreich?

Hallo Klaus

Ich habe noch genug vor mir momentan was ich umsetzen will!
Und das finde ich zugleich sinnvoller!

Man muss da jetzt Prioritäten setzen und die liegen klar bei den Punkten die ich mir vorgenommen habe! Und dann gibt es noch die Prioritäten die über dem Bereich Erstellung von Webseiten höher stehen.

Wenn ich so ein Skript wirklich brauche dann baue ich mir das halt eben!

Und am besten lernt man halt eben dabei wenn man eine Idee verfolgt und die umsetzt!

Da ich mir noch curl und die PHP Klassen eines Tages anschauen werde ist mir jetzt schon klar!
Dabei lege ich aber darauf Wert es wirklich zu verstehen und effetiv anzuwenden!

Gruß
Jörg

 
Verfasst am: 25. 04. 2010 [14:50]
Speedy86
Dabei seit: 24.06.2009
Themenersteller

95 Beiträge
Beitrag hilfreich?

Also ich sag mal durch meine 5 Webseiten inkl www.webchars.de und nun ein neues Baby was ich aufbaue und durch rund 5 Jahren mit PHP, denke ich hätte ich solch eine Lösung auch schnell gemacht meint ihr nicht auch?
Es geht mir auch nicht um Cloaking - denn wer einen Link setzt der nur angezeigt wird wenn meine Webseite auf einen Link überprüft (es ist egal ob follow oder nicht follow!!) dann wird der Blog einfach komplett ausgesperrt da Betrugsversuch. Ganz einfache und radikale Lösung für Betrüger.

Nur aus der Startseite wäre das einfachste, dazu hätte ich normalerweise nichtmal ein Forenthread dazu gestartet, aber es geht mir vielleicht um eine korrekte Lösung die schnell genug ist ohne viel Rechenpower schnell viele 100 Seiten zu prüfen. Und ob ich es auf Startseite eingrenzen sollte k.a. wobei die meisten Blogs rechts im Menü oder unten ihre Links eh auf jeder Seite (inkl. Startseite) präsentieren, wäre das wohl die einfachste Möglichkeit.

Mit gehts nicht um einen unbedingen follow Link - wer die Seite cool findet gibt ohnehin einen Follow-Link oder? icon_smile.gif Möchte schon auf ner seriösen Schiene bleiben. Wichtiger ist mir unkomplexer Lösungsversuch. Vielleicht ist ein XML Script das schnellste?! k.a. ich möchte nicht immer den ganzen Quellcode einer Seite auslesen, das sind pro Seite immer 3-10 kb die etwas zu viel sind.

 
Verfasst am: 25. 04. 2010 [15:29]
UFOMelkor
Dabei seit: 20.10.2009

348 Beiträge
Beitrag hilfreich?

Verstehe ich das richtig, du möchtest auf mehreren 100 Seiten mit PHP prüfen, ob die Startseite (oder eine Unterseite) einen Link auf dein Projekt setzt?

Wenn ja, dann wirst du wohl nicht darum herum kommen, den Quelltext der Seite jeweils runterzuladen und zu überprüfen. Und bei mehreren 100 Seiten, dürfte das die Geschwindigkeit schon arg herunterziehen.

Die einzige Möglichkeit die mir spontan einfällt: Pack die Links in eine Datenbank; wenn irgendein Benutzer deine Seite besucht und in der Datenbank noch ungeprüfte Links sind, lasse mit einer Sekunde Verzögerung einen XmlHttpRequest mit JavaScript an ein PHP-Script schicken, dass die Seite überprüft und das Ergebnis in die Datenbank schreibt.

 




Du bist nicht eingeloggt. Bitte beachte, dass Du eingeloggt sein musst, um Themen zu erstellen oder auf Beiträge zu antworten.

RSS Feed abonnieren

Werde in Echtzeit über neue Foren-Beiträge informiert:



2 Mitglieder waren innerhalb der letzten 15 Minuten online (47 heute gesamt):
Deep_Thought, Ostseebrise

Administratoren und Moderatoren:
[keine]

Seitenreport hat 18153 registrierte Mitglieder, 3003 Themen und 29112 Beiträge.
Der aktuelle Mitgliederzuwachs liegt bei durchschnittlich 12 bestätigten Neuregistrierungen pro Tag.
Pro Tag werden im Seitenreport Forum durchschnittlich 1 neues Thema und 7 Beiträge erstellt.
Die Durchschnittszahlen berechnen sich aus den letzten 7 Tagen.

Mehrfach empfohlen

Seitenreport ist einer der bekanntesten SEO und Website Analyse Dienste im deutschsprachigen Raum und wurde u.a. schon empfohlen:
von Mr. Wong im Wong Letter
vom Leserservice der Deutschen Post
vom Technik Blog SiN
und vielen anderen

Partnerprogramm

12% Lifetime Provision auf alle Buchungen von Dir geworbener Mitglieder sowie 0,50 € für jede Registrierung. Eines der besten deutschen Partnerprogramme laut den appCharts von 100partnerprogramme.de. Nimm jetzt teil am Seitenreport Partnerprogramm und verdiene gutes Geld dabei!

* = Partnerlinks