Indexeringen

Mitt mål med www.nyhetsrubrik.se är att är framför allt försöka få så många sidor som möjligt indexerade. Det går ganska framåt i skrivande stund har är det 339 sidor indexerade av google. Google tar nästan bara länkar från första sidan.
Jag har ca 15 000 artiklar i db men varje artikel är så kort så kan knappt räknas som en artikel. Efter artikeln är det alltid flera länkar från dagens datum det kanske är det som hindrar google från att indexera flera artiklar eftersom det alltid är olika content på sidan då och det gillar inte google. Ska nog ändra det om ett tag men det blir inte lika användarvänligt då eftersom man måste klicka på en länk för att kunna läsa nästa artikel.

Skulle kunna göra som nyhetsportalen . se och aldrig visa artikel sidan för besökaren utan bara poppa upp ett fönster men artikelkällan (aftonbladet, expressen etc) och låta besökaren ha kvar samma vy. Men kopierar man länken och klistrar in den i en browser så kommer man till artikeln vilket är det som även google gör. Väl vid artikeln så finns det bara 3-4 länkar förutom artikeltexten. På nåt sätt fixar nyhetsportalen detta genom att sätta target till typ target=”a2082484″ vilken gör att man stannar i samma vy. Svårt att förklara men ta en titt för ni se och kolla sen hur många sidor som de har indexerade.

De har inga naturliga urlar (artikelns namn som url) och detta hoppas jag gör att mina artikelsidor ska komma högre i serpsen än mina konkurenter.

Förresten, har även startat politik.nyhetsrubrik.se. Hoppas att den kan bli välbesökt nu inför valet. Jag letade efter rss-feeds för tidningarnas ledar och debattsidor men lyckades inte på alla så jag skapade ett enkelt PageCrawler objekt. Detta objekt läser in länkarna och kör en preg_match_all för att ta ut länkarna. Det negativa är att jag måste in och kolla hur länkarna är byggda på varje sida som jag vill crawla (hämta rubriker). Det gäller att hitta ett mönster som går igenom alla länkar som är relevanta till det ämnet som man är ute efter. Det fungerar förvånasvårt bra.

En annan sak jag är rätt nöjd med är att jag hämtar basketnyheter till basketcoach.se från nyhetsrubrik. Jag söker bara efter basket bland artiklarna och visar resultat på basketcoach.

Comments are closed.