it-swarm.dev

Configurazione errata dell'estensione Externallogin che causa problemi di indicizzazione dei motori di ricerca

Breve panoramica

Il mio sito Web Joomla presenta uno strano problema con i robot dei motori di ricerca. Ho controllato TUTTE le cose standard che un webmaster può fare per assicurarsi che non sia un problema banale con il file robots.txt o altri parametri di ottimizzazione dei motori di ricerca. La gente IT della mia università non ha idea di cosa stia succedendo, così come le persone che hanno cercato di aiutare nei forum di Joomla.

Ho fatto questa domanda anche su Pro Webmasters stackexchange. Ma sto iniziando a sospettare che potrebbe esserci qualche impostazione nascosta da qualche parte in Joomla che causa il problema. Quindi, sto ponendo questa domanda qui per vedere se c'è un'impostazione che mi manca da qualche parte.

Il problema reale inizia qui.

Il sito Web in questione è: http://gsa.ece.umd.edu/ . Funziona con Joomla 2.5.x (più recente). Il sito è attivo da metà dicembre 2013 e ho notato fin dall'inizio che il sito non veniva indicizzato correttamente su Google. Nello specifico, vedo il seguente messaggio quando cerco il sito Web su Google:

ECEGSA - University of Maryland

A description for this result is not available because of this site's robots.txt – learn more.

Il fatto è che da dicembre fino a marzo ho usato il file Joomla robots.txt predefinito che è:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/

Nulla dovrebbe impedire a Google di cercare nel mio sito Web. E ancora più confusamente, quando vado a Strumenti per i Webmaster di Google, nella scheda "URL bloccati", quando provo molti dei collegamenti sul sito, vengono visualizzati tutti come "Consentiti". Ho quindi provato ad aggiungere una sitemap, inserendola nel file robots.txt. Questo non ha aiutato. Stesso risultato di ricerca esatto, stesso comportamento nella scheda "URL bloccati" degli strumenti per i webmaster. Ora, inoltre, la scheda "Sitemap" indica per diversi collegamenti un errore che dice "L'URL è stato eliminato". Ho provato quei collegamenti esatti negli "URL bloccati" e sono ammessi!

Ho quindi provato a eliminare il file robots.txt. Inutile. Stesso problema esatto.

Ecco uno screenshot di esempio dagli strumenti per i Webmaster. Index Status for my website showing no crawl errors and no blocked URLs, in direct contradiction to what the sitemap tab says and what the search result says! FRUSTRATION!

A questo punto non posso dare una spiegazione razionale al perché ciò stia accadendo e nessuno può farlo nel dipartimento IT qui. Nessuno nei forum di Joomla sembra capire cosa stia succedendo.

Qualcuno sa se c'è un possibile conflitto nella configurazione del sito Joomla in base a quanto sopra descritto?

5

AGGIORNAMENTO: Il problema è stato risolto correggendo la configurazione dell'estensione

Ho usato un plugin chiamato externallogin per consentire ai miei utenti di accedere utilizzando il CAS (Central Authentication Server) dell'Università. Si scopre che questo plugin sta aggiungendo un reindirizzamento 303 alla risposta dell'intestazione HTTP a TUTTE le mie pagine, a causa di un errore di configurazione.

Di conseguenza, nessuna delle mie pagine viene indicizzata correttamente poiché Google (a) penalizza 303 reindirizzamenti o probabilmente perché (b) la pagina a cui punta il reindirizzamento 303 ( https: //login.umd. edu / ) ha un file robots.txt che non consente tutti i bot.

[~ ~ #] correzione [~ ~ #]
Per risolvere questo problema, se dovessi riscontrarlo, devi correggere la configurazione del plugin come segue:
1. Nel menu estensioni, in "Accesso esterno>", vai alla configurazione del server.
2. Nella scheda connessioni, per "Accesso/disconnessione automatici", selezionare "No". L'errore si verifica se si sceglie "Sì" al passaggio 2, poiché in questo caso l'estensione aggiunge automaticamente un reindirizzamento 303 a tutte le pagine del sito Web, per verificare se un utente ha effettuato l'accesso al CAS nella sessione del browser e in tal caso ti registra automaticamente nel sito. Questa funzione causerà problemi di indicizzazione dei motori di ricerca.

Ringraziamenti
Grazie a @ stephen-ostermiller ( Risposta pertinente su Pro Webmasters ) per avermi indirizzato nella giusta direzione facendomi capire che si trattava di un reindirizzamento 303 aggiunto dall'estensione.

2