Building Future Together

Immagine di presentazione sezione sito web

ULTIMO AGGIORNAMENTO

17.06.26

Contenuti Duplicati: problemi e soluzioni per l'e-Commerce

ECOMMERCE

AUTORE:

Stefano Robbi

Torna alla lista degli articoli

Indice dei contenuti

● Un po’ di storia per comprendere

● Cos’è un contenuto duplicato?
● E se il mio sito avesse dei contenuti duplicati?
● In conclusione

Chiamaci

Proprio come accadeva a scuola, anche su internet copiare non porta frutto.

Google, come il più dispotico dei professori, elargisce punizioni severe ai webmaster che peccano di originalità.

Ovviamente Google non è un insegnante ed internet non è una scuola, ma parlare di contenuti duplicati non significa solo copiare contenuti testuali da un sito all’altro.

La questione, infatti, è molto ampia e più complessa, perché i contenuti duplicati sono un problema serio di molti siti, soprattutto eCommerce, che si trovano a perdere visibilità, notorietà e vendite.

Un po’ di storia per comprendere

I contenuti duplicati sono da sempre esistiti in rete, ma ciò che li ha fatti diventare un fenomeno degno di primaria attenzione nell’ambito del Search Marketing è da imputare al lontano febbraio 2011, quando Google ha introdotto il primo aggiornamento algoritmico definito come “Google Panda” (dove “Panda” è un riferimento all’ingegnere di Google che era a capo del progetto, ossia Biswanath Panda).

L’allora nuovo algoritmo era finalizzato a contrastare l’acquisizione di ranking dei siti di bassa qualità, che puntavano su pagine prive di contenuti originali per risalire i risultati organici dei motori di ricerca (SERPs). Proprio la mancanza di originalità ha creato numerosi problemi per i webmaster dei siti internet che si sono trovati a combattere con contenuti scarni o peggio ancora duplicati da altre fonti.

Cos’è un contenuto duplicato?

Secondo le fonti ufficiali di Mountain View, si definisce contenuto duplicato una porzione significativa di testo che risulta essere identica, o quasi, ad un’altra che risiede nello stesso sito o in un sito esterno. Un contenuto duplicato, sostanzialmente, è un testo presente in maniera non univoca nella rete.

Riprendendo la definizione originale in lingua inglese di Google:

“[…] Duplicate content generally refers to substantive blocks of content within or across domains that either completely match other content or are appreciably similar. Mostly, this is not deceptive in origin […]. If your site contains multiple pages with largely identical content, there are a number of ways you can indicate your preferred URL to Google. In the rare cases in which Google perceives that duplicate content may be shown with intent to manipulate our rankings and deceive our users, we'll also make appropriate adjustments in the indexing and ranking of the sites involved.” (Fonte: )

Com’è facilmente intuibile, non tutti i contenuti duplicati che si trovano in rete sono originati da un intento malevolo del webmaster finalizzato ad alterare i risultati del motore di ricerca. Google, tuttavia, consiglia comunque di adottare gli accorgimenti necessari per indicare quale porzione di testo sia duplicata e quale sia la versione del sito da indicizzare per evitare spiacevoli inconvenienti e garantire una corretta indicizzazione del sito.

E se il mio sito avesse dei contenuti duplicati?

In breve: avresti bisogno di un intervento urgente di seo per il tuo eCommerce, se non vuoi vederlo rilegato nell'indice secondario di Google. Data la mission di Google di “mostrare solo i risultati più rilevanti possibile all’utente”, il grande motore di ricerca non può certo restituire all’utente dieci risultati identici o molto molto simili tra loro. In questo modo, anche se l’utente cercasse uno stesso contenuto presente in maniera identica in venti siti differenti, Google sarebbe costretto a fare delle valutazioni ulteriori e mostrare all’utente solo una cerchia ristretta dei risultati considerati duplicati, per completare la rimanente parte della SERP con risultati di approfondimento o complementari.

Quando vengono rilevati contenuti duplicati, quindi, Google attiva il filtro anti-duplicazione, finalizzato a diminuire notevolmente il ranking delle pagine che lui considera duplicate ed innalzare quello della pagina ritenuta originale. Il processo con il quale avviene la valutazione della pagina originale rispetto alle pagine concorrenti è descritto nei paragrafi successivi, ma ciò che è importante sottolineare in questa sede è la sua conseguenza.

A prescindere dalla categoria merceologica trattata o dalla tipologia del sito, tutte le pagine che vengono considerate duplicate da Google non saranno immediatamente visibili agli utenti, ma nascoste in un indice secondario. Per visualizzare queste pagine l’utente deve scorrere l’elenco dei risultati organici inizialmente mostrati da Google fino a raggiungere l’ultima pagina e cliccare “Ripetere la ricerca includendo i risultati omessi”, come dallo screenshot che segue:

Ora, se la percentuale di utenti che guarda oltre la terza pagina dei risultati organici è molto ridotta, le persone che andranno a cercare un risultato nell’indice secondario di Google saranno praticamente irrisorie (forse limitate agli ingegneri di Google e ai SEO). Per tutti i siti considerati duplicati da Google emerge un grosso problema: il traffico organico tenderà a diminuire costantemente nel corso del tempo, almeno fino a quando Google non cambierà idea circa l’originalità dei contenuti presentati. Per il business complessivo del sito, un crollo del traffico organico implica una rinuncia ad una quota ingente del proprio fatturato percentuale.

Dalla precedente definizione di Google, appare chiaro che i contenuti duplicati possono originarsi in due circostanze molto ampie:

Contenuto duplicato presente tra domini differenti
Contenuto duplicato presente in pagine differenti dello stesso dominio

1 - contenuto duplicato presente tra domini differenti

È il caso più frequente di contenuto duplicato e contemporaneamente quello più semplice da individuare. Quando lo stesso contenuto testuale viene riproposto in maniera identica (o molto molto simile) da più siti differenti, il filtro anti-duplicazione di Google interviene cercando di dare credito alla pagina considerata originale e diminuire autorevolezza a quelle duplicate.

Molti siti di eCommerce che vendono beni prodotti da marche celebri sono inseriti in un canale distributivo lungo, in cui a monte vi è il grossista prima del produttore. Frequentemente i nomi dei prodotti venduti, così come le descrizioni degli stessi, sono scritte direttamente dal produttore e gli altri attori del canale distributivo si limitano a copiarle ed importale sul loro sito internet. La conseguenza inevitabile è che il contenuto scritto dal produttore si trovi ripetuto in rete decine o centinaia di volte su siti differenti con la stessa forma e con lo stesso esatto contenuto testuale. La quantità di contenuti duplicati che si creano in queste circostanze è veramente elevata e, come spiegato in precedenza, Google non può mostrare ad un utente solo siti che presentano lo stesso contenuto. Per questo motivo i siti considerati “non originali” vengono rilegati all’indice secondario e sono resi praticamente invisibili agli utenti.

È importante precisare che, tra i siti annoverati come originali, molto spesso Google include (a ragione) il sito del produttore: lo spazio a disposizione per i rivenditori è, quindi, sempre più ridotto.

Come risolvere il problema?

Molteplici sono le possibilità di manovra per risolvere il problema, ma la primissima operazione da svolgere riguarda la comprensione dell’entità dello stesso. Per esempio, se avessimo un sito eCommerce di diecimila prodotti con un problema di contenuti duplicati su un solo centinaio di pagine prodotto, il problema avrebbe una portata relativamente ridotta. Quando, invece, ci si trova dinnanzi ad un eCommerce completamente duplicato rispetto a numerosi altri rivenditori, il filtro anti duplicazione di Google potrebbe davvero annullarne il traffico organico complessivo. I provvedimenti da prendere perché ciò non accada sono, quindi, molto più radicali.

Secondo Google, la soluzione ideale consiste nel rimuovere i contenuti duplicati importati dai grossisti o produttori e scrivere manualmente una nuova descrizione per ogni prodotto che dia un valore aggiunto rispetto a quella standardizzata già presente in rete. Mentre nel caso di un contenuto duplicato che influisce su un centinaio di prodotti tale opzione è percorribile in poche settimane, nel caso di eCommerce con 50.000 prodotti l’operazione non sarebbe così rapida e persisterebbe il rischio di vedere il proprio sito rilegato nell’indice secondario di Google. A questo proposito, quindi, anziché eliminare le pagine prodotto duplicate rendendole così invisibili a tutti i visitatori del sito, conviene aggiungere alle stesse un meta tag “noindex”, in maniera tale che Google eviti di indicizzarle fino al momento in cui il loro contenuto testuale apparirà univoco in rete. In questo modo i visitatori che giungeranno al sito tramite qualunque altra sorgente di traffico (Facebook, AdWords, referral...) continueranno a vedere e a poter comprare i prodotti, anche quelli con descrizioni duplicate. Nel corso del tempo, mano a mano che le descrizioni verranno riscritte, il tag “noindex” verrà rimosso da un numero sempre superiore di pagine e il sito inizierà ad incrementare il proprio posizionamento organico per un numero sempre superiore di prodotti.

2 - contenuto duplicato presente in pagine differenti dello stesso dominio

Contenuti duplicati nello stesso sito: è un problema? Certo, e da non trascurare. I problemi legati ai contenuti duplicati si possono riscontrare anche se la duplicazione del testo avviene sullo stesso sito (o dominio). Si parla di contenuti duplicati interni al sito in due circostanze distinte:

quando il sito ripete più volte lo stesso contenuto testuale in pagine differenti tra loro;
quando lo stesso contenuto testuale è visibile in una sola pagina, ma tale pagina risulta accessibile da più indirizzi differenti creando problemi di canonicalizzazione.

2a - testo duplicato perché ripetuto in pagine differenti dello stesso sito

L’esempio classico per comprendere la prima tipologia sopra elencata fa riferimento ad un sito di commercio elettronico che in tutte le pagine prodotto riporta la descrizione dettagliata delle spese di spedizione o della politica di reso. Anche nel caso in cui tale sito abbia solo un centinaio di prodotti, la duplicazione dei contenuti sarà comunque palese a Google e il ranking complessivo del sito potrebbe risentirne negativamente. E l’effetto sarà tanto più negativo quanto più elevata sarà la posizione del contenuto duplicato all’interno della pagina. Tale problema è presente in molti eCommerce, ma fortunatamente il contenuto duplicato appare spesso nel footer dei siti (parte conclusiva) e Google oggi è abbastanza intelligente per attribuirgli un peso molto inferiore. In questo caso è necessario focalizzare l'attenzione anche sul processo di gestione ordinaria dell'eCommerce, onde evitare che problematiche come questa si accavallino sempre più con il passare del tempo.

Va considerato che esistono dei testi che un sito deve necessariamente ripetere nelle varie pagine (per esempio il menu di navigazione con tutta la suddivisione gerarchica in categorie), ma questo non è sufficiente per far scattare il filtro anti-duplicazione. È necessario che il contenuto duplicato sia ingente nelle varie pagine del sito o che lo stesso sia collocato in posizioni chiave del sito. Secondo alcuni test interni che abbiamo svolto in passato, Google è in grado di comprendere a fondo la struttura di un sito internet e ponderare esattamente dove vengono inserite le informazioni core che la pagina vuole trasmettere all’utente che la visita. È importante che in quella sezione il contenuto duplicato sia ridotto al minimo indispensabile e idealmente non sia nemmeno presente. Il peso di quella sezione (situata in posizione differente per ciascun sito), infatti, è ben più rilevante dell’intestazione o del footer del sito.

Un altro esempio di problematica appartenente a questa categoria riguarda la duplicazione dei meta tags presenti su uno stesso sito. Tale problematica è così importante per il rendimento del sito che Google ha deciso di dedicarle un’intera sezione del pannello “Strumenti per webmaster”.

Per Google è fondamentale comprendere in maniera approfondita l’oggetto di ogni singola pagina web e, per farlo, ha bisogno di trovare informazioni univoche soprattutto nei meta tags (title e description); si veda anche il riflesso che questo ha nell'ottimizzazione delle immagini. Qualora un sito presentasse lo stesso title o la stessa meta description in pagine differenti, non solo godrebbe di un bassissimo CTR nelle SERPs a causa di una scarsa attinenza con le query dell’utente, ma genererebbe un ostacolo alla crescita del proprio ranking organico proprio per il problema della duplicazione.

Una volta individuate le problematiche relative ai meta tag, la loro risoluzione è relativamente facile. Potrebbe non essere rapida in caso di siti con molte migliaia di pagine, ma in questo caso si può ricorrere alla progettazione di una sintassi idonea a differenziare le varie pagine e alla compilazione dei meta tag lato server. Il consiglio, comunque, è quello di scrivere manualmente le meta description e i title almeno per le pagine di categoria e per i prodotti a più elevata marginalità. È difficile infatti che una sintassi standard possa ottenere un risultato superiore ad un’analisi specifica pagina per pagina. Una volta ottimizzati i meta tag, non fermarti, ma inizia a sviluppare una vera e propria strategia di marketing per pubblicizzare il tuo eCommerce.

Come risolvere il problema della duplicazione del testo identico contenuto nelle pagine prodotto?

È una domanda che (lecitamente) molti clienti pongono. Continuiamo il ragionamento precedente per giungere alla soluzione: nelle pagine prodotto di un sito di commercio elettronico si potrebbe ritenere utile specificare come avvengono le spedizioni, con che modalità e con quali tempistiche, per trasmettere la massima fiducia e trasparenza all’utente.

Ora, la soluzione non consiste nell’eliminare tali informazioni, perché anche se potrebbe migliorare il ranking organico, l’esperienza dell’utente peggiorerebbe e la performance complessiva del sito non sarebbe sicuramente ottimizzata. È possibile, invece, creare una pagina specifica dove si spiegano nel dettaglio le spese di spedizione e le politiche di reso e da ogni pagina prodotto creare un link di approfondimento verso questa nuova pagina. In questo modo l’unico testo duplicato nelle pagine prodotto sarà il testo di ancoraggio del link (che non ha mai penalizzato nessuno) e il tasso di conversione non sarà intaccato in quanto l’utente interessato potrà leggere tutte le informazioni di cui ha bisogno cliccando sul precedente link.

2b - contenuti duplicati a causa di problemi di canonicalizzazione

Molto frequentemente la vera origine dei problemi di contenuto duplicato è legata alla mancanza di una corretta canonicalizzazione all’interno dello stesso sito. La “canonicalizzazione” è il processo con il quale il webmaster informa Google di quale sia la versione principale dei propri contenuti, ovvero quella su cui vorrebbe che avvenisse il processo di indexing e ranking.

La mancanza di canonicalizzazione provoca serie difficoltà allo spider di Google nella comprensione dell’articolazione dei contenuti del sito e spesso genera un’indicizzazione di più URLs che, rimandando alla stessa pagina e presentando lo stesso contenuto, creano problemi di duplicazione.

Gestire correttamente il processo di canonicalizzazione significa permettere a Google l’indicizzazione di un solo URL per ogni pagina di un sito internet. Perché ciò avvenga è necessario agire su molteplici parametri e su alcune configurazioni del web server sul quale il sito si trova. Analizziamo le 5 principali:

www VS no-www: i contenuti di un sito internet possono essere visualizzati nella forma di “sitointernet.com” o “www sitointernet.com”. Per Google non è un problema l’una o l’altra versione, ma sarebbe un grave problema se entrambe coesistessero. Infatti, se la stessa pagina di un sito fosse raggiungibile da entrambe le URL (la prima con il prefisso “www” e la seconda senza “www”) Google vedrebbe due pagine differenti con lo stesso esatto contenuto e quindi attiverebbe il filtro anti-duplicazione. Oltre alla configurazione lato server per gestire questa problematica, Google ha attivato nel pannello degli strumenti per webmaster la possibilità di indicare quale sia la versione preferita.
http VS httpS: a partire da luglio 2014, Google ha apertamente dichiarato che la presenza di un dominio verificato con certificato SSL costituisce un fattore di ranking. Da quel momento, com’è normale immaginare, sempre più siti hanno installato il certificato SSL e hanno variato il prefisso della loro URL da http://www.sito.com a https://www.sito.com . Per evitare problemi di duplicazione dei contenuti, è fondamentale che dopo la migrazione le URL precedentemente esistenti (prive di HTTPS) restituiscano un errore 301 (redirect permanente) alle nuove URL aventi il prefisso HTTPS. In caso opposto si genererà lo stesso problema di quello individuato al punto precedente.
URL parametriche: quasi tutti i siti oggigiorno utilizzano parametri per le più differenti finalità. Alcuni servono per tenere traccia dell’attività dell’utente, altri per disporre in maniera differente i contenuti, ed altri ancora per filtrarli. La gestione dei parametri delle URL è fondamentale per una buona performance del sito, soprattutto per siti di commercio elettronico in cui le variabili sono davvero molte. Google mette a disposizione un pannello negli strumenti di webmaster in cui è possibile specificare quale sia la funzione di ogni singolo parametro e suggerire a Google il comportamento desiderato. Nonostante tale tematica sia davvero ampia e verrà trattata in futuro in un articolo ad hoc, per ora basti ricordare che ogni parametro che NON modifica in maniera sostanziale i contenuti della pagina, corre il forte rischio di creare problemi di duplicazione dei contenuti se non viene gestito correttamente.
Versione stampabile: siti di editoria e giornalismo spesso presentano una versione dei propri contenuti idonea per essere stampata. Tale pratica era in voga specialmente qualche anno fa, ma tuttora sono presenti siti con la versione “printer friendly” dei propri contenuti. È importante comunicare a Google di non indicizzare la versione stampabile dei contenuti, ma solo quella originale.
impaginazione dei contenuti o commenti: nel caso dei siti di commercio elettronico il problema d’impaginazione è relativo alle pagine di categoria. Infatti spesso si ha a che fare con categorie che presentano decine di prodotti suddivisi in varie pagine differenti grazie all’adozione di un parametro (spesso “p=X”). Tale parametro non dev’essere ignorato da Google nell’indicizzazione, ma anzi deve far variare i contenuti delle pagine e specialmente i meta title e meta description delle pagine categoria. In caso opposto ritornano i problemi di contenuto duplicato tra pagine differenti della stessa categoria. Nei blog, invece, il problema potrebbe apparire laddove i commenti degli utenti vengano suddivisi in varie pagine, ciascuna contenente il testo dell’articolo all’inizio. In questo caso, invece, si potrebbe pensare anche di aggiungere un noindex alle pagine successive alla prima o di rimuovere il testo dell’articolo nelle pagine successive.

Come gestire correttamente il processo di canonicalizzazione?

Per risolvere le problematiche appena elencate esistono molteplici strumenti da utilizzare, alcuni dei quali sono già stati evidenziati. Ripercorriamo ora le 5 principali alternative a disposizione dei webmaster:

301 REDIRECT: innanzitutto la corretta implementazione lato server delle varie versioni del sito (http VS https e www VS https). E’ importante in questo caso scegliere un’unica versione da far scansionare allo spider di Google e far vedere agli utenti, mentre tutte le altre devono restituire un redirect permanente 301 verso la versione ufficiale.
Google Webmaster Tools: arriva direttamente da Google e permette ai webmaster di indicare al motore di ricerca quali parametri variano il contenuto del sito (e quindi chiederne l’indicizzazione) e quali invece si limitano a riordinare i contenuti o a tenere traccia dell’attività dell’utente (e conseguentemente escludere dall’indicizzazione).
Rel=”canonical”: qualora i problemi di URL duplicato siano causati da URL non riscritte generate di default dai vari CMS (in primis Magento) è necessario procedere con l’adozione del tag rel=”canonical”. Grazie a questo tag il webmaster riesce a comunicare a Google quale delle tante URL che rimandano allo stesso contenuto sia quella da preferire per l’indicizzazione.
txt: è un file che viene collocato nella root principale del sito e serve per dare indicazioni agli spider dei motori di ricerca su ciò che devono scansionare nel sito e ciò che invece devono oltrepassare. Il consiglio è utilizzare questo strumento per bloccare l’accesso di Google a quei contenuti duplicati presenti su un sito che non possono essere rimossi, né possono essere canonicalizzati.
Meta name="robots" content="noindex,follow": è un meta tag con il quale si comunica ai motori di ricerca di scansionare i contenuti presenti nella pagina in questione, ma non considerarli per l’indicizzazione.

Prima di passare alla conclusione, è importante fare due valutazioni sugli strumenti appena elencati. In primis va considerato che Google Webmaster Tools non consente di risolvere completamente il problema delle URL parametriche, in quanto i consigli che vengono forniti a Google tramite quel pannello spesso devono essere accompagnati da un corretto utilizzo del tag rel=”canonical”. In caso opposto Google potrebbe impiegare più tempo per comprendere la corretta versione delle URL del sito da indicizzare e tutti gli altri motori di ricerca (che ovviamente non accedono a GWT) non avrebbero alcuna indicazione su come procedere. In Italia il marketshare di Google è altissimo, ma non prestare alcuna attenzione agli altri search engine potrebbe non essere la scelta più oculata per molti business.

In secundis, una riflessione sulla differenza tra “noindex, nofollow” e “noindex, follow”: mentre con il secondo metatag si chiede a Google di non indicizzare le pagine del sito su cui è presente, ma di scansionarle, con il primo si suggerisce a Google di non scansionare nemmeno le URL in questione. In passato si preferiva utilizzare il “noindex, nofollow” per non far nemmeno vedere ai motori di ricerca i contenuti duplicati presenti su un sito, ma oggi nostri test interni confermano che la strada opposta attribuisca spesso performance superiori. Infatti, sembra che Google comprenda meglio la struttura di un sito qualora riesca a visualizzare tutte le pagine che lo compongono, anche quelle duplicate. E Google sembra assegnare un valore superiore al ranking complessivo del sito che gli permette di scandagliarne tutti i contenuti, nonostante presenti contenuti duplicati ma correttamente canonicalizzati.

E se il mio sito avesse dei contenuti duplicati?

In conclusione

I contenuti duplicati (in qualunque forma o variante si manifestino) costituiscono un ostacolo al ranking organico del sito. Se la porzione di testo non originale assume una scarsa rilevanza nella struttura complessiva del sito, Google difficilmente classificherà tale pratica come ingannevole o manipolatoria del proprio algoritmo e l’effetto complessivo sul ranking del sito non sarà determinante. Nel caso opposto, invece, non solo il posizionamento delle pagine duplicate del sito subirà effetti negativi, ma l’intero sito potrebbe essere rimosso completamente dai risultati di ricerca di Google.

Esiste un caso intermedio tra questi due estremi e riguarda tutti quei siti che presentano contenuti duplicati non con intento manipolatorio, ma con finalità di dare più informazioni possibili agli utenti (anche a costo di fornire informazioni già presenti in altri siti). Per tutti questi portali non appare il rischio di penalizzazione, ma la forte possibilità di essere rilegati nell’indice secondario di Google con una conseguente diminuzione del traffico organico complessivo.

Per evitare di incorrere in queste problematiche è necessario, da un lato gestire correttamente il processo di canonicalizzazione delle pagine e, dall’altro, sostituire il contenuto testuale duplicato (ove presente) con una nuova porzione di testo univoca e scritta ad hoc. Nel caso in cui il processo di migrazione dai contenuti duplicati a quelli originali richieda molto tempo, è possibile far leva sugli strumenti evidenziati in precedenza (metatag noindex, robots.txt, Redirect 301, ...) affinché i testi duplicati ancora presenti non arrechino danno alla globalità del sito.

Se pensi che il tuo sito possa essere affetto da una di queste problematiche, contatta la nostra agenzia seo o richiedi un preventivo per il tuo eCommerce. Un nostro specialista in questo ambito specifico potrà effettuare un'attenta verifica dei contenuti duplicati del tuo E-Commerce, procedere alla relativa analisi e trovare la soluzione più adatta per te e per la tua azienda. Siamo qui per questo. Clicca qui e parliamo di come far crescere il tuo progetto.

It's time to share

Autore

Stefano Robbi

Chief Executive Officer

Dal 2009 ad oggi guida NetStrategy come agenzia di marketing specializzata in SEO, GEO, ADV, e-Commerce e marketing automation per il mercato italiano e internazionale. Stefano può accostare una formazione specifica di marketing strategico, acquisita nel M.Sc. in Marketing Management all’Università Bocconi e nella pregressa esperienza presso Microsoft Italia prima della fondazione di NetStrategy. Affianca all'attività di consulenza un'intensa attività di docenza universitaria e di public speaking in eventi nazionali e internazionali del settore digital.

Aree di specializzazione: Strategia digitale, analisi dei dati, SEO, GEO, Search Engine Marketing, E-commerce optimization, Marketing automation, Conversion Rate Optimization.

Social

Contattami