Attenzione! Questo contenuto è vecchioQuesto articolo risale al 2021, quindi i contenuti e le operazioni qui consigliate potrebbero essere diventate obsolete nel corso del tempo.

E' stata una bella avventura. Dal lontano 2016, quando MetaDB era solo un'idea, ad oggi, che il risultato di tanto lavoro e tanta dedizione è diventato realtà.

Sono elettrizzato nell'annunciare che il nostro progetto MetaDB, rilasciato al pubblico con licenza d'uso dei dati CC BY-NC-SA 4.0, è finalmente online, funzionante e soprattutto pieno di informazioni utilissime per tutti gli esperti nel settore web, e in generale per tutti i Nerd come noi!

MetaDB è un progetto lanciato in produzione nel Gennaio 2021, interamente seguito da me in prima persona, con l'ausilio del team Polarity Bit con il quale collaboro, che pone l'analisi "statica" dei siti web sotto un punto di vista differente e innovativo.

Siamo infatti abituati a tool online di ogni tipo ( solo per citarne alcuni ... seochecker, builtwith, ahrefs, shodan ) che effettuano analisi on-page per domini singoli, e popolano statistiche o dati in riferimento al sito stesso ed eventualmente al sito target confrontandolo con altri siti web.

MetaDB è invece un sistema di analisi statistica e censimento dei siti web, che pone il focus sull'analisi aggregata di "tutti i siti" al posto che sulla analisi del singolo dominio.

La cosa interessante di MetaDB è l'approccio alla analisi di "tutti i siti". Infatti, come si crea un database di tutti i nomi a dominio, per poter effettuare l'analisi del (eventuale) sito web collegato? (non tutti i domini sono registrati per "rispondere" ad una richiesta HTTP, alcuni vengono usati ad esempio solo per la parte email)

MetaDB effettua la scansione partendo da un sottoinsieme di siti web iniziale, una specie di "seed", ed effettua quello che in gergo tecnico si chiama Snowball Sampling. Il seed iniziale viene posto in una coda FIFO, e il codice HTML di ogni sito viene sottoposto a scansione. La scansione del codice HTML riguarda anche tutti i tag <a href>, e quindi tutti i link che puntano a "domini esterni" rispetto al dominio in questione vengono inseriti in coda per l'analisi.

Questa tecnica permette, dopo un numero abbastanza alto di scansioni, di creare una mappa di relazioni piuttosto vasta tra i siti. Ovviamente, per logica, usando questa tecnica non è possibile raggiungere tutti i siti web (e quindi i domini registrati), ma è possibile solo costruire il grafo ad albero di tutti i domini che si referenziano tra loro. Più è vasto il seed iniziale, e più sarà grande il grafo finale.

MetaDB analizza parecchi aspetti dei siti web analizzati, offrendo la possibilità di filtrare i risultati per TLD (estensione del dominio) e lingua del sito. Gli aspetti analizzati includono:

  • Tecnologie utilizzate per la costruzione e il funzionamento del sito (come, ad esempio, PHP - jQuery - Bootstrap - React - Ecommerce)
  • Server di hosting e provider di connettività dell'hosting (Autonomous System Network)
  • Tipi di server web e relative versioni utilizzate (Apache, Nginx, etc)
  • Insight sull'utlizzo di Template e Plugin di Wordpress
  • Codici di errore HTTP più frequenti sui siti offline
  • Utilizzo HTTPS / Linearizzazione www.*
  • Siti web più referenziati (link in ingresso)
  • Text-to-html ratio e suddivisione tra siti che usano un T2HTML ratio sufficiente (>8%) e non (<8%)
  • Insight sull'uso dei tag H1 -> H4 con focus particolare sui siti più popolari, e quelli più referenziati

Una curiosità: sapevate che la maggior parte dei siti web iniziano con la lettera S, con il 9,38% sul totale dei nomi a dominio?


Altro dato, un pò meno eclatante: il 39,19% di tutti i siti web analizzati ha almeno un link verso Facebook, e il 22,87% verso Twitter.

Un dato che mi ha lasciato perplesso è quello relativo all'auto-redirect verso il protocollo sicuro https.

Vero, se un utente raggiunge un sito web è molto probabile lo faccia tramite un motore di ricerca. Ma se lo stesso utente dovesse scrivere a mano il dominio sulla barra degli indirizzi, è incredibile sapere che solo il 31,89% dei siti web effettua un redirect automatico verso https.

Ora, la curiosità passa a Voi lettori. Vi consiglio di andare subito su https://metadb.co e navigare il sito. Troverete molti spunti interessanti per creare contenuti di gradimento per il Vostro pubblico (mi riferisco soprattutto ai Blog di settore), e per condividere qualche informazione utile sui canali social.

Abbiamo dedicato parecchie ore di sviluppo per creare un tool di esportazione dei grafici in formato PNG direttamente sulla GUI del sito. Con un semplice click potrete scaricare i grafici, e ri-pubblicarli su tutti i canali di vostro gradimento.

Nel caso in cui abbiate bisogno di qualche dato specifico e molto settoriale, e possibile estrapolare dati custom dalla base di dati che compone MetaDB. Il posto giusto per effettuare richieste è tramite il modulo di contatto predisposto su MetaDB.

MetaDB è solo all'inizio del suo percorso. Attendiamo con molta curiosità il feedback che arriverà dalla rete, e faremo il nostro meglio per soddisfare le richieste.

Buona navigazione su MetaDB. Speriamo vivamente che possa essere un ottimo spunto per molti Internet Enthusiast, per gli sviluppatori, e per tutte le persone che rendono possibile il funzionamento del web.