Riepilogo post nella categoria PHP Freelance

E' stata una bella avventura. Dal lontano 2016, quando MetaDB era solo un'idea, ad oggi, che il risultato di tanto lavoro e tanta dedizione è diventato realtà.

Sono elettrizzato nell'annunciare che il nostro progetto MetaDB, rilasciato al pubblico con licenza d'uso dei dati CC BY-NC-SA 4.0, è finalmente online, funzionante e soprattutto pieno di informazioni utilissime per tutti gli esperti nel settore web, e in generale per tutti i Nerd come noi!

MetaDB è un progetto lanciato in produzione nel Gennaio 2021, interamente seguito da me in prima persona, con l'ausilio del team Polarity Bit con il quale collaboro, che pone l'analisi "statica" dei siti web sotto un punto di vista differente e innovativo.

Siamo infatti abituati a tool online di ogni tipo ( solo per citarne alcuni ... seochecker, builtwith, ahrefs, shodan ) che effettuano analisi on-page per domini singoli, e popolano statistiche o dati in riferimento al sito stesso ed eventualmente al sito target confrontandolo con altri siti web.

MetaDB è invece un sistema di analisi statistica e censimento dei siti web, che pone il focus sull'analisi aggregata di "tutti i siti" al posto che sulla analisi del singolo dominio.

La cosa interessante di MetaDB è l'approccio alla analisi di "tutti i siti". Infatti, come si crea un database di tutti i nomi a dominio, per poter effettuare l'analisi del (eventuale) sito web collegato? (non tutti i domini sono registrati per "rispondere" ad una richiesta HTTP, alcuni vengono usati ad esempio solo per la parte email)

MetaDB effettua la scansione partendo da un sottoinsieme di siti web iniziale, una specie di "seed", ed effettua quello che in gergo tecnico si chiama Snowball Sampling. Il seed iniziale viene posto in una coda FIFO, e il codice HTML di ogni sito viene sottoposto a scansione. La scansione del codice HTML riguarda anche tutti i tag <a href>, e quindi tutti i link che puntano a "domini esterni" rispetto al dominio in questione vengono inseriti in coda per l'analisi.

Questa tecnica permette, dopo un numero abbastanza alto di scansioni, di creare una mappa di relazioni piuttosto vasta tra i siti. Ovviamente, per logica, usando questa tecnica non è possibile raggiungere tutti i siti web (e quindi i domini registrati), ma è possibile solo costruire il grafo ad albero di tutti i domini che si referenziano tra loro. Più è vasto il seed iniziale, e più sarà grande il grafo finale.

MetaDB analizza parecchi aspetti dei siti web analizzati, offrendo la possibilità di filtrare i risultati per TLD (estensione del dominio) e lingua del sito. Gli aspetti analizzati includono:

  • Tecnologie utilizzate per la costruzione e il funzionamento del sito (come, ad esempio, PHP - jQuery - Bootstrap - React - Ecommerce)
  • Server di hosting e provider di connettività dell'hosting (Autonomous System Network)
  • Tipi di server web e relative versioni utilizzate (Apache, Nginx, etc)
  • Insight sull'utlizzo di Template e Plugin di Wordpress
  • Codici di errore HTTP più frequenti sui siti offline
  • Utilizzo HTTPS / Linearizzazione www.*
  • Siti web più referenziati (link in ingresso)
  • Text-to-html ratio e suddivisione tra siti che usano un T2HTML ratio sufficiente (>8%) e non (<8%)
  • Insight sull'uso dei tag H1 -> H4 con focus particolare sui siti più popolari, e quelli più referenziati

Una curiosità: sapevate che la maggior parte dei siti web iniziano con la lettera S, con il 9,38% sul totale dei nomi a dominio?


Altro dato, un pò meno eclatante: il 39,19% di tutti i siti web analizzati ha almeno un link verso Facebook, e il 22,87% verso Twitter.

Un dato che mi ha lasciato perplesso è quello relativo all'auto-redirect verso il protocollo sicuro https.

Vero, se un utente raggiunge un sito web è molto probabile lo faccia tramite un motore di ricerca. Ma se lo stesso utente dovesse scrivere a mano il dominio sulla barra degli indirizzi, è incredibile sapere che solo il 31,89% dei siti web effettua un redirect automatico verso https.

Ora, la curiosità passa a Voi lettori. Vi consiglio di andare subito su https://metadb.co e navigare il sito. Troverete molti spunti interessanti per creare contenuti di gradimento per il Vostro pubblico (mi riferisco soprattutto ai Blog di settore), e per condividere qualche informazione utile sui canali social.

Abbiamo dedicato parecchie ore di sviluppo per creare un tool di esportazione dei grafici in formato PNG direttamente sulla GUI del sito. Con un semplice click potrete scaricare i grafici, e ri-pubblicarli su tutti i canali di vostro gradimento.

Nel caso in cui abbiate bisogno di qualche dato specifico e molto settoriale, e possibile estrapolare dati custom dalla base di dati che compone MetaDB. Il posto giusto per effettuare richieste è tramite il modulo di contatto predisposto su MetaDB.

MetaDB è solo all'inizio del suo percorso. Attendiamo con molta curiosità il feedback che arriverà dalla rete, e faremo il nostro meglio per soddisfare le richieste.

Buona navigazione su MetaDB. Speriamo vivamente che possa essere un ottimo spunto per molti Internet Enthusiast, per gli sviluppatori, e per tutte le persone che rendono possibile il funzionamento del web.

Il nuovo Coronavirus è piombato in modo violento nelle nostre vite quotidiane, mettendo a dura prova il nostro sistema sanitario nazionale, obbligandoci a gestire nuove paure e abitudini difficili da accettare, e facendo vittime a migliaia.

Pensiero di molti è che questa pandemia, purtroppo, rimarrà persistente per qualche mese. Probabilmente si rifarà viva una volta spenta, con focolai auspicabilmente contenuti e locali, ma parlando schiettamente, potremmo stare veramente tranquilli solo quando verrà scoperto un vaccino e reso disponibile per l'intera umanità.

Ci accompagnerà una grossa crisi di liquidità, e un grosso stravolgimento delle nostre abitudini lavorative, bisogna esserne consci, e accettare la realtà con il massimo della flessibilità mentale.

Nella difficile e pesante realtà che stiamo vivendo, possiamo però trovare alcuni spunti di riflessione importanti.

Il lavoro agile, lo "smart working" è stato messo in primo piano, ed è diventata l'unica arma per permettere a tutta una moltitudine di figure professionali, sia freelance che impiegate, la cui principale mansione era quella di "stare seduto davanti ad un computer", di poter finalmente lavorare da casa.
Effettivamente, a conti fatti, lo smart working sta impedendo al mondo del lavoro di collassare su se stesso.

Provate a cercare "flexible working absenteeism", o "flexible working motivation" su Google, troverete decine e decine di studi approfonditi, il cui minimo comune multiplo è: si rende di più, e meglio, lavorando di meno in termini di ore seduti alla scrivania.

D'altro canto, però, lo smart working richiede specifiche infrastrutture telematiche e informatiche per poter essere efficiente:

  • Banda larga
  • Accesso remoto ai documenti del Cloud Aziendale
  • Deviazioni di chiamata
  • Software di meeting e cooperazione, condivisione schermo, e simili
  • Informatizzazione del personale, soprattutto legata alla divulgazione di best practice per non essere veicolo di attacchi informatici (spam, phishing, etc)
In più, il Covid-19 sta anche (e ovviamente) mettendo a dura prova le piattaforme e-commerce, che in alcuni settori strategici stanno ricevendo una mole di lavoro mai avuta in precedenza. In questo caso, le criticità sono differenti:

  • Le piattaforme utilizzate per l'ecommerce (Magento, Woocommerce, Custom, etc) sono adatte ai volumi di ordini?
  • Le infrastrutture informatiche a supporto (server, CDN, caching) sono all'altezza del traffico in ingresso?
  • I sistemi logistici per le spedizioni sono in grado di accettare e smaltire gli incrementi nei volumi?

Da freelance PHP, esperto in tecnologie Web e Cloud, posso rispondere solo ad alcune di queste domande, e trovo questa drammatica esperienza del nuovo Coronavirus, oltre che terribile dal punto di vista umano, anche una opportunità: si dovrà giocoforza aumentare il tasso tecnico, alzare l'asticella delle strutture informatiche a supporto del telelavoro e delle piattaforme e-commerce, e le Aziende dovranno affrontare alcuni problemi che vengono sempre messi in secondo piano: affidabilità dei sistemi informatici, sicurezza dei sistemi informativi, GDPR e risvolti nel telelavoro, disaster recovery & response.

Questo è il momento giusto per prendere coscienza di alcuni importantissimi aspetti della tecnologia a supporto del lavoro, che vengono immancabilmente glissati durante periodi "normali", perchè determinate questioni sono troppo complicate, oppure perchè "ci sono già gli IT che se ne occupano", oppure perchè semplicemente già oberati di lavoro, e l'informatica è difficile da capire, è quasi magia.

Voglio quindi dare qualche consiglio strategico-informatico.

  • Banda larga: questo periodo è complicato dal punto di vista di congestione del traffico, soprattutto perchè le scuole sono chiuse e molti servizi di gaming e streaming (che di solito non hanno picchi nelle ore diurne) stanno congestionando alcuni nodi. Ad ogni modo, assicuratevi sempre di scegliere il miglior provider di connettività, senza aver paura di cambiare;
  • Accesso remoto ai documenti del Cloud Aziendale: bisogna pensare di installare VPN aziendali, e sistemi di accesso ai file condivisi aziendali, con logging e granularità dei permessi di accesso, nel caso di grosse aziende, o semplicemente accessi a Bastion Host nel caso di piccole realtà che hanno un NAS condiviso in azienda.
    Importante: NON APRITE LE PORTE DEL ROUTER al vostro NAS aziendale abilitando l'accesso diretto dall'esterno, perchè è il secondo vettore di attacco dopo l'ingegneria sociale. La rete è piena di bot che scandagliano inesorabili alla ricerca di porte aperte e vulnerabilità note (https://www.shodan.io/);
  • Informatizzazione del personale: è molto importante avere collaboratori che sappiano quello che stanno facendo con il computer, conoscendo i rischi correlati alle loro azioni in internet. Dalla apertura di un banalissimo file "che non sembrava sospetto", all'utilizzo di computer protetti da crittografia del file system, fino alla digital awareness.
  • Piattaforme a supporto delle attività e-commerce: mi riferisco soprattutto ai piccoli/medi ecommerce, perchè i colossi ragionano su altri termini che esulano anche dalle mie esperienze dirette: non lesinate sul portafogli quando volete sfondare nel mondo dell'e-commerce. Le piattaforme open-source sono buone fino ad un certo punto, e sono comunque vulnerabili. Inoltre, assicuratevi di avere un ottimo supporto logistico, che i vostri fornitori abbiano supporti logistici adeguati, e in linea di massima, che siate pronti a ondate di lavoro che potrebbero stravolgere le vostre attività quotidiane;
  • Infrastrutture informatiche a supporto delle attività di telelavoro e/o ecommerce: in primis, utilizzate provider di sistemi Cloud affidabili (Hetzner, Digital Ocean, Azure, Amazon AWS per citarne alcuni), e prendete piena consapevolezza del fatto che in casi di picchi di traffico, bisogna avere dei sistemi scalabili che siano in grado di gestire questo traffico.
    Non lesinate neanche sulla importantissima questione legata al disaster recovery: se qualcosa dovesse andare storto, bisogna avere il piano B.

La pandemia sta cambiando le nostre abitudini. Fate in modo che, alla fine di questo incubo, abbiate creato una diversa consapevolezza su queste strategiche questioni informatiche, e che siate pronti al cambiamento una volta usciti da questa bruttissima situazione.

I medici in primis, e Internet in secundis stanno facendo in modo che il sistema economico e sociale non collassi.

Un grazie sentito a tutti i medici, infermieri, alla Protezione Civile, e a tutti i bravi professionisti che con il loro coraggio stanno mandando avanti le loro attività quotidiane da casa propria, senza far espandere ancora di più questa pandemia.

Ne usciremo ancora più forti.