Gli articoli premium de Il Foglio si potevano leggere senza pagare

Questo argomento ormai sta diventando una vera e propria saga. 😀 Dopo aver parlato di Repubblica e La Stampa, ecco l’ennesimo quotidiano il cui paywall (ovvero il blocco alle sezioni per abbonati) permetteva a chiunque di leggere gli articoli a pagamento, senza nemmeno effettuare un login.

Nel mio precedente articolo ho scritto:

una mancanza del genere solitamente è l’eccezione, non la regola.

Be’, temo che stia diventando la regola, anche se stavolta il finale è diverso. In questo caso ho scoperto il problema dopo che un amico aveva linkato una notizia premium de Il Foglio su Facebook. Avendo cliccato, ho riscontrato il paywall e, dati i precedenti, mi è venuto spontaneo chiedermi se fosse un paywall vero o l’ennesimo messaggio di facciata.

Ho guardato il codice sorgente della pagina, in altre parole il contenuto (testi, immagini, script) che poi il browser rappresenta in modo grafico per farci vedere l’articolo con tutta la sua grafica. Riscontrando questo pezzo di codice Javascript, ho visto qualcosa di estremamente interessante:

function read_paywall(){
    var replace=[];
    replace['paywall_canRead']='true';
    location.href = setUrlParameter(replace);
}
$.ajax({
    url: 'https://www.ilfoglio.it/webservices/canRead.jsp',
    [...]
    success: function(response){
        if(response.canRead){
            if(response.canRead)  {
                // può leggere
                // reload con parametri
                read_paywall();
                return;

Ricapitoliamo:

  • La pagina inizialmente contiene un pezzettino di articolo
  • Al caricamento, il sito invia una richiesta al server e verifica se l’utente è autorizzato a leggere le notizie integralmente
  • In caso positivo, richiama la funziona read_paywall la quale aggiunge ?paywall_canRead=true alla fine dell’URL e ricarica la pagina

Questo è un caso di controllo di sicurezza lato client, che in tale contesto non ha assolutamente senso. Ma in altri casi potrebbe pure averlo (per questioni di usabilità), a patto che poi tale verifica venga riconfermata nuovamente lato server, quando una persona cerca di caricare una pagina con il parametro ?paywall_canRead=true.

Ciò non veniva fatto da Il Foglio, perciò gli articoli erano leggibili assolutamente da chiunque.

Tutto questo veniva rilevato pochi giorni fa, come dimostra lo screenshot di una pagina caricata collegandosi all’URL https://www.ilfoglio.it/societa/2018/08/27/news/asia-argento-molestie-metoo-garantista-211179/?paywall_canRead=true. L’articolo è del 27 agosto 2018 ma è difficile stabilire per quanto tempo il sito de Il Foglio abbia avuto questo problema.

Apertura di un articolo premium in formato integrale, senza aver effettuato l’accesso

Non vi ho ancora raccontato la parte migliore. Dopo una prima visita a una notizia qualsiasi col parametro “aggiuntivo”, tutte le altre pagine venivano sbloccate in automatico perché l’autorizzazione veniva salvata nel cookie di sessione dell’utente. Insomma, era anche piuttosto pratico. 😉 La prima operazione poteva anche essere automatizzata con un semplicissimo script, esattamente una riga di codice:

if(window.hasOwnProperty("read_paywall")) window.read_paywall();

Avendo in programma di pubblicare prima il post relativo a La Stampa, ho rimandato la trattazione di questo sito a dopo il termine di ESC 2018. In questi giorni evidentemente qualcuno ha rilevato il problema e vi ha posto rimedio, al contrario delle altre testate precedentemente menzionate le quali hanno ancora dei paywall “scolapasta”.

A mio parere questa vicenda è una dimostrazione di quanto sia importante effettuare dei monitoraggi costanti su chi accede alle risorse riservate, nonché compiere delle periodiche verifiche di sicurezza per riscontrare eventuali bug. In altre parole è la buona cultura della sicurezza che cerco di diffondere a tutte le aziende con cui lavoro.

Annunci

Gli articoli premium de La Stampa li può leggere chiunque, senza pagare

Precedentemente vi avevo già parlato di come gli articoli premium di Repubblica siano in realtà a pagamento solo per finta. I testi completi degli articoli infatti sono ottenibili in modo abbastanza banale perché il sito li mette a disposizione di chiunque.

Il caso era abbastanza eclatante, perché il testo di ogni articolo veniva semplicemente reso invisibile all’utente, ma effettivamente era presente. La maggior parte dei siti di notizie, invece, effettuano un vero e proprio “taglio” del contenuto. Al browser dell’utente viene mandato il primo paragrafo del testo e poi si vede un banner che invita ad abbonarsi.

Recentemente una persona mi ha chiesto se fosse un fenomeno presente anche su un altro quotidiano, ovvero LaStampa TopNews. Però penso risulti chiaro: una mancanza del genere solitamente è l’eccezione, non la regola. Stavo quindi preparandomi istintivamente a scrivere una risposta negativa.

Poi mi sono detto “vabbè dai, sono in ferie… 5 minuti li spreco, ma non uno di più”. Ho aperto uno degli articoli marcati come TopNews sul sito, in particolare questo:

http://www.lastampa.it/2018/08/22/cultura/investimenti-un-patto-per-ripartire-4Irf6mm0cDpDXY7JvmjtHI/premium.html

Ho osservato l’indirizzo e mi sono chiesto se questo avesse anche una versione di stampa. La prima cosa che mi è venuta in mente di fare, in modo del tutto istintivo, è stata di rimpiazzare il nome premium.html con print.html. Certo, un tentativo un po’ sciocco, ma costava poco provare. Quindi ho tentato di visitare questo URL:

http://www.lastampa.it/2018/08/22/cultura/investimenti-un-patto-per-ripartire-4Irf6mm0cDpDXY7JvmjtHI/print.html

Con mia sorpresa, qualcosa si è aperto. 🙂 La figura mostra le due pagine in questione:

Il testo di un articolo, prima e dopo il cambio dell’URL

Lo so, state pensando che è una cosa veramente assurda e bizzarra. L’ho pensato anch’io. 😀 Il fatto che le versioni complete degli articoli siano disponibili online a chiunque, senza login, vanifica completamente il senso del paywall. Considerando poi che i testi degli articoli sono il prodotto offerto da un quotidiano, il business ne risente sicuramente.

La cosa buffa è che nessuna delle due pagine è una “versione stampabile”, se provate a generare delle anteprime in PDF vedrete che vengono entrambe molto male.

Anche in questo caso ho creato un microscopico user-script a scopo dimostrativo, il quale funziona con le estensioni Greasemonkey e Tampermonkey. Se vi trovate su una pagina di TopNews, carica in background il testo integrale dalla versione “intera” e lo mette al posto dell’anteprima. Lo potete installare da qui:

La Stampa TopNews Full Text Articles

Come sempre, lo script è solo un proof-of-concept e il sito può venire sistemato in qualsiasi momento.

Quando vedo errori del genere rimango piuttosto basito, perché per qualsiasi sviluppatore software si tratta di sbagli alquanto grossolani e gravi. Durante la progettazione di un sito web, specialmente se a pagamento, è importante operare in modo preciso e professionale e occuparsi anche di fare le relative valutazioni di sicurezza.

Gli articoli premium di Repubblica li può leggere chiunque, senza pagare

Il progetto OWASP (Open Web Application Security Project) mantiene da diversi anni la OWASP Top 10, vale a dire la lista delle dieci vulnerabilità più critiche nell’ambito delle applicazioni web. È una lista conosciuta da tutte le persone che si occupano di sicurezza informatica e, vorrei sperare, anche da chi si occupa di sviluppo web.

Un tipo di vulnerabilità che compare in tutte le edizioni della lista, in un modo o nell’altro, riguarda la possibilità di accesso a risorse che dovrebbero essere protette ma non lo sono in modo adeguato.

Repubblica ha lanciato un servizio premium a Novembre dell’anno scorso, chiamandolo “Rep”. All’interno di esso compaiono articoli di cronaca, pezzi di opinione e molto altro. Chi non è abbonato, visitando un articolo di Rep vede alcune frasi dell’articolo, seguite da un messaggio che recita:

Abbonati a Rep per continuare a leggere

Fino a qui, sembrerebbe tutto normale. Il browser di un utente anonimo riceve un pezzo dell’articolo, ma non può leggere oltre fino a che non effettua il login: è il funzionamento base di un paywall.

Su alcuni siti vulnerabili ci potrebbe essere qualcuno che riesce a bypassare il pagamento e leggere integralmente gli articoli, magari alterando i parametri dell’URL, i cookie o il referer. Questa possibilità esiste, però richiederebbe una specie di “manipolazione” basilare o comunque un intervento da parte dell’utente per ricevere il testo completo.

Il caso di Rep è completamente diverso e mi ha stupito moltissimo quando l’ho visto. Basta infatti guardare il codice sorgente caricato dal browser per scoprire un artificio meramente estetico:

rep_testo
Il testo di un articolo su Rep, visualizzato da un utente non registrato

Si nota infatti che è il sito stesso, cioè l’applicazione Rep, a inviare il testo integrale di ogni articolo al browser di qualsiasi visitatore lo visualizzi. Non c’è nemmeno la possibilità di non riceverlo, arriva infatti in automatico con tutto il resto della pagina.

Il testo viene poi semplicemente nascosto tramite lo stile grafico del sito (una riga di codice CSS che chiunque può disattivare). Ed è questa la cosa più incredibile di questa vicenda:

  • non è necessario installare niente
  • non c’è bisogno di “manipolare” nulla

Rep invia a tutti i visitatori i testi completi di tutti gli articoli, che sono visibili se si disattiva lo stile che li nasconde (o anche navigando con gli stili disattivati, un’opzione di Firefox poco utilizzata ma presente fin dagli albori del browser).

Anzi, se volete provare da voi vi basta visitare un qualsiasi articolo di Rep, aprire gli strumenti di sviluppo del browser e togliere la casellina sulla regola giusta. O ancora più semplicemente, disattivate un attimo gli stili della pagina dal menu di Firefox (Visualizza → Stile pagina → Nessuno stile).

Se siete totalmente pigri, volete automatizzare la cosa per ciascun articolo che visitate, oppure volete farlo da smartphone (in tal caso avrete bisogno di Firefox) ho anche pubblicato un microscopico user-script che funziona con le estensioni Greasemonkey e Tampermonkey. Lo potete installare da qui:

Repubblica “Rep” Aesthetic Paywall Bypass

Naturalmente lo script è solo un proof-of-concept e il sito può venire sistemato in qualsiasi momento.

Quello che abbiamo sotto gli occhi è un tentativo di fare “sicurezza” lato-client, ovvero sulla macchina dell’utente dell’applicazione web. Questo è un approccio che non funziona, anzi è talmente grossolano che sembra dover richiedere un’altra spiegazione.

Alcune persone con cui ho parlato ipotizzano che venga fatto in modo intenzionale, per consentire l’indicizzazione degli articoli da parte di Google. Questo potrebbe certamente essere vero, anche perché sembra strano che nessuno sia intervenuto nel giro di mesi. Però Google fornisce degli strumenti appositi per gli sviluppatori di contenuti protetti da paywall. Forse sarebbe il caso di utilizzarli.

Se anche voi state sviluppando un’applicazione web, assicuratevi di effettuare adeguate valutazioni di tutto il codice, verificando una per una tutte le vulnerabilità della OWASP Top 10 (e non solo quelle). Proteggere i contenuti è fondamentale, specialmente quando i contenuti sono il prodotto. A questo proposito, potrebbe essere una buona idea richiedere un servizio di consulenza professionale in merito.

Determinare la data in cui è stata scritta una pagina web

Qualche tempo fa mi è stato proposto di scrivere un articolo per la rivista ICT Security Magazine. Ho trattato una tematica che torna utile in molti casi di indagini da fonti aperte o di consulenze in ambito di digital forensics:

Durante le attività di OSINT (Open Source Intelligence) si può riscontrare l’esigenza di attribuire una datazione più precisa possibile ad una pagina web. Talvolta può essere necessario riuscire ad individuare un giorno o addirittura un orario ascrivibile alla creazione della pagina, ad esempio per rilevare casi di contraffazione della stessa.

Per l’occasione ho anche sviluppato e rilasciato un software open source per automatizzare il processo di datazione di una pagina, che ho chiamato Carbon14. Potete leggere l’articolo completo Datazione delle pagine web tramite Carbon14 direttamente sul sito della rivista.

Se invece avete bisogno di consulenza professionale, eventualmente nella forma di consulenza tecnica utilizzabile anche in giudizio, contattatemi tramite l’apposita pagina.

 

Script aggiornati per Greasemonkey 4 e altre importanti novità

Chi segue il blog da qualche tempo ormai lo sa, i miei post più seguiti sono quasi tutti dedicati al download di video delle principali emittenti italiane, e non solo, disponibili liberamente sui siti web.

Da diversi anni ho reso disponibili gratuitamente degli script (con annesso server di supporto, per Rai e Mediaset) dedicati ciascuno a un singolo sito web. Qui sotto trovate i link ai vari post, dai quali potete scaricare e installare ciò che vi interessa. 🙂

Firefox e Greasemonkey

In passato ho sempre consigliato a tutti Greasemonkey su Firefox, perché è un componente aggiuntivo libero e open source che si può considerare anche la prima delle estensioni per usare gli user script. Poi è nata Tampermonkey per Chrome, Opera e altri browser e adesso ne esistono pure di ulteriori.

Nel lavoro di ammodernamento precedente all’uscita di Firefox 57 (Quantum), gli autori di Greasemonkey si sono trovati nella condizione di dover aggiornare l’estensione e ne hanno approfittato per fare alcune modifiche non retrocompatibili.

Ne è risultato che i miei script funzionavano bene su Greasemonkey 3, ma erano inefficaci su Greasemonkey 4. Quindi ho suggerito a tutti di passare a Tampermonkey. 😉

Come sempre accade, ho continuato a ricevere lo stesso qualche richiesta in merito a presunti “problemi” da sistemare sullo script, da persone che usavano Greasemonkey nonostante i ripetuti avvisi. Però per il resto è andato tutto abbastanza liscio.

Ad ogni modo ora non è più necessario preoccuparsi, infatti ho aggiornato tutti gli script per renderli funzionanti col nuovo Greasemonkey! 😀

Gli aggiornamenti

Non ho effettuato solo una modifica (per fortuna non troppo impegnativa) in termini di compatibilità garantita con Greasemonkey e Tampermonkey, ma in alcuni casi ci sono state delle modifiche ulteriori. Eccovi un riepilogo:

  • Rai Play: ora il link compare regolarmente, inoltre ho nascosto il fastidioso avviso che chiede all’utente di disattivare il blocco pubblicitario. Bloccare le pubblicità è fondamentale (leggete qui perché).
  • Video Mediaset: ora tutti i link compaiono regolarmente. Ho rimosso il pop-up che compare a chi accede a Mediaset dall’estero. Nella quasi totalità dei casi, chi usa il mio script può vedere i video geoprotetti di Mediaset anche in altri paesi.
  • La7: nella stragrande maggioranza dei casi funzionava già con Greasemonkey 4, ma ho fatto una piccola modifica per sistemare il resto.
  • Infine ho applicato la stessa correzione agli script per RSI e BBC.

Altre informazioni utili

Una cosa che ha confuso alcune persone è che da un po’ di tempo sia Rai che Mediaset richiedono di essere registrati, per vedere molti dei loro video. È così da diversi mesi, eppure pochi se ne sono accorti e ogni tanto qualcuno me lo “segnala”.

Il motivo è semplice: chi usa i miei script non deve registrarsi perché ci pensano loro a mostrare subito il video. Un risparmio di tempo e di privacy, saltando il login e la pubblicità iniziale. 🙂 Nei rari casi in cui un link non sia disponibile o riconoscibile dallo script, può comparire una finestra di login… ma non allarmatevi, è fatto così il sito.

Altra cosa utile da tenere a mente, lo accennavo prima, è che usando il mio script per Video Mediaset potete visualizzare tranquillamente quasi tutti i loro filmati anche dall’estero senza strumenti particolari. 😉 Questo perché i loro video “geo-protetti” sono protetti tanto quanto lo sarebbe un caveau pieno di diamanti, aperto e con un cartello che dice “non entrare”.

Per quanto riguarda invece i video della Rai (se non siete in Italia) o della BBC (se non siete nel Regno Unito) avrete bisogno di un servizio VPN serio. Ne ho parlato approfonditamente nell’articolo Cos’è una VPN e perché è fondamentale usarla per proteggersi. Il post ha dei link per acquistare degli account lifetime scontati… Sennò fate voi e scegliete quella che preferite. 🙂

Infine, vorrei precisare che questi aggiornamenti non riguardano i problemi di qualche giorno fa (sorti attorno al 15 gennaio) per i link che non comparivano sotto ad alcuni video su Rai Play. Quello era un malfunzionamento sul server (già risolto) causato dall’hosting provider. Ne ho parlato nei commenti sotto al post.

Licenza e nuova policy

Volevo infine chiarire una cosa importante sull’uso degli script ed eventuali richieste di assistenza in merito. Dal primo giorno (di oltre 6 anni fa!) gli script sono rilasciati sotto licenza GPL, una licenza libera. Ciò vi garantisce che potete usarli gratis e liberamente per qualsiasi scopo, installarli dove vi pare, condividerli e modificarli a condizione di riportare chi è l’autore e mantenere le modifiche sotto la stessa licenza.

Gli script (e relativo server di supporto) sono e restano a vostra disposizione.

Però è opportuno tenere a mente anche quanto è indicato nella licenza, in merito a eventuali garanzie di funzionamento. Userò la traduzione non ufficiale della GPLv3 per maggiore chiarezza:

Eccetto quando altrimenti stabilito per iscritto, i detentori del copyright e/o le altre parti forniscono il programma “così com’è” senza garanzia di alcun tipo, né espressa né implicita, incluse, ma non limitate a, le garanzie di commerciabilità o di utilizzabilità per un particolare scopo.

Ciò significa, in altri termini, che non devo fornire garanzie di funzionamento costante al 100%, stando sempre al passo con le modifiche ai siti delle varie TV. Né in realtà ho il tempo di farlo… aggiorno quando riesco, essendo tutte ore extra che devo spendere per gli script. 🙂

Non posso altresì dedicare molto tempo a rispondere ai quesiti che arrivano via email o messaggi privati, sennò diventa un impegno gravoso che va ad intaccare il tempo dedicato alla mia professione. Per questo motivo da oggi ho deciso di disattivare la chat della mia pagina Facebook.

Se ci sono dubbi, domande o commenti sugli script ho sempre chiesto agli utenti di usare l’area commenti dei relativi articoli. Per comodità vostra li trovate linkati all’inizio di questo post, quindi commentate pure!

Se 10 persone mi scrivono in privato, devo dare 10 risposte. Se 10 persone usano l’area commenti, la prima riceve la risposta e le altre 9 si trovano già la soluzione pronta senza far fatica. È un vantaggio per tutti! 😉

Come policy generale comunque ho intenzione di dare una mano con gli script a chi ha effettuato una donazione, naturalmente se ho tempo e se riesco. Contando la globalità degli script citati sopra, sono state superate le 60000 (sessantamila) copie installate. Vi lascio trarre qualche conclusione su quanto più tempo libero avrei se per ogni installazione mi fosse stato donato un euro. 😀

Chi usa gli script e non ha intenzione di donare sappia che può continuare a farlo gratuitamente tutte le volte che lo desidera. Semplicemente porti un po’ di pazienza se ogni tanto qualcosa non va. Chi invece ha la necessità di avere consulenze dedicate o script realizzati su misura (tutte attività che richiedono tempo) può chiedermi un preventivo in merito a tutti i servizi che offro.