I migliori metodi per estrarre automaticamente notizie, ricette e altre informazioni dai siti web

Il web è una miniera di informazioni, il cui contenuto cresce a dismisura ogni giorno. Una necessità che ci troviamo ad avere frequentemente è quella di estrarre e salvare contenuti e dati. In passato ho trattato l’estrazione dei contenuti audio e video, ma esistono anche moltissimi contenuti testuali, come notizie, ricette o tabelle con dati numerici.

Inoltre è molto utile essere notificati quando il contenuto di un sito cambia, per esempio pubblicando un nuovo articolo o aggiungendo delle foto a una galleria. Tuttavia, non tutti i siti offrono dei feed RSS già pronti.

Vi avevo anticipato che avrei trattato questo argomento al Linux Day 2015 e finalmente è pronto il filmato del mio intervento. 🙂 Riporto qui la descrizione e il video del talk:

Il web è pieno di informazioni utili: non solo dati numerici, ma anche notizie, tutorial, ricette e gallerie di immagini. Tuttavia, spesso i siti web rendono complicato estrarre le informazioni che ci interessano per poi elaborarle o convertirle. Inoltre, a volte è utile tenere traccia degli aggiornamenti che vengono pubblicati su una certa pagina.

In questo talk vengono analizzati strumenti e tecniche per risolvere efficacemente questo problema tramite il web scraping.

Clicca qui per mostrare contenuto da YouTube.
(leggi la privacy policy del servizio)

Siamo stati costretti ad usare una telecamera di riserva, per problemi tecnici con quella principale. Per questo il video è di scarsa qualità, ma ci sono le slide in sovrimpressione che compaiono quando necessario, quindi è tutto leggibile.

Se volete, potete scaricare le slide in PDF dal sito del GrappaLUG, cliccando qui.

5 pensieri riguardo “I migliori metodi per estrarre automaticamente notizie, ricette e altre informazioni dai siti web

  1. Molto interessante, grazie.
    Alcune cose:

    • Che font è quello della presentazione?
    • Mi hai fatto notare che l’rss del giornale di vicenza non funziona più (perché non crearne una versione condivisibile?)
    • Se posso consigliarti e se non lo conosci già prova inoreader come lettore rss. Veramente potentissimo con possibilità anche di aver feed da twitter e google plus (in questo caso con un pagamento annuale che vale ogni singolo centesimo), integrazione con IFTTT, filtri, e centinaia di altre funzioni e notifiche con, infine, un’ottima app android.

    Ciao

    1. La presentazione segue la Style Guide del GrappaLUG, quindi il font principale è Lato (nel caso specifico, Lato Light) e quello nei riquadri grigi è Raleway Light.

      Per l’RSS del Giornale di Vicenza, è semplice… io non lo uso e non ha senso che diventi il maintainer di altre cose che portano via tempo ogni volta che c’è da modificare qualcosa. 😉

      Riguardo a InoReader, in realtà mi trovo benissimo con Feedly. Anche Feedly è compatibile con l’API di Google Reader, il che significa che esistono applicazioni di terze parti che possono accedervi, tanto quanto InoReader. Personalmente uso FeedMe. Per i feed da Twitter, io sono della “scuola” che se usi gli RSS l’input debba arrivare veramente da un feed RSS, non da aggiunte customizzate al sito. Attualmente uso Zapier per i feed Twitter che mi servono. Google Plus è un social network deserto quindi non lo considero nemmeno. 😀

      Comunque sia, potrei anche provarlo. Però significherebbe comunque perdere le copie di tutti i post che ho già letto in passato. Magari non così grave, ma è una cosa da tenere in seria considerazione.

  2. Grazie della risposta.
    Inoreader ha la possibilità di importare/esportare tramite file OPML, magari questa informazione ti può aiutare a capire se puoi provarlo o meno. Non so se FeedMe ha la possibilità, ma una cosa che mi fa impazzire di inoreader è che ti può immediatamente notificare su android se un feed rss contiene per esempio una determinata stringa di testo nel contenuto. Non conoscevo Zapier, ora me lo vado a vedere.
    Ciao!

    1. Inoreader ha la possibilità di importare/esportare tramite file OPML

      Sì per carità, non è un problema importare i feed… il problema è che non rimangono i vecchi post già letti nella cache del reader. Non è un dramma, ci mancherebbe, però a volte aiuta poter ritrovare vecchi post. Comunque non ho escluso di provarlo in futuro, eh. 😀

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *