talk_scraping_cover

I migliori metodi per estrarre automaticamente notizie, ricette e altre informazioni dai siti web

Il web è una miniera di informazioni, il cui contenuto cresce a dismisura ogni giorno. Una necessità che ci troviamo ad avere frequentemente è quella di estrarre e salvare contenuti e dati. In passato ho trattato l’estrazione dei contenuti audio e video, ma esistono anche moltissimi contenuti testuali, come notizie, ricette o tabelle con dati numerici.

Inoltre è molto utile essere notificati quando il contenuto di un sito cambia, per esempio pubblicando un nuovo articolo o aggiungendo delle foto a una galleria. Tuttavia, non tutti i siti offrono dei feed RSS già pronti.

Vi avevo anticipato che avrei trattato questo argomento al Linux Day 2015 e finalmente è pronto il filmato del mio intervento.🙂 Riporto qui la descrizione e il video del talk:

Il web è pieno di informazioni utili: non solo dati numerici, ma anche notizie, tutorial, ricette e gallerie di immagini. Tuttavia, spesso i siti web rendono complicato estrarre le informazioni che ci interessano per poi elaborarle o convertirle. Inoltre, a volte è utile tenere traccia degli aggiornamenti che vengono pubblicati su una certa pagina.

In questo talk vengono analizzati strumenti e tecniche per risolvere efficacemente questo problema tramite il web scraping.

Siamo stati costretti ad usare una telecamera di riserva, per problemi tecnici con quella principale. Per questo il video è di scarsa qualità, ma ci sono le slide in sovrimpressione che compaiono quando necessario, quindi è tutto leggibile.

Se volete, potete scaricare le slide in PDF dal sito del GrappaLUG, cliccando qui.

5 pensieri su “I migliori metodi per estrarre automaticamente notizie, ricette e altre informazioni dai siti web

  1. Molto interessante, grazie.
    Alcune cose:

    • Che font è quello della presentazione?
    • Mi hai fatto notare che l’rss del giornale di vicenza non funziona più (perché non crearne una versione condivisibile?)
    • Se posso consigliarti e se non lo conosci già prova inoreader come lettore rss. Veramente potentissimo con possibilità anche di aver feed da twitter e google plus (in questo caso con un pagamento annuale che vale ogni singolo centesimo), integrazione con IFTTT, filtri, e centinaia di altre funzioni e notifiche con, infine, un’ottima app android.

    Ciao

  2. La presentazione segue la Style Guide del GrappaLUG, quindi il font principale è Lato (nel caso specifico, Lato Light) e quello nei riquadri grigi è Raleway Light.

    Per l’RSS del Giornale di Vicenza, è semplice… io non lo uso e non ha senso che diventi il maintainer di altre cose che portano via tempo ogni volta che c’è da modificare qualcosa.😉

    Riguardo a InoReader, in realtà mi trovo benissimo con Feedly. Anche Feedly è compatibile con l’API di Google Reader, il che significa che esistono applicazioni di terze parti che possono accedervi, tanto quanto InoReader. Personalmente uso FeedMe. Per i feed da Twitter, io sono della “scuola” che se usi gli RSS l’input debba arrivare veramente da un feed RSS, non da aggiunte customizzate al sito. Attualmente uso Zapier per i feed Twitter che mi servono. Google Plus è un social network deserto quindi non lo considero nemmeno.😀

    Comunque sia, potrei anche provarlo. Però significherebbe comunque perdere le copie di tutti i post che ho già letto in passato. Magari non così grave, ma è una cosa da tenere in seria considerazione.

  3. Grazie della risposta.
    Inoreader ha la possibilità di importare/esportare tramite file OPML, magari questa informazione ti può aiutare a capire se puoi provarlo o meno. Non so se FeedMe ha la possibilità, ma una cosa che mi fa impazzire di inoreader è che ti può immediatamente notificare su android se un feed rss contiene per esempio una determinata stringa di testo nel contenuto. Non conoscevo Zapier, ora me lo vado a vedere.
    Ciao!

  4. Inoreader ha la possibilità di importare/esportare tramite file OPML

    Sì per carità, non è un problema importare i feed… il problema è che non rimangono i vecchi post già letti nella cache del reader. Non è un dramma, ci mancherebbe, però a volte aiuta poter ritrovare vecchi post. Comunque non ho escluso di provarlo in futuro, eh.😀

Che cosa ne pensi?

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...