Il web è una miniera di informazioni, il cui contenuto cresce a dismisura ogni giorno. Una necessità che ci troviamo ad avere frequentemente è quella di estrarre e salvare contenuti e dati. In passato ho trattato l’estrazione dei contenuti audio e video, ma esistono anche moltissimi contenuti testuali, come notizie, ricette o tabelle con dati numerici.
Inoltre è molto utile essere notificati quando il contenuto di un sito cambia, per esempio pubblicando un nuovo articolo o aggiungendo delle foto a una galleria. Tuttavia, non tutti i siti offrono dei feed RSS già pronti.
Vi avevo anticipato che avrei trattato questo argomento al Linux Day 2015 e finalmente è pronto il filmato del mio intervento. 🙂 Riporto qui la descrizione e il video del talk:
Il web è pieno di informazioni utili: non solo dati numerici, ma anche notizie, tutorial, ricette e gallerie di immagini. Tuttavia, spesso i siti web rendono complicato estrarre le informazioni che ci interessano per poi elaborarle o convertirle. Inoltre, a volte è utile tenere traccia degli aggiornamenti che vengono pubblicati su una certa pagina.
In questo talk vengono analizzati strumenti e tecniche per risolvere efficacemente questo problema tramite il web scraping.
Siamo stati costretti ad usare una telecamera di riserva, per problemi tecnici con quella principale. Per questo il video è di scarsa qualità, ma ci sono le slide in sovrimpressione che compaiono quando necessario, quindi è tutto leggibile.
Se volete, potete scaricare le slide in PDF dal sito del GrappaLUG, cliccando qui.
Molto interessante, grazie.
Alcune cose:
Ciao
La presentazione segue la Style Guide del GrappaLUG, quindi il font principale è Lato (nel caso specifico, Lato Light) e quello nei riquadri grigi è Raleway Light.
Per l’RSS del Giornale di Vicenza, è semplice… io non lo uso e non ha senso che diventi il maintainer di altre cose che portano via tempo ogni volta che c’è da modificare qualcosa. 😉
Riguardo a InoReader, in realtà mi trovo benissimo con Feedly. Anche Feedly è compatibile con l’API di Google Reader, il che significa che esistono applicazioni di terze parti che possono accedervi, tanto quanto InoReader. Personalmente uso FeedMe. Per i feed da Twitter, io sono della “scuola” che se usi gli RSS l’input debba arrivare veramente da un feed RSS, non da aggiunte customizzate al sito. Attualmente uso Zapier per i feed Twitter che mi servono. Google Plus è un social network deserto quindi non lo considero nemmeno. 😀
Comunque sia, potrei anche provarlo. Però significherebbe comunque perdere le copie di tutti i post che ho già letto in passato. Magari non così grave, ma è una cosa da tenere in seria considerazione.
Grazie della risposta.
Inoreader ha la possibilità di importare/esportare tramite file OPML, magari questa informazione ti può aiutare a capire se puoi provarlo o meno. Non so se FeedMe ha la possibilità, ma una cosa che mi fa impazzire di inoreader è che ti può immediatamente notificare su android se un feed rss contiene per esempio una determinata stringa di testo nel contenuto. Non conoscevo Zapier, ora me lo vado a vedere.
Ciao!
Sì per carità, non è un problema importare i feed… il problema è che non rimangono i vecchi post già letti nella cache del reader. Non è un dramma, ci mancherebbe, però a volte aiuta poter ritrovare vecchi post. Comunque non ho escluso di provarlo in futuro, eh. 😀
Questo in effetti è un argomento decisamente importante e poco trattato! grazie per i suggerimenti.