I migliori metodi per estrarre automaticamente notizie, ricette e altre informazioni dai siti web

Lazza15 Novembre 20155 Aprile 2022Linux, Webdata scraping, linux day, slide, talk, web scraping

Il web è una miniera di informazioni, il cui contenuto cresce a dismisura ogni giorno. Una necessità che ci troviamo ad avere frequentemente è quella di estrarre e salvare contenuti e dati. In passato ho trattato l’estrazione dei contenuti audio e video, ma esistono anche moltissimi contenuti testuali, come notizie, ricette o tabelle con dati numerici.

Inoltre è molto utile essere notificati quando il contenuto di un sito cambia, per esempio pubblicando un nuovo articolo o aggiungendo delle foto a una galleria. Tuttavia, non tutti i siti offrono dei feed RSS già pronti.

Vi avevo anticipato che avrei trattato questo argomento al Linux Day 2015 e finalmente è pronto il filmato del mio intervento. 🙂 Riporto qui la descrizione e il video del talk:

Il web è pieno di informazioni utili: non solo dati numerici, ma anche notizie, tutorial, ricette e gallerie di immagini. Tuttavia, spesso i siti web rendono complicato estrarre le informazioni che ci interessano per poi elaborarle o convertirle. Inoltre, a volte è utile tenere traccia degli aggiornamenti che vengono pubblicati su una certa pagina.
In questo talk vengono analizzati strumenti e tecniche per risolvere efficacemente questo problema tramite il web scraping.

Clicca qui per mostrare contenuto da YouTube.
(leggi la privacy policy del servizio)

Mostra sempre i contenuti da YouTube

Siamo stati costretti ad usare una telecamera di riserva, per problemi tecnici con quella principale. Per questo il video è di scarsa qualità, ma ci sono le slide in sovrimpressione che compaiono quando necessario, quindi è tutto leggibile.

Se volete, potete scaricare le slide in PDF dal sito del GrappaLUG, cliccando qui.

Email Facebook X (Twitter)Mastodon LinkedIn Telegram WhatsApp Pocket

5 pensieri riguardo “I migliori metodi per estrarre automaticamente notizie, ricette e altre informazioni dai siti web”

Dario Vanin (@vandario) ha detto:

15 Novembre 2015 alle 20:47
Molto interessante, grazie.
Alcune cose:
- Che font è quello della presentazione?
- Mi hai fatto notare che l’rss del giornale di vicenza non funziona più (perché non crearne una versione condivisibile?)
- Se posso consigliarti e se non lo conosci già prova inoreader come lettore rss. Veramente potentissimo con possibilità anche di aver feed da twitter e google plus (in questo caso con un pagamento annuale che vale ogni singolo centesimo), integrazione con IFTTT, filtri, e centinaia di altre funzioni e notifiche con, infine, un’ottima app android.
Ciao
Rispondi
1. Lazza ha detto:
  
  15 Novembre 2015 alle 21:15
  
  La presentazione segue la Style Guide del GrappaLUG, quindi il font principale è Lato (nel caso specifico, Lato Light) e quello nei riquadri grigi è Raleway Light.
  
  Per l’RSS del Giornale di Vicenza, è semplice… io non lo uso e non ha senso che diventi il maintainer di altre cose che portano via tempo ogni volta che c’è da modificare qualcosa. 😉
  
  Riguardo a InoReader, in realtà mi trovo benissimo con Feedly. Anche Feedly è compatibile con l’API di Google Reader, il che significa che esistono applicazioni di terze parti che possono accedervi, tanto quanto InoReader. Personalmente uso FeedMe. Per i feed da Twitter, io sono della “scuola” che se usi gli RSS l’input debba arrivare veramente da un feed RSS, non da aggiunte customizzate al sito. Attualmente uso Zapier per i feed Twitter che mi servono. Google Plus è un social network deserto quindi non lo considero nemmeno. 😀
  
  Comunque sia, potrei anche provarlo. Però significherebbe comunque perdere le copie di tutti i post che ho già letto in passato. Magari non così grave, ma è una cosa da tenere in seria considerazione.
Dario Vanin (@vandario) ha detto:

16 Novembre 2015 alle 12:07

Grazie della risposta.
Inoreader ha la possibilità di importare/esportare tramite file OPML, magari questa informazione ti può aiutare a capire se puoi provarlo o meno. Non so se FeedMe ha la possibilità, ma una cosa che mi fa impazzire di inoreader è che ti può immediatamente notificare su android se un feed rss contiene per esempio una determinata stringa di testo nel contenuto. Non conoscevo Zapier, ora me lo vado a vedere.
Ciao!

Rispondi
1. Lazza ha detto:
  
  17 Novembre 2015 alle 16:12
  
  Inoreader ha la possibilità di importare/esportare tramite file OPML
  
  Sì per carità, non è un problema importare i feed… il problema è che non rimangono i vecchi post già letti nella cache del reader. Non è un dramma, ci mancherebbe, però a volte aiuta poter ritrovare vecchi post. Comunque non ho escluso di provarlo in futuro, eh. 😀
Massimiliano ha detto:

8 Dicembre 2015 alle 21:54

Questo in effetti è un argomento decisamente importante e poco trattato! grazie per i suggerimenti.

Rispondi

I migliori metodi per estrarre automaticamente notizie, ricette e altre informazioni dai siti web

Condividi:

5 pensieri riguardo “I migliori metodi per estrarre automaticamente notizie, ricette e altre informazioni dai siti web”

Lascia un commento Annulla risposta