Excel et Google Sheets utilise deux approches différentes pour travailler avec des données venant du Web.
Vous êtes en train de lire mes quelques phrases maladroites, mais en back end, ce que vous lisez, ce sont juste des données.
Des données qui peuvent être « scrapées », modifiées, simplifiées, avec quelques lignes de code.
Le webscraping est un ensemble de techniques qui consistent à recueillir des élèments venant de sites Web et d’applications afin de les analyser.
Pour un pro, quasiment tous les sites peuvent être scrapés.
Cependant, le webscraping nécessite généralement une compréhension complexe à la fois de la programmation et de l’architecture d’un site Web.
Bien sûr, il existe des langages de programmation qui facilitent un peu les choses, comme Python grâce aux packages Scrapy et BeautifulSoup.
Mais si on est là, c’est pour parler spreadsheet.
Excel et Google Sheets à la rescousse
Les deux tableurs utilisent une approche radicalement différente.
Le Webscraping avec Google Sheets
Pour son tableur, Google a décidé de baser ses outils de webscraping sur des formules :
La fonction IMPORTHTML :
La fonction IMPORTFEED qui permet d’importer un flux rss
Le Webscraping avec Excel
De son côté, Microsoft a décidé de développer sa stratégie sur son outil de manipulation de données : Power Query.
Pour les plus avancés, il est possible d’aller un peu plus loin en manipulant le langage de programmation inclu dans Power Query, le langage M :
Importer les données d’un portefeuille d’actions via Yahoo Finance :
Importer les données de plusieurs pages d’un site de comics :