Pourquoi les données structurées pourraient devenir superflues pour Google à l'avenir

9 octobre 2019 par Jean Jaecklé

Sommaire

À l'avenir, l'implication de Google dans l'apprentissage automatique pourrait rendre redondant l'étiquetage avec des données structurées. Les astuces de Google indiquent.

Google apprend aussi grâce à l'aide de webmasters et de référenceurs

La construction d’une base de données sémantique sous la forme du graphe de Knowldege, mais aussi de manière générale lors de l’identification d’entités, dépend en grande partie de l’aide de personnes externes, comme par exemple: Webmasters, éditeurs de Wikipedia … de. En règle générale, Google souhaite toutefois obtenir des données interprétables de manière autonome sur le long terme, afin que le projet Knowledge Graph ne faiblisse pas.

Ceci est également démontré par le projet Coffre de connaissances, En 2014, Google a lancé Knowledge Vault en tant que projet de développement inactif qui utilise l'exploration Web et l'apprentissage automatique pour créer des données structurées et non structurées, la plus grande base de connaissances au monde. Si et dans quelle mesure Google utilise déjà activement cette base de données, aucune information n'est disponible à ce jour. Cependant, je suppose que le graphe de connaissances obtient déjà des informations de la base de connaissances. En savoir plus dans l'article Google "Knowledge Vault" pour propulser Future of Search.

Je suppose que Google a tout intérêt à connaître les informations du Knowledge Graph indépendamment de l'assistance de personnes externes. Il existe déjà des preuves que Google continue à venir ici données de formation vérifiées par l'homme approvisionnés pour leurs propres systèmes d’apprentissage automatique afin d’identifier et de classer plus rapidement les entités.

A lire également : Enquête: outils d'analyse Web et GTM dans les boutiques en ligne en Allemagne 2015

Par exemple, Google vérifie également les informations des boîtes médicales des professeurs et médecins de Harvard et de la Mayo Clinic avant de les publier dans les zones Knowledge Graph.

Ce test manuel pourrait également être utilisé dans l’apprentissage automatisé des machines pour améliorer les algorithmes. De plus, les évaluations des évaluateurs de recherche (évaluateur de la qualité) pourraient fournir à Google, en tant que données de formation utiles, les algorithmes d’auto-apprentissage par apprentissage.

Données structurées en tant que données d'entraînement humaines pour l'algorithme de Google

Un autre exemple de la manière dont Google tente de plus en plus d’agir indépendamment des webmasters à l’avenir est le suivant: rel-Authorship majoration, À mon avis, cette annotation ne relevait que de la tâche de Google. Identification des modèles qui sont des auteurs pour certains types d'entités dans ce cas. Les informations et les annotations ont été créées ou gérées par des personnes (principalement des référenceurs et des webmasters) et ont donc été des données de formation vérifiées pour Google, afin de créer des groupes de modèles à l'intention des auteurs en fonction de ces modèles via des algorithmes d'apprentissage automatique.

Il n’est donc pas surprenant que Google ait éventuellement rel-Author ou les projets Freebase cessé de poursuivre. Freebase était initialement alimenté par des humains avec des données créées selon un cadre sémantique. Donc, Google en avait un pour un terrain de jeu sémantique et suffisamment de données de formation vérifiées par l'homme pour les algorithmes d'apprentissage automatique disponibles. Freebase n'était qu'un moyen à court terme.

A lire également : En quatre étapes pour votre propre équipe InHouse-SEO

Les données structurées sont superflues pour Google Shopping.

Le fait que les données structurées ne puissent être qu'une escale et que Google souhaite renoncer à ce travail supplémentaire sous la forme de la récompense par les webmasters et les référenceurs, montre également les derniers développements de Google AdWords et de Google Shopping.

Donc eu Les annonceurs AdWordsqui gèrent un flux d’achats au cours des derniers mois, un email avec le libellé suivant:

"À compter du 30 octobre 2017, les informations les plus récentes sur les prix et la disponibilité de vos articles seront déterminées par des annotations pour des données structurées ou des informations supplémentaires (si des données structurées ne sont pas disponibles). Vos clients bénéficieront d'une facilité d'utilisation accrue sur Google Shopping. "

Si vous consultez l’aide d’achat, vous trouverez la formulation suivante en relation avec le Flux commerciaux:

"Les extracteurs avancés sont disponibles pour des informations sur la page de destination d'un produit. Ils utilisent une combinaison de modèles statistiques et d’apprentissage automatique pour détecter et extraire les données de produits de leur site Web. "Source: https://support.google.com/merchants/answer/3246284?hl=fr

Donc, Google a appris par apprentissage automatique au cours des dernières années, automatisé et indépendant de données structurées pour interpréter le contenu et l’assigner à une classe. Les propriétaires de magasin, qui ces dernières années ont bravement étiqueté leurs flux de magasinage avec des données structurées, ont été d'une aide précieuse: un flux de formation vérifié pour le système d'apprentissage automatique de Google Shopping.

De la bouche de Gary Illyes, cet objectif est clairement énoncé par Google:

"Je veux vivre dans un monde où le schéma n'est pas si important, mais actuellement, nous en avons besoin. Si Google le recommande, vous devriez probablement l'utiliser, car cela vous aide à comprendre le contenu de la page et qu'il est utilisé dans certaines fonctionnalités de recherche. faire des choses sans avoir besoin de schéma … "Source: https://searchengineland.com/gary-illyes-ask-anything-smx-east-285706

Je dois mentionner que Gary, dans la même source, nie la question de savoir si les données de schema.org sont utilisées comme données de formation. Cela parle contre ma supposition.

"Non, il est utilisé pour les extraits riches."

Google veut rester indépendant vis-à-vis des données

À mon avis, au cours des prochaines années, Google sera en mesure de classer une grande partie de tout le contenu sans être étiqueté avec des données structurées. Actuellement, ce ne sont que des données de formation vérifiées par l'homme qui pourraient éventuellement devenir obsolètes.

A lire également : Google Data Studio - Opportunités et risques

Google veut être complètement indépendant et s'abstenir de données externes qu'il ne peut pas générer seul. Cela a toujours été comme ça. Et même l'attribution de données structurées par les SEO et les webmasters n'est pas optimale pour Google, car seuls les webmasters techniquement avertis sont capables de marquer leurs sites Web de manière globale avec des données structurées.

Les preuves de Google concernant les données structurées, telles que par John Müller à la SEOday 2017 montrent que Google n'est apparemment pas prêt à classer le contenu sans distinction à l'aide de données structurées.

Ainsi, la rumeur non confirmée persiste selon laquelle les données structurées pourraient devenir un facteur de classement à l'avenir. C’est ce que Google joue dans la carte, car il fournit aux SEO de plus en plus de données structurées pour les algorithmes d’apprentissage automatique de Google. De plus en plus, ils classent automatiquement le contenu de manière autonome.

Plus d'informations sur l'apprentissage automatique dans l'article Importance de l'apprentissage automatique, de l'IA et du Rankbrain pour le référencement et Google