Syllabs, spécialiste de l’analyse sémantique, propose une solution de génération de textes qui permet aux sites Web de :

  1. améliorer l’expérience utilisateur des visiteurs et ainsi d’augmenter les ventes
  2. augmenter leur trafic via un meilleur référencement naturel
  3. répondre aux exigences des moteurs de recherche

Pour illustrer l’usage de cette technologie, nous vous proposons de découvrir en détail un cas concret avec le site WhoGotFunded.com.

WhoGotFunded.com et la génération de textes

WGF-Home

En 2012, Digimind a lancé le site de veille WhoGotFunded.com (WGF) sur la thématique des levées de fonds. Ainsi, en surveillant et en analysant les informations disponibles sur Internet, le site détecte, analyse et extrait automatiquement les informations sur chaque levée de fonds.

Dans ce contexte, Syllabs a appliqué sa solution de génération de contenus spécialisés pour rendre l’accès à l’information plus pertinent, c’est-à-dire :

  • agréable et compréhensible pour les utilisateurs, surtout pour les novices au domaine de la finance  ;
  • unique pour les moteurs de recherche.

Ainsi nous générons un descriptif unique pour chaque nouvelle levée de fonds :

exemple génération

Mise en oeuvre

Pour arriver à ce résultat, nous avons déployé notre solution en trois étapes :

  1. étude du domaine et acquisition du lexique ;
  2. écriture des règles de génération ;
  3. mise en place de l’API pour l’intégration.

Étude du domaine et acquisition du lexique

Comme nous ne sommes pas experts des marchés de nos clients, l’équipe de linguistes débute chaque projet par l’étude du domaine. Plus particulièrement, il s’agit d’identifier le vocabulaire spécifique utilisé dans le domaine au travers de l’analyse d’un certain nombre de sites spécialisés.

Dans le cadre des levées de fond, voici quatre exemples de textes issues du corpus qui nous a servi de référence :

exemple texte 4 exemple texte 3 exemple texte 2 exemple texte 1

A partir de ce corpus, sont créées des listes d’équivalence spécifiques qui seront utilisées dans les règles de génération : “round”, “securities offering”, “capital raising”, “funding”, “investment”, “company”, “value”, “monetary worth”, etc.

Écriture des règles de génération

Une fois le vocabulaire acquis, les linguistes écrivent les règles de génération. Pour cela il est nécessaire d’identifier les caractéristiques d’une levée de fonds à prendre compte pour la génération. En effet, le coeur de notre technologie repose sur le prise en compte de ces caractéristiques et leurs différentes expressions possibles dans un texte.

Nous avons donc défini une série de caractéristiques à exploiter :

  • Quelle est la société qui lève ?
  • Qui sont les investisseurs ?
  • Quel est le domaine d’activité de la société ?
  • Quel est le montant de la levée ?
  • Quand et où a eu lieu cette levée ?
  • etc.

A chaque caractéristique est associée une variable qui prendra les valeurs associées aux différentes levées lors de la génération. Ensuite sont rédigées des propositions de génération liées à ces caractéristiques. Par exemple, pour parler des investisseurs, notre langage permet de créer des structure de phrases équivalentes comme “the investment was made by” et “the financial support came from”.

La variabilité des textes est produite à deux niveaux :

  • interphrastique : dans l’exemple précédent, nous avons plusieurs propositions
  • intraphrastique : variations du lexique dans une même proposition, par exemple avec des synonymes.

De plus, l’une des spécificités de notre langage est la possibilité de faire des accords. Si nous prenons l’exemple “The value of the company [be,equal]”, le système permet d’accorder automatiquement les verbes “be” ou “equal” avec le nom “value”. Nous obtenons alors :

  • “The value of the company is
  • “The value of the company equals

Cette fonctionnalité rend le langage plus flexible et permet notamment aux linguistes de ne pas se soucier de l’objet avec lequel s’accorde le verbe et donc de ne pas lister toutes les possibilités.

En combinant ces approches nous pouvons obtenir une grande quantité de textes bien structurés tout en garantissant leur unicité.

Voici des exemples de textes générés pour une même levée de fonds :

  • “An amount of €500000 has been raised in a financing round by Royal Cactus, a France-based provider of online games solutions. The round was completed in September 2011. The funding was led by XAnge Private Equity.”

  • “Royal Cactus closed a 500000 EUR financing. Royal Cactus, a France-based firm, is an online games-specialized company. The investment was made by XAnge Private Equity. The transaction was completed in September 2011.”

  • “In 2011 (September), Royal Cactus has raised a 500000 EUR fund. The investment was led by XAnge Private Equity. Royal Cactus specializes in online games.”

  • “Royal Cactus raised a €500000 fund. The date of the funding is 2011 (September). The financial support came from XAnge Private Equity. Royal Cactus specializes in online games.”

  • “In 2011 (September), an amount of 500000 EUR has been completed in a financing round by Royal Cactus. The funding came from XAnge Private Equity. Royal Cactus, a company based in France, specializes in online games.”

Enfin, le système est capable de lier des phrases entre elles à l’aide de conjonctions et grâce à une identification de sujets identiques.

Mise en place de l’API pour l’intégration

Une fois les règles de génération écrites par notre équipe de linguistes, l’équipe de production les déploie au sein d’un module API (dédié au projet) sur notre plateforme SaaS.

Syllabs API

Ce module est alors accessible par l’équipe de WGF et facilement intégrable dans leur propre chaîne de traitements.

Démonstration

Voici une démonstration de cette génération de textes en anglais. Vous pouvez renseigner les champs avec les valeurs que vous souhaitez et voir les textes produits en cliquant sur le bouton “Générer”.

 

Comments are closed.