Alors que la plupart des entreprises visent à monopoliser l'attention de leurs utilisateurs, chez CityFALCON, nous essayons de réduire la charge d'attention afin que les utilisateurs puissent participer plus efficacement et plus efficacement aux marchés. Le regroupement d'histoires similaires nous fait un pas dans cette direction, afin que les utilisateurs puissent passer moins de temps à faire preuve de diligence raisonnable et plus de temps à prendre des décisions, à être avec leurs amis et leur famille et à faire leurs passe-temps.

Chaque fois qu'un événement majeur se produit, les médias traditionnels et sociaux s'illuminent de rapports, de tweets et de publications sur les événements. Dans les cas internationaux, ceux-ci sont généralement également publiés en plusieurs langues. La plupart des reportages, en particulier lorsque les nouvelles arrivent, peuvent être des bouts d'articles racontant des faits de base très similaires. Au fil du temps, plus d'informations sortent et la quantité d'informations augmente, ce qui fait que les sources d'informations divergent légèrement dans leurs prises. Cependant, le message sous-jacent sur les plateformes d'information a tendance à rester très similaire - à condition qu'aucune fausse nouvelle ne soit présentée. 

Cette conformité peut perdre un temps précieux de recherche et de diligence raisonnable car les histoires répètent les mêmes informations. Avec le regroupement d'histoires similaires, CityFALCON élimine le besoin de parcourir plusieurs interprétations similaires du même problème.

D'un autre côté, certains acteurs du marché craignent de passer à côté de différences clés subtiles ou obscurcies qui pourraient conduire à une meilleure décision d'investissement. Ces participants recherchent tous les contenus similaires disponibles pour mieux comprendre le problème (y compris dans d'autres langues), et cette approche est fortement recommandée à quiconque est sur le point de prendre une décision financière ou commerciale. 

Le regroupement d'histoires similaires aide ces utilisateurs en regroupant tout ce contenu en un seul endroit, de sorte que plusieurs instances d'informations similaires peuvent être trouvées en même temps dans un même emplacement. Cela évite d'oublier des différences importantes en recherchant au hasard dans le fil d'actualité un contenu similaire. De plus, lorsque plusieurs langues sont impliquées, CityFALCON capture et regroupe le contenu multilingue ensemble.

Apparence et avantages du regroupement d'histoires similaires

Des histoires similaires apparaissent sur tous les canaux de diffusion CityFALCON: les applications mobiles, le site Web et l'API. Dans les itérations précédentes de notre plate-forme, toutes les histoires occupaient leurs propres cartes d'histoire, chaque histoire ou Tweet sa propre ligne avec toutes les informations associées. Avec des sujets très populaires ou lorsque des événements d'actualité majeurs se sont produits, le fil peut être inondé d'articles de presse après article de presse (et certainement Tweet après Tweet) rapportant la même chose. 

Les histoires similaires condensent toutes ces cartes individuelles contenant un contenu similaire en une seule carte avec un titre représentatif. Le contenu similaire est imprimé sur la même carte pour un accès rapide à l'écrémage, mais sans prendre autant de place.

La curation de contenu - enregistrer si vous aimez, n'aimez pas ou trouvez des histoires non pertinentes - peut désormais être effectuée pour tous les contenus similaires en une seule action. La curation aide nos machines à mieux comprendre vos besoins pour augmenter la pertinence du contenu qui vous est proposé. Avec cette action en un seul clic pour plusieurs histoires, vous pouvez aider les algorithmes à apprendre plus rapidement. Si vous souhaitez organiser des histoires individuellement, vous devrez dissocier un contenu similaire.

Dans ce contexte, l'outil de curation «cacher» vous permet de masquer tout le contenu similaire afin que vous puissiez passer à l'idée suivante sans rencontrer constamment des informations que vous avez déjà intériorisées.

Carte d'histoires similaires avec des outils de curation mis en évidence

Le fil d'actualité par défaut sur CityFALCON condense désormais un contenu similaire dans des cartes comme celle-ci. Si vous souhaitez revenir à l'ancienne vue, désactivez simplement l'interrupteur à bascule pour Regrouper le contenu similaire. Cela forcera chaque histoire à être présentée sur sa propre carte individuelle dans le fil.

À voir seulement l'histoire la plus représentative - c'est-à-dire masquer tout le contenu similaire collecté au bas de la carte groupée - vous pouvez désactiver Afficher un contenu similaire dans le flux. Ceci est utile pour analyser les actualités sans se laisser distraire en lisant trop de titres similaires susceptibles d'attirer votre attention. Sachez que cela masque tout contenu marqué comme «similaire», à l'exception du contenu le plus représentatif, qui sera le titre de la carte.

En bref, si vous souhaitez parcourir les actualités et lire sur de nombreux sujets différents, désactivez Afficher un contenu similaire dans le flux. Si vous souhaitez approfondir ou simplement conserver d'autres titres pour leurs interprétations légèrement différentes des événements, gardez les deux options pour un contenu similaire activées.

Comment nous le faisons

Pour regrouper les histoires, nos algorithmes analysent le titre de chaque histoire, la méta-description et, si disponible sous forme d'article en texte intégral sur notre plateforme, l'histoire elle-même. Nous analysons également les Tweets. Ensuite, avec toutes ces informations, nous vectorisons le contenu et plaçons les histoires et les Tweets en clusters. Ensuite, en utilisant les mêmes données d'analyse mais un algorithme de traitement du langage naturel (NLP) différent, nous choisissons l'histoire la plus représentative pour ce groupe. S'il y a encore trop d'histoires, le processus de regroupement et de choix d'un représentant est répété.

Enfin, les histoires les plus représentatives sont servies aux utilisateurs comme histoire de titre de la carte et celles du cluster sont présentées comme des histoires similaires. Ajoutant une valeur significative par rapport à certains opérateurs historiques tels que Google Actualités, nos modèles de PNL d'apprentissage automatique nous permettent de regrouper et de comparer quelle que soit la langue du contenu. Donc, s'il y a plusieurs langues traitant du même sujet, CityFALCON les regroupera, tant que nous prenons en charge la langue de regroupement. En juin 2020, ce support couvre 16 langues, dont jusqu'à 93 d'ici la fin de l'année.

Regroupement et perte d'informations

L'utilisation de la technologie pour condenser les informations linguistiques en un ensemble plus petit soulève des questions courantes. Quelle est sa précision? Comment puis-je savoir que les regroupements sont vraiment «similaires»? Cette approche condense-t-elle trop les informations pour que je passe à côté d'informations importantes?

Commençons par la précision. Au moins pour les langues que vous parlez, il est facile de confirmer que le contenu marqué comme similaire est vraiment similaire. Vous pouvez toujours lire les titres et vérifier instantanément s'ils sont similaires ou non. Bien que l'apprentissage automatique signifie que la précision ne sera pas 100%, nous n'avons publié cette fonctionnalité qu'après que les tests, la formation et le raffinement ont conduit à une précision pratique. Même les humains ne peuvent pas être précis à 100% - et les humains ne peuvent pas lire 1 million d'histoires et de tweets par jour pour trouver des similitudes comme nos algorithmes le peuvent. Ainsi, même si la précision peut ne pas être 100%, elle est suffisamment élevée pour une utilisation pratique. Si vous remarquez des inexactitudes extrêmes, veuillez nous en informer afin que nous puissions améliorer nos systèmes.

De la même manière que pour l'exactitude, il est facile de vérifier que les regroupements sont vraiment similaires, puisque les titres sont présentés pour inspection.

Enfin, tant que les autres histoires sont affichées dans le fil d'actualité sous le Contenu similaire en-tête, les utilisateurs ne manqueront pas de subtilités importantes dans la formulation des titres et des histoires, car le contenu peut être vérifié directement. Donc, si vous souhaitez approfondir un sujet, gardez le Afficher un contenu similaire dans le flux option activée. Ceci est fortement recommandé avant de prendre une décision d'investissement ou commerciale. Sinon, si vous souhaitez simplement analyser ce qui se passe aujourd'hui, manquer les subtilités du libellé du titre ne sera pas problématique et vous pouvez désactiver le Afficher un contenu similaire dans le flux commutateur.

Conçu pour l'évolutivité et la performance

Similar Stories est une entreprise extrêmement gourmande en calculs. Les jours de forte activité, nous pouvons traiter des millions de contenus dans le pipeline CityFALCON, alors que même pendant les périodes plus lentes, nous traitons régulièrement jusqu'à un million par jour. Après agrégation et traitement, tout ce contenu doit être comparé à tout le contenu que nous avons déjà traité et stocké il y a quelques jours afin de déterminer la similitude. Le processus de comparaison vectorise de nombreuses dimensions de chaque élément de contenu, puis compare le contenu dimension par dimension et transversalement. Le besoin de calcul qui en résulte est stupéfiant.

Cette exigence de calcul a rendu certains langages populaires tels que Java et Python trop encombrants pour gérer les énormes flux de données. Pour cette raison, nous avons écrit notre composant de regroupement d'histoires similaires en C ++, un langage puissant pour les performances et la faible surcharge. Plus les frais généraux sont bas, plus le traitement est rapide et efficace - et dans ce scénario, nous avions besoin de tout avantage d'efficacité que nous pourrions obtenir. En outre, la flexibilité de diriger l'utilisation des ressources en C ++ le rend idéal pour contrôler étroitement les coûts de calcul et de ressources, en particulier l'utilisation de la mémoire.

Après un peu de travail de R&D, nous avons produit une version très efficace qui fournit aux utilisateurs ce dont ils ont besoin et maintient nos coûts de traitement gérables.

Au fur et à mesure que le système évolue, l'utilisation de C ++ à faible surcharge garantit que l'évolutivité n'est pas compromise, de sorte que tous les clients CityFALCON, des utilisateurs d'API à forte puissance aux utilisateurs grand public à faible volume, bénéficient d'une diffusion de contenu fluide et précise.

Réduisez votre temps de recherche aujourd'hui

Nous nous attendons à ce que la plupart des utilisateurs bénéficient de cette fonctionnalité, c'est pourquoi nous l'activons par défaut. Testez la nouvelle fonctionnalité sur des sujets très populaires, comme ceux à ce sujet liste de suivi mettant en évidence les actions populaires. Ensuite, profitez de plus de temps pour faire des affaires, être avec vos amis et votre famille, ou poursuivre d'autres utilisations de votre temps que de parcourir un contenu presque identique concernant vos investissements.