Comment construire un volant de données décentralisé pour les grands modèles

IntermédiaireDec 26, 2023
Cet article explique comment construire un volant de données pour les grands modèles d'application, construit sur une infrastructure Web3 qui unifie la valeur des données personnelles et des données publiques, permettant la collaboration et la réalisation d'avantages mutuels entre les utilisateurs, les fournisseurs et les plates-formes.
Comment construire un volant de données décentralisé pour les grands modèles

Intensification de la concurrence en matière de données et tendances à la démocratisation des données

Les données sont le fondement et le moteur de la formation et de l'amélioration des modèles d'IA. Sans données suffisantes et de qualité, les modèles d'IA ne peuvent pas améliorer leurs performances ou s'adapter à différents scénarios. En même temps, les données sont une ressource rare et précieuse. Les entreprises qui ont accès à un grand nombre de données nouvelles peuvent acquérir des avantages concurrentiels et un pouvoir de négociation. Par conséquent, diverses parties recherchent et développent activement de nouvelles sources de données tout en protégeant leurs propres données contre la contrefaçon.

Cependant, l'écosystème de données actuel est confronté à certains problèmes et défis, tels que

  • Monopole de données : Les grandes entreprises de l'internet ont constitué d'importants monopoles de données en collectant, stockant, analysant et utilisant les données personnelles des utilisateurs, ce qui exclut les autres concurrents et les innovateurs.
  • Confidentialité des données : Les données personnelles des utilisateurs sont obtenues, utilisées à mauvais escient, divulguées ou vendues par de grandes entreprises de l'internet sans leur consentement, ce qui constitue une violation du droit à la vie privée et à l'autonomie des utilisateurs.
  • Qualité des données : Pour des raisons telles que l'opacité des sources de données, l'incohérence des normes de données et le traitement inapproprié des données, des problèmes de qualité des données se posent, tels que l'incomplétude, l'incohérence, le bruit ou la partialité.
  • Épuisement des données : Les modèles d'IA devenant de plus en plus complexes et massifs, des données plus nombreuses et de meilleure qualité sont nécessaires pour l'entraînement et l'amélioration. Cependant, les sources de données existantes peuvent ne pas répondre à cette demande, ce qui pose un risque d'épuisement des données.

Pour résoudre ces problèmes et relever ces défis, l'industrie propose plusieurs solutions possibles :

  • Synthèse de données : À l'aide de techniques telles que les réseaux adverbiaux génératifs (GAN), générez des données virtuelles mais réalistes afin d'élargir les ensembles de données existants.
  • Fédérations de données : Utiliser les technologies de cryptage, de distribution et de collaboration pour parvenir à un partage et à une collaboration des données entre institutions, régions et domaines, tout en protégeant la confidentialité et la sécurité des données.
  • Places de marché de données : Utiliser des technologies telles que la blockchain, les contrats intelligents et les jetons pour permettre des transactions et une circulation des données décentralisées, transparentes et équitables.

Parmi eux, le modèle de construction d'un volant de données grâce à l'architecture distribuée Web3 a retenu notre attention. Web3 fait référence à l'internet de nouvelle génération construit sur la technologie blockchain et les réseaux décentralisés. Web3 permet aux utilisateurs d'avoir le contrôle total et la propriété de leurs données tout en encourageant le partage et l'échange de données par le biais de jetons. Ainsi, les créateurs de modèles d'IA peuvent obtenir les données autorisées des utilisateurs par l'intermédiaire de la plateforme Web3, et les utilisateurs peuvent recevoir les récompenses correspondantes. Ce modèle favorise la circulation des données et l'innovation tout en protégeant la confidentialité et la sécurité des données.

Comment construire un volant de données décentralisé pour les grands modèles

Pour tirer parti de l'architecture distribuée de Web3 afin de créer un volant décentralisé de données de grands modèles, nous devons prendre en compte les aspects suivants :

Établir une stratégie et des objectifs en matière de données

Avant de commencer à collecter et à utiliser des données, il est nécessaire d'avoir une vision claire, de préciser ce que l'on veut obtenir grâce aux données et comment cela s'aligne sur les objectifs de l'entreprise. Il est également nécessaire d'identifier les principales parties prenantes, les mesures et les résultats qui guident le projet de données. Par exemple, dans une plateforme de commerce électronique basée sur l'infrastructure Web3, il est essentiel d'établir des données basées sur les besoins des utilisateurs, en utilisant les données des consommateurs pour créer une base de données de vecteurs de demande. Lorsque le côté production s'interface avec la base de données des consommateurs, le paiement du jeton correspondant doit être effectué conformément aux contrats intelligents.

Recueillir et stocker des données provenant de sources multiples

Pour créer un ensemble de données complet et diversifié, les données doivent être collectées et stockées à partir de différentes sources, telles que le web scraping, les interactions avec les utilisateurs, les capteurs, etc. Une plateforme en nuage fiable et évolutive, comme Amazon Web Services, devrait être utilisée pour un stockage et une gestion des données sûrs et efficaces. La collecte de données devrait être effectuée par le biais de diverses bases de données vectorielles verticales par le biais d'acquisitions contractuelles.

Transformer et enrichir les données

Pour que les données puissent être utilisées à des fins d'apprentissage automatique, elles doivent être prétraitées, nettoyées, étiquetées, améliorées et organisées. Des outils d'étiquetage et d'ingénierie des données, tels que Labelbox ou AtScale, devraient être utilisés pour automatiser et optimiser ces processus.

Construire et former de grands modèles

Utilisez les données pour construire et former des modèles d'apprentissage automatique à grande échelle qui peuvent fournir des résultats précis et fiables. Des modèles de base tels que ChatGPT ou PaLM peuvent être utilisés comme points de départ pour construire des modèles personnalisés, ou des cadres tels que PyTorch ou TensorFlow peuvent être employés pour mettre en œuvre et former des modèles.

Déployer et gérer de grands modèles en production

Pour fournir des résultats de modèles aux utilisateurs et aux clients, les modèles doivent être déployés et gérés dans des environnements de production. Des plateformes et des outils tels que MLCommons ou TensorBoard devraient être utilisés pour garantir la performance, la sécurité et l'évolutivité du modèle.

Intégrer les grands modèles dans les produits et services

Pour apporter de la valeur aux utilisateurs et aux clients, les grands modèles doivent être intégrés dans des produits et des services qui résolvent leurs problèmes ou répondent à leurs besoins. Des API et des bibliothèques telles que OpenAI Playground ou Hugging Face Transformers peuvent être utilisées pour accéder à de grands modèles et les utiliser pour diverses tâches.

Recueillir et analyser le retour d'information des utilisateurs et des clients sur les résultats des grands modèles

Pour améliorer les grands modèles sur la base du retour d'information des utilisateurs et des clients, il convient de collecter et d'analyser leurs évaluations, commentaires, avis, clics, achats, etc. Des outils d'analyse et d'enquête tels que Google Analytics ou Google Forms peuvent être utilisés pour suivre et mesurer leur comportement et leurs opinions.

Les étapes clés de la roue d'inertie des données

Sur la base des aspects mentionnés, examinons plus en détail comment utiliser la roue d'inertie des données dans les grands modèles d'applications construits sur l'infrastructure unifiée de Web3 pour la valeur des données personnelles et publiques. Ce type de volant de données doit tenir compte des étapes importantes suivantes :

Acquisition de données : Les données sont obtenues point par point par le biais de portails d'applications d'IA et les utilisateurs sont récompensés par des jetons. Cela signifie que les utilisateurs peuvent obtenir un retour en partageant leurs données, au lieu d'être exploités et contrôlés par de grandes entreprises comme dans le Web 2.0. Parmi les méthodes d'acquisition de données possibles, on peut citer le web scraping, les interactions avec les utilisateurs, les capteurs, etc. Ces données peuvent être vérifiées, autorisées et récompensées par le biais de contrats intelligents sur la plateforme Web3, protégeant ainsi les droits et la confidentialité des données des utilisateurs.

Transformation des données : Les données sont étiquetées vectoriellement et un système de quantification des données est établi. Les jetons sont payés pour des liens point à point de données unitaires distribuées, et les données sont tarifées par le biais de contrats intelligents lors de l'étiquetage. Cela signifie que les données peuvent être prétraitées, nettoyées, étiquetées, améliorées et organisées pour répondre aux besoins de l'apprentissage automatique. Ces processus peuvent être normalisés, coordonnés et incités grâce à des contrats intelligents sur la plateforme Web3, améliorant ainsi la qualité et l'efficacité des données.

Développement de modèles : Entraînez des modèles verticaux de grande taille à l'aide de bases de données vectorielles dans des domaines segmentés. Cela implique l'utilisation de données pour construire et former des modèles d'apprentissage automatique à grande échelle qui fournissent des résultats précis et fiables. Ces modèles peuvent être conçus, optimisés et évalués par le biais de contrats intelligents sur la plateforme Web3, ce qui améliore leur performance et leur adaptabilité.

Consommation de modèles et de données: Les deux sont tarifés via des contrats intelligents, et tout utilisateur de l'API doit payer via des contrats intelligents pour utiliser le modèle et les données. Cela signifie que les modèles et les données peuvent être intégrés dans des produits et des services apportant une valeur ajoutée aux utilisateurs et aux clients, tels que la compréhension du langage naturel, la vision par ordinateur, les systèmes de recommandation, etc. Ces produits et services peuvent être échangés, distribués et récompensés par le biais de contrats intelligents sur la plateforme Web3, permettant ainsi la circulation des données et l'innovation.

Retour d'information sur les modèles et les données: Comment recueillir et analyser les commentaires des utilisateurs et des clients sur les résultats et les données du modèle. Il s'agit d'améliorer les modèles et les données sur la base des évaluations des utilisateurs et des clients, des commentaires, des avis, des clics, des achats, etc. Ce retour d'information peut être collecté, analysé et récompensé par le biais de contrats intelligents sur la plateforme Web3, ce qui permet de réaliser une optimisation continue des modèles et des données.

Objectifs de la roue d'inertie des données décentralisées

L'objectif de la roue d'inertie décentralisée des grands modèles de données n'est pas seulement de former de grands modèles, mais aussi de parvenir à une intelligence économique. Les données actualisées en temps réel sont utilisées non seulement pour la formation de grands modèles afin de tirer parti de leur valeur publique, mais aussi pour réaliser la valeur personnelle des utilisateurs grâce à des systèmes de transmission de données point à point. Il vise à combler le fossé entre les données des consommateurs et les données de production, en établissant un système de chaîne industrielle qui relie l'offre à la demande, en formant une société commerciale véritablement décentralisée et en réalisant la démocratisation des données, l'autonomie et la création de valeur.

Pour atteindre cet objectif, nous pouvons le mettre en œuvre de la manière suivante :

Le volant de données peut améliorer l'efficacité de la formation et des grands modèles. En utilisant l'architecture distribuée Web3, les utilisateurs peuvent avoir le contrôle total et la propriété de leurs données, tout en partageant et en échangeant des données par le biais d'un mécanisme d'incitation à base de jetons. Ainsi, les créateurs de modèles d'IA peuvent acquérir des données autorisées auprès des utilisateurs via la plateforme Web3, et les utilisateurs peuvent recevoir des récompenses correspondantes. Ce modèle peut promouvoir la circulation des données et l'innovation tout en protégeant la confidentialité et la sécurité des données. Ces données peuvent être utilisées pour construire et former des modèles d'apprentissage automatique à grande échelle qui fournissent des résultats précis et fiables, tels que la compréhension du langage naturel, la vision par ordinateur, les systèmes de recommandation, etc.

Le volant de données peut faire le lien entre les données relatives aux consommateurs et les données relatives à la production. En utilisant des contrats intelligents pour la tarification, tout utilisateur d'API doit payer par le biais de contrats intelligents pour l'utilisation du modèle et des données. Cela signifie que les modèles et les données peuvent être intégrés dans des produits et des services, apportant ainsi une valeur ajoutée aux utilisateurs et aux clients. Ces produits et services peuvent être échangés, distribués et récompensés par le biais de contrats intelligents sur la plateforme Web3, permettant ainsi la circulation des données et l'innovation. De cette manière, les données des consommateurs peuvent établir une base de données vectorielle des consommateurs, et lorsque le côté production s'interface avec la base de données des consommateurs, le paiement des tokens est requis conformément aux contrats intelligents. Cette méthode permet d'établir un système de chaîne industrielle qui relie l'offre et la demande, améliorant ainsi l'efficience et l'efficacité des entreprises.

La roue d'inertie des données peut former une société commerciale véritablement décentralisée. En utilisant un volant de données de grands modèles d'applications construits sur l'infrastructure unifiée de valeur des données personnelles et publiques de Web3, la collaboration et le gain mutuel entre les utilisateurs, les fournisseurs et les plates-formes peuvent être réalisés. Les prochaines lois sur la protection des données sont difficiles à mettre en œuvre dans l'environnement Web2.0 et ne peuvent pas protéger complètement les données des utilisateurs et le monopole anti-données d'un point de vue technique. En revanche, dans l'environnement technique de la structure distribuée de la roue d'inertie des grands modèles de données, les utilisateurs peuvent gagner de l'argent en partageant leurs données, au lieu d'être exploités et contrôlés par de grandes entreprises comme dans le Web 2.0. Les développeurs peuvent construire et former de grands modèles très performants en utilisant les données autorisées des utilisateurs et les intégrer dans des produits et des services. Les plateformes peuvent promouvoir l'innovation en matière de données et de modèles en fournissant des mécanismes d'échange et de circulation sécurisés, transparents et équitables. Cette méthode permet de démocratiser les données, de les rendre autonomes et de créer de la valeur.

Conclusion

La construction d'un volant d'inertie décentralisé pour les grands modèles de données grâce à l'architecture distribuée Web3 est une solution prometteuse qui peut résoudre certains des problèmes et défis de l'écosystème actuel des données et promouvoir la circulation des données et l'innovation. Pour atteindre cet objectif, nous devons prendre en compte de multiples aspects, depuis l'établissement de stratégies et d'objectifs en matière de données jusqu'à la collecte et l'analyse du retour d'information des utilisateurs, tout en évitant certains écueils courants. Nous devons également réfléchir à la manière d'utiliser le volant de données des grands modèles d'application construits sur l'infrastructure unifiée de valeur des données personnelles et publiques de Web3, afin de parvenir à une collaboration et à des avantages mutuels entre les utilisateurs, les fournisseurs et les plates-formes. Nous espérons que cet article vous fournira des informations et des points de vue utiles.

Clause de non-responsabilité:

  1. Cet article est repris de[FlerkenS]. Tous les droits d'auteur appartiennent à l'auteur original[大噬元兽]. Si vous avez des objections à cette réimpression, veuillez contacter l'équipe de Gate Learn, qui s'en chargera rapidement.
  2. Clause de non-responsabilité : Les points de vue et les opinions exprimés dans cet article sont uniquement ceux de l'auteur et ne constituent pas un conseil en investissement.
  3. Les traductions de l'article dans d'autres langues sont effectuées par l'équipe de Gate Learn. Sauf mention contraire, il est interdit de copier, distribuer ou plagier les articles traduits.
Lancez-vous
Inscrivez-vous et obtenez un bon de
100$
!
Créer un compte