Як побудувати децентралізований маховик даних для великих моделей

СереднійDec 26, 2023
У цій статті обговорюється, як побудувати маховик даних для великих прикладних програм, побудованих на інфраструктурі Web3, яка об’єднує цінність особистих і загальнодоступних даних, забезпечуючи співпрацю та досягнення взаємної вигоди між користувачами, постачальниками та платформами.
Як побудувати децентралізований маховик даних для великих моделей

Посилення конкуренції даних і тенденції до демократизації даних

Дані є основою та рушійною силою для навчання та вдосконалення моделей ШІ. Без достатньої кількості високоякісних даних моделі штучного інтелекту не можуть покращити свою продуктивність або адаптуватися до різних сценаріїв. У той же час дані є дефіцитним і цінним ресурсом. Компанії, які мають доступ до великої кількості нових даних, можуть отримати конкурентні переваги та конкурентну силу. Отже, різні сторони активно шукають і розробляють нові джерела даних, одночасно захищаючи власні дані від порушень.

Однак поточна екосистема даних стикається з деякими проблемами та проблемами, такими як:

  • Монополія даних: великі інтернет-компанії сформували значні монополії на дані, збираючи, зберігаючи, аналізуючи та використовуючи особисті дані користувачів, що виключає інших конкурентів і інноваторів.
  • Конфіденційність даних: особисті дані користувачів отримують, зловживають, витікають або продають великі інтернет-компанії без згоди, що порушує права користувачів на конфіденційність і автономію.
  • Якість даних: через такі причини, як непрозорі джерела даних, суперечливі стандарти даних і неправильна обробка даних, виникають проблеми з якістю даних, такі як неповнота, непослідовність, шум або упередженість.
  • Вичерпання даних: оскільки моделі штучного інтелекту стають дедалі складнішими та масивнішими, для навчання та вдосконалення потрібно більше та якісніших даних. Однак існуючі джерела даних можуть не задовольнити цей запит, що створює ризик вичерпання даних.

Щоб вирішити ці проблеми та виклики, промисловість пропонує кілька можливих рішень:

  • Синтез даних: використовуючи такі методи, як Generative Adversarial Networks (GANs), генеруйте віртуальні, але реалістичні дані для розширення існуючих наборів даних.
  • Об’єднання даних: використовуйте технології шифрування, розподілених і спільних технологій для досягнення міжінституційного, міжрегіонального та міждоменного обміну даними та співпраці, одночасно захищаючи конфіденційність і безпеку даних.
  • Ринки даних: використовуйте такі технології, як блокчейн, смарт-контракти та токени, щоб забезпечити децентралізовані, прозорі та справедливі транзакції та циркуляцію даних.

Серед них нашу увагу привернула модель побудови маховика даних через розподілену архітектуру Web3. Web3 відноситься до Інтернету наступного покоління, побудованого на технології блокчейн і децентралізованих мереж. Web3 дозволяє користувачам мати повний контроль і володіння своїми даними, одночасно стимулюючи обмін даними та обмін за допомогою токенів. Таким чином розробники моделей AI можуть отримувати авторизовані дані користувачів через платформу Web3, а користувачі можуть отримувати відповідні винагороди. Ця модель сприяє циркуляції даних та інноваціям, одночасно захищаючи конфіденційність і безпеку даних.

Як побудувати децентралізований маховик даних для великих моделей

Щоб використовувати розподілену архітектуру Web3 для створення децентралізованого маховика даних великої моделі, нам потрібно врахувати такі аспекти:

Встановіть стратегію даних і цілі

Перш ніж починати збирати та використовувати дані, потрібне чітке уявлення, що має бути досягнуто за допомогою даних і як вони узгоджуються з бізнес-цілями. Також необхідно визначити ключових зацікавлених сторін, показники та результати, якими керується проект даних. Наприклад, у платформі електронної комерції штучного інтелекту, побудованій на інфраструктурі Web3, дуже важливо створювати дані на основі потреб користувачів, використовуючи дані зі сторони споживача для створення векторної бази даних попиту. Коли виробнича сторона взаємодіє з базою даних споживачів, оплата відповідного токена повинна здійснюватися відповідно до смарт-контрактів.

Збирайте та зберігайте дані з багатьох джерел

Щоб створити повний і різноманітний набір даних, дані слід збирати та зберігати з різних джерел, таких як веб-збирання, взаємодія користувачів, датчики тощо. Надійну та масштабовану хмарну платформу, як Amazon Web Services, слід використовувати для безпечного та ефективного зберігання та керування даними. Збір даних має здійснюватися за допомогою різних вертикальних векторних баз даних через контрактне придбання.

Перетворення та збагачення даних

Щоб зробити дані придатними для цілей машинного навчання, вони повинні пройти попередню обробку, очищення, маркування, вдосконалення та організацію. Для автоматизації та оптимізації цих процесів слід використовувати інструменти маркування даних та розробки, такі як Labelbox або AtScale.

Створюйте та тренуйте великі моделі

Використовуйте дані для створення та навчання великомасштабних моделей машинного навчання, які можуть надавати точні та надійні результати. Базові моделі, такі як ChatGPT або PaLM, можна використовувати як відправні точки для побудови власних моделей, або такі фреймворки, як PyTorch або TensorFlow, можна використовувати для реалізації та навчання моделей.

Розгортання великих моделей у виробництві та керування ними

Щоб надати результати моделі користувачам і клієнтам, моделі потрібно розгортати та керувати ними у виробничих середовищах. Для забезпечення продуктивності, безпеки та масштабованості моделі слід використовувати такі платформи та інструменти, як MLCommons або TensorBoard.

Інтегруйте великі моделі в продукти та послуги

Щоб створити цінність для користувачів і клієнтів, великі моделі слід інтегрувати в продукти та послуги, які вирішують їхні проблеми або задовольняють їхні потреби. API та бібліотеки, такі як OpenAI Playground або Hugging Face Transformers, можна використовувати для доступу та використання великих моделей для різних завдань.

Збирайте та аналізуйте відгуки про результати великих моделей від користувачів і клієнтів

Щоб покращити великі моделі на основі відгуків користувачів і клієнтів, їх оцінки, коментарі, думки, кліки, покупки тощо слід збирати й аналізувати. Аналітичні інструменти та інструменти опитування, такі як Google Analytics або Google Forms, можна використовувати для відстеження та вимірювання їх поведінки та думок.

Ключові етапи маховика даних

Спираючись на згадані аспекти, давайте детальніше розглянемо, як використовувати маховик даних у великих прикладних програмах, побудованих на уніфікованій інфраструктурі Web3 для цінності особистих і публічних даних. Цей тип маховика даних повинен враховувати такі важливі етапи:

Збір даних: дані отримуються точка-точка через портали додатків ШІ, а користувачі заохочуються за допомогою токенів. Це означає, що користувачі можуть отримувати прибуток, обмінюючись своїми даними, на відміну від експлуатації та контролю з боку великих компаній, як у Web 2.0. Можливі методи збору даних включають веб-збирання, взаємодію з користувачем, датчики тощо. Ці дані можна перевіряти, авторизувати та винагороджувати за допомогою смарт-контрактів на платформі Web3, таким чином захищаючи права та конфіденційність даних користувачів.

Трансформація даних: дані векторно позначаються та встановлюється система кількісної оцінки даних. Токени оплачуються за зв’язки «точка-точка» розподілених одиничних даних, а ціна даних визначається через смарт-контракти під час маркування. Це означає, що дані можна попередньо обробляти, очищати, маркувати, вдосконалювати та організовувати відповідно до цілей машинного навчання. Ці процеси можна стандартизувати, координувати та стимулювати за допомогою смарт-контрактів на платформі Web3, тим самим покращуючи якість та ефективність даних.

Розробка моделі: навчання великих вертикальних моделей із векторними даними бази даних у сегментованих областях. Це передбачає використання даних для створення та навчання великомасштабних моделей машинного навчання, які забезпечують точні та надійні результати. Ці моделі можна розробляти, оптимізувати та оцінювати за допомогою смарт-контрактів на платформі Web3, підвищуючи їх продуктивність і адаптивність.

Споживання моделі та даних. Обидва ціна встановлюються через смарт-контракти, і будь-який користувач API повинен платити через смарт-контракти за використання моделі та даних. Це означає, що моделі та дані можна інтегрувати в продукти та послуги, забезпечуючи користувачам і клієнтам цінність, наприклад, розуміння природної мови, комп’ютерне бачення, системи рекомендацій тощо. Цими продуктами та послугами можна торгувати, розповсюджувати та винагороджувати за допомогою смарт-контрактів на платформі Web3, що забезпечує циркуляцію даних та інновації.

Зворотній зв’язок моделі та даних: як збирати та аналізувати відгуки користувачів і клієнтів про результати та дані моделі. Це означає вдосконалення моделей і даних на основі оцінок користувачів і клієнтів, коментарів, думок, кліків, покупок тощо. Ці відгуки можна збирати, аналізувати та винагороджувати за допомогою смарт-контрактів на платформі Web3, завдяки чому досягається постійна оптимізація моделей і даних.

Цілі децентралізованого маховика даних

Метою децентралізованого маховика даних великої моделі є не лише навчання великих моделей, але й досягнення бізнес-аналітики. Оновлені дані в режимі реального часу використовуються не лише для навчання великих моделей для використання їх загальнодоступної цінності, але й для реалізації особистої цінності користувачів через системи передачі даних «точка-точка». Він спрямований на подолання розриву між даними про споживача та даними про виробництво, створення системи промислового ланцюга, яка з’єднує сторону пропозиції з стороною попиту, формування справді децентралізованого ділового суспільства та реалізації демократизації даних, автономії та створення вартості.

Для досягнення цієї мети ми можемо реалізувати її наступними способами:

Маховик даних може підвищити ефективність навчання та результативність великих моделей. Використовуючи розподілену архітектуру Web3, користувачі можуть мати повний контроль і право власності на свої дані, а також ділитися та обмінюватися даними за допомогою механізму стимулювання Token. Таким чином, розробники моделей AI можуть отримувати авторизовані дані від користувачів через платформу Web3, а користувачі можуть отримувати відповідні винагороди. Ця модель може сприяти циркуляції даних та інноваціям, одночасно захищаючи конфіденційність і безпеку даних. Ці дані можна використовувати для створення та навчання великомасштабних моделей машинного навчання, які забезпечують точні та надійні результати, такі як розуміння природної мови, комп’ютерне бачення, системи рекомендацій тощо.

Маховик даних може з’єднати споживчі дані з даними виробництва. Використовуючи смарт-контракти для ціноутворення, будь-який користувач API повинен платити через смарт-контракти за використання моделі та даних. Це означає, що моделі та дані можна інтегрувати в продукти та послуги, забезпечуючи цінність для користувачів і клієнтів. Цими продуктами та послугами можна торгувати, розповсюджувати та винагороджувати за допомогою смарт-контрактів на платформі Web3, що забезпечує циркуляцію даних та інновації. Таким чином дані споживачів можуть створити векторну базу даних споживачів, і коли виробнича сторона взаємодіє з базою даних споживачів, оплата токеном вимагається відповідно до смарт-контрактів. Цей метод може створити систему промислового ланцюга, яка з’єднує сторони пропозиції та попиту, таким чином підвищуючи ефективність та результативність бізнесу.

Маховик даних може сформувати справді децентралізоване бізнес-суспільство. Використовуючи маховик даних великих модельних додатків, побудованих на уніфікованій інфраструктурі персональних і загальнодоступних даних Web3, можна досягти співпраці та взаємної перемоги між користувачами, постачальниками та платформами. Майбутні закони про захист даних важко реалізувати в середовищі Web2.0, і вони не можуть повністю захистити дані користувачів і монополію проти даних з технічної точки зору. Навпаки, в технічному середовищі розподіленої структури маховика даних великої моделі користувачі можуть отримувати прибуток, обмінюючись своїми даними, замість того, щоб їх експлуатували та контролювали великі компанії, як у Web 2.0. Розробники можуть створювати та навчати високопродуктивні великі моделі, використовуючи авторизовані дані користувачів, і інтегрувати їх у продукти та послуги. Платформи можуть сприяти інноваціям даних і моделей, забезпечуючи безпечні, прозорі та чесні механізми торгівлі та обігу. Цей метод може досягти демократизації даних, автономії та створення цінності.

Висновок

Побудова децентралізованого маховика даних великої моделі за допомогою розподіленої архітектури Web3 є багатообіцяючим рішенням, яке може вирішити деякі існуючі проблеми та виклики в поточній екосистемі даних і сприяти циркуляції даних та інноваціям. Щоб досягти цієї мети, нам потрібно розглянути кілька аспектів, від встановлення стратегій і цілей даних до збору й аналізу відгуків користувачів, уникаючи при цьому деяких поширених пасток. Нам також потрібно розглянути, як використовувати маховик даних великих модельних додатків, побудованих на уніфікованій інфраструктурі персональних і загальнодоступних даних Web3, таким чином досягаючи співпраці та взаємної вигоди між користувачами, постачальниками та платформами. Ми сподіваємося, що ця стаття може надати вам корисну інформацію та ідеї.

Відмова від відповідальності:

  1. Цю статтю передруковано з [FlerkenS]. Усі авторські права належать оригінальному автору [大噬元兽]. Якщо є заперечення щодо цього передруку, будь ласка, зв’яжіться з командою Gate Learn , і вони негайно розглянуть це.
  2. Відмова від відповідальності: погляди та думки, висловлені в цій статті, належать виключно автору та не є жодною інвестиційною порадою.
  3. Переклади статті на інші мови виконує команда Gate Learn. Якщо не зазначено вище, копіювання, розповсюдження або плагіат перекладених статей заборонено.
เริ่มตอนนี้
สมัครและรับรางวัล
$100
ลงทะเบียนทันที