Sora Emerges: Станет ли 2024 год годом революции AI+Web3?

НовичокFeb 29, 2024
Кроме Депина, какие искры может зажечь переплетение Web3 и ИИ? Какие возможности таит в себе трасса Sora? В этой статье также рассматриваются возможности Web3 в эпоху искусственного интеллекта.
Sora Emerges: Станет ли 2024 год годом революции AI+Web3?

Предисловие

16 февраля компания OpenAI анонсировала свою новейшую генеративную диффузионную модель преобразования текста в видео под названием "Sora", которая стала очередной вехой в развитии генеративного ИИ благодаря своей способности создавать высококачественные видеоролики на основе широкого спектра визуальных данных. В отличие от таких инструментов искусственного интеллекта для создания видео, как Pika, которые генерируют несколько секунд видео из нескольких изображений, Sora обучается в сжатом латентном пространстве видео и изображений, разбивая их на пространственно-временные патчи для масштабируемого создания видео. Более того, модель демонстрирует возможности симуляции как физического, так и цифрового мира, а ее 60-секундная демонстрация описывается как "универсальный симулятор физического мира".

Sora продолжает технический путь "исходные данные - трансформатор - диффузия - эмерджентность", который наблюдался в предыдущих моделях GPT, что говорит о том, что зрелость ее разработки также зависит от вычислительной мощности. Учитывая больший объем данных, необходимых для обучения по видео, по сравнению с текстом, ожидается, что потребность в вычислительной мощности еще больше возрастет. Однако, как уже говорилось в нашей предыдущей статье "Перспективный обзор сектора: Рынок децентрализованных вычислительных мощностей", важность вычислительных мощностей в эпоху ИИ была изучена, и с ростом популярности ИИ появилось множество проектов по вычислительным мощностям, которые принесли пользу другим проектам Depin (хранение данных, вычислительные мощности и т.д.), резко увеличив их стоимость. Помимо Депина, эта статья призвана обновить и дополнить предыдущие дискуссии, размышляя об искрах, которые могут возникнуть в результате переплетения Web3 и ИИ, а также о возможностях, открывающихся в рамках этой траектории в эпоху ИИ.

Развитие искусственного интеллекта: три основных направления

Искусственный интеллект (ИИ) - это развивающаяся область, направленная на имитацию, расширение и обогащение человеческого интеллекта. С момента своего появления в 1950-1960-х годах ИИ прошел более чем полувековой путь развития, став ключевой технологией, способствующей преобразованию общества и различных отраслей промышленности. На протяжении всего этого пути переплетение трех основных направлений исследований - символизма, коннекционизма и бихевиоризма - заложило основу для быстрого развития ИИ сегодня.

Символизм

Символизм, также называемый логицизмом или рассуждениями, основанными на правилах, утверждает, что воспроизведение человеческого интеллекта посредством обработки символов вполне осуществимо. Этот подход использует символы для представления и манипулирования объектами, понятиями и их взаимоотношениями в заданной проблемной области, используя логические рассуждения для решения проблем. Символизм достиг заметных успехов, особенно в экспертных системах и представлении знаний. Его главный постулат заключается в том, что разумное поведение может быть реализовано посредством манипулирования символами и логических умозаключений, при этом символы служат высокоуровневыми абстракциями реального мира.

Коннекционизм

Коннекционизм, альтернативно известный как нейросетевой подход, стремится к достижению интеллекта путем зеркального отражения структуры и функциональности человеческого мозга. Эта методология строит сети, состоящие из множества простых единиц обработки, похожих на нейроны, и регулирует силу связи между этими единицами, похожими на синапсы, чтобы облегчить обучение. Делая акцент на обучении и обобщении данных, коннекционизм хорошо подходит для таких задач, как распознавание образов, классификация и непрерывное отображение вход-выход. Глубокое обучение, эволюция коннекционизма, достигло прорывов в таких областях, как распознавание изображений и речи, а также обработка естественного языка.

Бихевиоризм

Бихевиоризм, тесно связанный с биомиметической робототехникой и исследованиями автономных интеллектуальных систем, подчеркивает, что интеллектуальные агенты могут обучаться благодаря взаимодействию с окружающей средой. В отличие от предыдущих подходов, бихевиоризм не фокусируется на моделировании внутренних представлений или когнитивных процессов, а добивается адаптивного поведения через цикл "восприятие-действие". Он утверждает, что интеллект проявляется в динамическом взаимодействии с окружающей средой и обучении, что делает его особенно эффективным для мобильных роботов и адаптивных систем управления, работающих в сложных и непредсказуемых условиях.

Несмотря на их фундаментальные различия, эти три направления исследований могут синергировать и дополнять друг друга в практических исследованиях и приложениях ИИ, совместно стимулируя развитие этой области.

Принципы AIGC

Развивающаяся область контента, генерируемого искусственным интеллектом (AIGC), представляет собой эволюцию и применение коннекционизма, облегчающего создание нового контента путем подражания человеческому творчеству. Эти модели обучаются с помощью огромных массивов данных и алгоритмов глубокого обучения для выявления глубинных структур, взаимосвязей и закономерностей в данных. По запросу пользователя они создают различные результаты, включая изображения, видео, код, музыку, дизайн, переводы, ответы на вопросы и текст. В настоящее время AIGC состоит из трех элементов: Глубокое обучение (Deep Learning, DL), Большие данные и Массивная вычислительная мощность.

Глубокое обучение

Глубокое обучение (Deep Learning), подмножество машинного обучения (ML), использует алгоритмы, созданные по образцу нейронных сетей человеческого мозга. Подобно тому, как человеческий мозг состоит из взаимосвязанных нейронов, обрабатывающих информацию, нейронные сети глубокого обучения состоят из нескольких слоев искусственных нейронов, выполняющих вычисления в компьютере. Эти искусственные нейроны, или узлы, используют математические операции для обработки данных и решения сложных задач с помощью алгоритмов глубокого обучения.

Нейронные сети состоят из слоев: входного, скрытого и выходного, с параметрами, связывающими эти слои.

- Входной слой: Первый слой нейронной сети получает внешние входные данные. Каждый нейрон в этом слое соответствует одной из характеристик входных данных. Например, при обработке данных изображения отдельные нейроны могут представлять значения пикселей.

- Скрытые слои: После входного слоя скрытые слои обрабатывают и передают данные по сети. Эти слои анализируют информацию на разных уровнях, адаптируя свое поведение по мере получения новых данных. Сети глубокого обучения могут иметь сотни скрытых слоев, что позволяет проводить многогранный анализ проблем. Например, классифицируя незнакомое животное по изображению, сеть может сравнить его с известными животными, оценивая такие характеристики, как форма ушей, количество ног и размер зрачка. Скрытые слои функционируют аналогичным образом, каждый из них обрабатывает различные особенности животных, чтобы помочь в точной классификации.

- Выходной слой: Последний слой нейронной сети, который производит выходной сигнал сети. Нейроны в этом слое представляют потенциальные выходные категории или значения. В задачах классификации каждый нейрон может соответствовать категории, а в задачах регрессии выходной слой может состоять из одного нейрона, значение которого предсказывает результат.

- Параметры: В нейронных сетях связи между различными слоями представлены весами и смещениями, которые оптимизируются в процессе обучения, чтобы сеть могла точно распознавать закономерности в данных и делать прогнозы. Увеличение параметров может повысить мощность модели нейронной сети, т.е. способность обучаться и представлять сложные паттерны в данных. Однако это также увеличивает потребность в вычислительной мощности.

Большие данные

Для эффективного обучения нейронных сетей обычно требуются обширные, разнообразные, высококачественные и многоисточниковые данные. Такие данные являются краеугольным камнем для обучения и проверки моделей машинного обучения. Благодаря анализу больших данных, модели машинного обучения могут выявлять закономерности и взаимосвязи в данных, облегчая прогнозирование или классификацию.

Массивная вычислительная мощность

Сложная многослойная структура нейронных сетей, множество параметров, требования к обработке больших данных, итерационные методы обучения (включающие многократные вычисления прямого и обратного распространения, в том числе вычисления функций активации и потерь, расчеты градиента и обновление весов), необходимость высокоточных вычислений, возможности параллельных вычислений, методы оптимизации и регуляризации, а также процессы оценки и проверки модели в совокупности приводят к значительным вычислительным требованиям.

Сора

Sora, новейшая модель искусственного интеллекта OpenAI, предназначенная для создания видео, означает значительный прогресс в способности искусственного интеллекта обрабатывать и воспринимать различные визуальные данные. Используя сети сжатия видео и методы пространственно-временной коммутации, Sora может преобразовывать огромные объемы визуальных данных, снятых по всему миру и с различных устройств, в единое представление. Эта способность позволяет эффективно обрабатывать и воспринимать сложный визуальный контент. Sora использует модели диффузии, обусловленные текстом, для создания видео или изображений, в значительной степени коррелирующих с текстовыми подсказками, демонстрируя удивительную креативность и адаптивность.

Несмотря на прорыв Sora в создании видео и моделировании взаимодействия с реальным миром, она сталкивается с определенными ограничениями. К ним относятся точность моделирования физического мира, последовательность в создании длинных видеороликов, понимание сложных текстовых инструкций, а также эффективность в обучении и генерации. По сути, Sora следует по технической траектории "большие данные-трансформер-диффузия-эмерджентность", чему способствуют монопольные вычислительные мощности и преимущество OpenAI, приводящее к эстетике грубой силы. Однако другие компании, занимающиеся разработкой искусственного интеллекта, все еще обладают потенциалом превзойти Sora благодаря технологическим инновациям.

Хотя связь Sora с блокчейном остается скромной, предполагается, что в ближайшие один-два года влияние Sora приведет к появлению и быстрому развитию других высококачественных инструментов для создания ИИ. Ожидается, что эти разработки повлияют на различные сектора Web3, такие как GameFi, социальные платформы, творческие платформы, Depin и т.д. Следовательно, необходимо получить общее представление о Sora, а размышления о том, как ИИ будет эффективно интегрироваться с Web3 в будущем, станут важнейшим моментом.

Четыре пути интеграции AI x Web3

Как уже говорилось ранее, фундаментальные компоненты, необходимые для генеративного ИИ, можно свести к трем основным элементам: алгоритмы, данные и вычислительная мощность. И наоборот, ИИ, будучи универсальным инструментом, оказывающим далеко идущее влияние на методы производства, революционизирует работу отраслей. Между тем, значительное влияние технологии блокчейн двояко: она реструктурирует производственные отношения и обеспечивает децентрализацию. Таким образом, слияние этих двух технологий может привести к появлению четырех потенциальных путей:

Децентрализованная вычислительная мощность

Цель этого раздела - дать представление о современном ландшафте вычислительных мощностей. В сфере ИИ вычислительная мощность имеет огромное значение. Спрос на вычислительные мощности в области искусственного интеллекта, особенно заметный после появления Sora, достиг беспрецедентного уровня. На Всемирном экономическом форуме в Давосе, Швейцария, в 2024 году генеральный директор OpenAI Сэм Альтман подчеркнул, что вычислительная мощность и энергия в настоящее время являются главными ограничениями, намекая на то, что в будущем они будут приравнены к валюте. Впоследствии, 10 февраля, Сэм Альтман объявил в Твиттере о новаторском плане по привлечению ошеломляющей суммы в 7 триллионов долларов США (что эквивалентно 40% ВВП Китая в 2023 году) для революции в мировой полупроводниковой промышленности с целью создания полупроводниковой империи. Раньше мои рассуждения о вычислительных мощностях ограничивались национальными ограничениями и корпоративными монополиями; однако идея о том, что один человек стремится доминировать в мировом секторе полупроводников, поистине удивительна.

Значение децентрализованных вычислительных мощностей очевидно. Возможности блокчейна предлагают решение распространенных проблем монополизации вычислительных мощностей и непомерных затрат, связанных с приобретением специализированных графических процессоров. С точки зрения требований к ИИ, использование вычислительной мощности можно разделить на два аспекта: вывод и обучение. Проекты, направленные в первую очередь на обучение, немногочисленны из-за сложной интеграции, необходимой для децентрализованных сетей, и значительных требований к аппаратному обеспечению, что создает значительные препятствия для реализации. И наоборот, задачи вывода относительно проще, с менее сложными децентрализованными сетевыми конструкциями и меньшими требованиями к аппаратному обеспечению и пропускной способности, поэтому они представляют собой более доступный путь.

Ландшафт централизованных вычислительных мощностей обладает огромным потенциалом, который часто ассоциируется с описанием "триллионный уровень", и остается весьма сенсационной темой в эпоху ИИ. Однако, наблюдая за множеством недавних проектов, многие из них кажутся наспех придуманными начинаниями, направленными на то, чтобы воспользоваться тенденциями. Хотя эти проекты часто выступают за децентрализацию, они, как правило, обходят стороной обсуждение неэффективности децентрализованных сетей. Более того, существует заметная степень единообразия в разработке, когда многочисленные проекты используют схожие подходы (например, "один клик" L2 плюс разработка шахт), что потенциально может привести к неудачам и усложнить попытки выделиться из традиционной гонки ИИ.

Алгоритм и модель системы совместной работы

Алгоритмы машинного обучения предназначены для изучения закономерностей и правил на основе данных, что позволяет им делать прогнозы или принимать решения на основе этих изученных закономерностей. Из-за сложности, связанной с их разработкой и оптимизацией, алгоритмы по своей сути являются технологически сложными, требующими глубоких знаний и технологических инноваций. Они служат основой для обучения моделей ИИ, определяя, как обрабатывать данные для получения полезных сведений или принятия решений. Известные генеративные алгоритмы ИИ, такие как генеративные адверсарные сети (GAN), вариативные автокодировщики (VAE) и трансформеры, предназначены для конкретных областей, таких как рисование, распознавание языка, перевод или создание видео, и играют важную роль в обучении специализированных моделей ИИ.

Обилие алгоритмов и моделей с разными достоинствами поднимает вопрос: можно ли их объединить в универсальную модель? Bittensor, недавно появившийся проект, возглавляет усилия в этом направлении, стимулируя сотрудничество между различными моделями и алгоритмами ИИ, тем самым способствуя разработке более эффективных и способных моделей ИИ. Другие инициативы, такие как Commune AI, направлены на развитие совместной работы над кодом, хотя обмен алгоритмами и моделями остается сложной задачей из-за того, что они являются собственностью компаний, занимающихся разработкой ИИ.

Концепция совместной экосистемы ИИ интригует, поскольку технология блокчейн позволяет смягчить недостатки, связанные с изолированными алгоритмами ИИ. Однако его способность генерировать соответствующую стоимость еще предстоит определить. Устоявшиеся компании, занимающиеся разработкой ИИ и обладающие собственными алгоритмами и моделями, обладают мощным потенциалом для обновления, итерации и интеграции своих технологий. Например, OpenAI быстро продвинулся от ранних моделей генерации текста к многодоменным генеративным моделям в течение двух лет. Проектам, подобным Bittensor, возможно, придется искать инновационные пути в своих целевых областях, чтобы эффективно конкурировать.

Децентрализованные большие данные

С упрощенной точки зрения, интеграция частных данных для обеспечения искусственного интеллекта и аннотирование данных - это направления, которые хорошо сочетаются с технологией блокчейн. Основные проблемы связаны с тем, как предотвратить появление нежелательных данных и вредоносных действий. Более того, хранение данных может быть выгодно для проектов Depin, таких как FIL и AR.

Если посмотреть на это с более сложной точки зрения, то использование данных блокчейна для машинного обучения (ML), чтобы решить проблему доступности данных блокчейна, представляет собой еще одно привлекательное направление, о котором говорит Гиза.

Теоретически, данные блокчейна доступны в любой момент времени и отражают состояние всего блокчейна. Однако тем, кто находится за пределами экосистемы блокчейна, получить доступ к этим обширным массивам данных не так-то просто. Хранение целого блокчейна требует значительного опыта и специализированных аппаратных ресурсов.

Чтобы преодолеть трудности, связанные с доступом к данным блокчейна, в отрасли появилось несколько решений. Например, провайдеры RPC предлагают доступ к узлам через API, а сервисы индексирования облегчают поиск данных через SQL и GraphQL, играя ключевую роль в смягчении проблемы. Тем не менее, эти методы имеют свои ограничения. Сервисы RPC не подходят для использования с высокой плотностью пользователей, требующих обширных запросов к данным, и часто не справляются с поставленной задачей. Между тем, хотя службы индексирования предлагают более структурированный подход к поиску данных, запутанность протоколов Web3 делает построение эффективных запросов чрезвычайно сложным, иногда требующим сотен или даже тысяч строк сложного кода. Эта сложность представляет собой значительное препятствие для специалистов по работе с данными общего профиля и тех, кто слабо разбирается в тонкостях Web3. Совокупное влияние этих ограничений подчеркивает необходимость создания более доступного и удобного метода получения и использования данных блокчейн, который мог бы стимулировать более широкое применение и инновации в этой области.

Таким образом, объединение ZKML (Zero-Knowledge Proof Machine Learning, облегчающее бремя машинного обучения на цепочке) с высококачественными данными блокчейна потенциально может дать наборы данных, которые решат проблемы доступности данных блокчейна. ИИ способен значительно снизить барьеры для доступа к данным блокчейна. Со временем разработчики, исследователи и энтузиасты ML смогут получить доступ к большему количеству высококачественных и актуальных наборов данных для создания эффективных и инновационных решений.

Расширение возможностей ИИ для Dapps

После взрыва ChatGPT3 в 2023 году расширение возможностей ИИ для Dapps стало очень распространенным направлением. Широко применимый генеративный ИИ может быть интегрирован через API, что упростит и усовершенствует платформы данных, торговых ботов, блокчейн-энциклопедии и другие приложения. Они также могут работать в качестве чат-ботов (например, Myshell) или ИИ-компаньонов (например, Sleepless AI), и даже создавать NPC в блокчейн-играх с помощью генеративного ИИ. Однако из-за низких технических барьеров большинство внедрений - это просто доработка после интеграции API, а интеграция с самими проектами часто несовершенна, поэтому редко упоминается.

С появлением Соры я лично считаю, что расширение возможностей ИИ для GameFi (включая метавселенную) и творческих платформ будет главным направлением в дальнейшем. Учитывая восходящую природу сферы Web3, вряд ли удастся создать продукты, способные напрямую конкурировать с традиционными играми или творческими компаниями. Однако появление Sora способно выйти из этого тупика, возможно, всего за два-три года. Судя по демонстрационной версии Sora, она способна конкурировать с компаниями, производящими микродрамы. Кроме того, активная культура сообщества Web3 может способствовать появлению множества интересных идей. Когда единственным ограничителем станет воображение, барьеры между индустрией "снизу вверх" и традиционной индустрией "сверху вниз" рухнут.

Заключение

Поскольку инструменты генеративного ИИ продолжают развиваться, в будущем нас ожидает еще больше преображающих "моментов iPhone". Несмотря на первоначальный скептицизм, связанный с интеграцией ИИ в Web3, я уверен, что текущие траектории в целом идут по плану, хотя и с тремя основными болевыми точками, требующими внимания: необходимость, эффективность и совместимость. Хотя слияние этих областей остается исследовательским, это не должно отпугивать нас от мысли о том, что на предстоящем "бычьем" рынке это станет основным направлением.

Поддерживать в себе любопытство и восприимчивость к новым идеям очень важно. Исторические прецеденты, такие как быстрый переход от конных экипажей к автомобилям и эволюция надписей в прошлых НФТ, подчеркивают важность избегания излишней предвзятости, которая часто приводит к упущенным возможностям.

Отказ от ответственности:

  1. Эта статья перепечатана с сайта[Deep Tide], все авторские права принадлежат автору оригинала[YBB Capital Zeke]. Если у Вас есть возражения против этой перепечатки, пожалуйста, свяжитесь с командой Gate Learn, и они незамедлительно рассмотрят их.
  2. Отказ от ответственности: Мнения и взгляды, выраженные в этой статье, принадлежат исключительно автору и не являются инвестиционным советом.
  3. Перевод статьи на другие языки осуществляется командой Gate Learn. Если не указано, копирование, распространение или плагиат переведенных статей запрещены.
Jetzt anfangen
Registrieren Sie sich und erhalten Sie einen
100
-Euro-Gutschein!
Benutzerkonto erstellen