Перейти к содержимому

Теория мертвого интернета

Термин Dead Internet Theory появился примерно в 2021 году на форумах вроде 4chan и Agora Road. Основная мысль простая: большая часть контента в интернете уже создана не людьми, а ботами и алгоритмами, и реальных пользователей в сети гораздо меньше, чем кажется.

Изначально это звучало как конспирология. Но с развитием генеративного ИИ теория стала выглядеть всё более правдоподобной.

С появлением ChatGPT, Claude и других моделей стало возможным генерировать тексты, которые сложно отличить от написанных человеком. Это привело к нескольким явлениям:

  • SEO-фермы штампуют тысячи статей через LLM для захвата поисковой выдачи. Вы ищете “как выбрать ноутбук” и получаете 10 страниц сгенерированного текста с партнерскими ссылками.
  • На площадках вроде Amazon появились книги, полностью написанные нейросетями, иногда даже с вымышленными авторами.
  • В соцсетях аккаунты публикуют сгенерированные посты, комментарии и даже “личные истории” для набора аудитории.

Проблема ботов существовала задолго до LLM. Вспомните скандал с Twitter перед покупкой Маском: по разным оценкам, от 5% до 20% аккаунтов были ботами (сам Маск утверждал, что гораздо больше). Но раньше ботов было легко распознать по шаблонным ответам. Сейчас бот с GPT-движком ведет дискуссии, шутит, спорит, и отличить его от живого человека стало по-настоящему трудно.

Боты создают иллюзию популярности. Когда у поста тысячи лайков и сотни восторженных комментариев, вы воспринимаете его как что-то важное и проверенное. Но если 80% этих реакций сгенерированы ботами, вы принимаете решения на основе фальшивых сигналов. Это работает везде: от отзывов на товары до политических дискуссий. Бизнесы покупают ботов, чтобы раздувать метрики, а настоящие пользователи доверяют этим цифрам.

Так называют низкокачественный AI-контент, который заполняет ленты. face**** и Inst**** переполнены картинками в стиле “Иисус из креветок” или “бабушка с гигантским тортом”, которые собирают миллионы лайков от реальных пользователей, не понимающих, что это сгенерировано.

Бизнес и маркетинг. Генерировать контент через LLM в сотни раз дешевле, чем нанимать людей. Если SEO-статья стоила $50–100 у копирайтера, то через API модели она обходится в центы. Экономический стимул огромный.

Платформы. Соцсетям выгодно большое количество контента и активности. Больше постов и комментариев = больше времени в приложении = больше рекламных показов. У платформ нет сильного стимула бороться с качественными ботами, если те генерируют engagement.

Политика и пропаганда. Государства и политические группы используют ботов для создания иллюзии общественного мнения. Если в комментариях под новостью 500 “людей” поддерживают определенную позицию, это влияет на восприятие реальных читателей.

Мошенники. Фейковые отзывы, фишинговые письма, поддельные профили для социальной инженерии. LLM сделали всё это масштабируемым.

Это, пожалуй, самое тревожное последствие. LLM обучаются на данных из интернета. Но если интернет уже наполнен AI-контентом, следующее поколение моделей обучается на выходных данных предыдущего поколения.

Этот процесс называют model collapse. Каждая итерация обучения на сгенерированных данных приводит к деградации качества. Модель теряет разнообразие, начинает повторять одни и те же паттерны, а редкие, но важные знания просто исчезают из обучающей выборки.

То же самое происходит в программировании. GitHub и Stack Overflow уже наполнены кодом, сгенерированным через Copilot и ChatGPT. Этот код часто:

  • Работает, но написан неоптимально
  • Содержит устаревшие паттерны и антипаттерны
  • Игнорирует edge-кейсы и вопросы безопасности
  • Копирует одни и те же шаблонные решения без понимания контекста

Следующее поколение моделей обучается уже на этом коде. Результат: модели всё увереннее генерируют посредственный код, а нестандартные, элегантные решения постепенно вымываются из обучающей выборки.

Тут возникает замкнутый круг. Джуниор-разработчики всё больше полагаются на AI-ассистентов. Они получают работающий код, но не понимают, почему он работает. Навык глубокого понимания систем перестает формироваться.

Когда эти разработчики становятся мидлами и сеньорами, у них нет фундамента для принятия архитектурных решений. Они продолжают делегировать мышление модели. А модель тем временем обучается на всё менее качественных данных, потому что сильных инженеров, которые пишут образцовый код, становится меньше.

Если вы принимаете решения на основе “общественного мнения” в соцсетях, отзывов, комментариев или трендов, вы уже сейчас рискуете опираться на данные, сгенерированные ботами. Если вы нанимаете разработчиков, важно проверять не только то, могут ли они выдать работающий код, но и понимают ли они, что делают. Понимание этой проблемы - не паранойя, а базовая цифровая грамотность для любого, кто работает с интернетом.