LLM модели и хайп

Почему важно разобраться

Тема LLM-моделей (Large Language Models) сегодня перегрета. Вокруг неё невероятное количество хайпа, инфоцыган, ложной информации и оптимистичных прогнозов. Каждый второй блогер на YouTube рассказывает про «революцию ИИ», зачастую не разбираясь в том, как это работает. Компании тратят огромные деньги на внедрение, не понимая ограничений. Инвесторы вкладывают миллиарды, ожидая чуда.

Давайте спокойно разберёмся, что это такое, как работает, что умеет, а что нет.

Краткая история

Всё началось с задачи: научить компьютер понимать и генерировать текст на естественном языке.

2017 год. Google публикует статью «Attention Is All You Need», в которой описана архитектура Transformer. Это стало фундаментом для всех современных LLM.

2018-2019. Появляются первые крупные модели: GPT-2 от OpenAI и BERT от Google. Они уже умеют неплохо работать с текстом, но до массового применения далеко.

2022. OpenAI выпускает ChatGPT на основе GPT-3.5. Мир взрывается. Впервые обычные люди могут общаться с ИИ в формате чата и получать осмысленные ответы.

2023-2025. Гонка моделей: GPT-4, Claude (Anthropic), Gemini (Google), Llama, Mistral и десятки других. Модели становятся умнее, быстрее и дешевле.

Как это работает (простыми словами)

LLM-модель обучена на огромных объёмах текста из интернета: книги, статьи, форумы, документация, код. В процессе обучения она выучила закономерности языка и накопила «знания» обо всём, что встречалось в обучающих данных.

Когда вы задаёте вопрос, модель не «думает» в привычном смысле. Она предсказывает, какой текст наиболее вероятно должен идти дальше, основываясь на всех закономерностях, которые выучила. Это похоже на очень продвинутое автодополнение, которое учитывает контекст всего разговора.

Как работает LLM

Модель предсказывает следующее слово, а не «думает»

1 · Ввод

2 · Механизм внимания (Attention)

Каждое слово «смотрит» на все остальные, чтобы понять контекст. Яркие ячейки = сильная связь.

3 · Вероятности следующего слова

4 · Результат

Процесс повторяется: каждое новое слово становится частью контекста для предсказания следующего.

Объём памяти (параметры)

«Размер» модели измеряется в параметрах. Это числа, которые модель настроила в процессе обучения. GPT-4 содержит сотни миллиардов параметров. Чем больше параметров, тем больше закономерностей модель может запомнить, но тем дороже она в использовании.

Объём контекста (контекстное окно)

Контекстное окно определяет, сколько текста модель может «видеть» одновременно. Измеряется в токенах (примерно 1 токен = 0.75 слова). У современных моделей окно составляет от 8 000 до 200 000 токенов. Всё, что выходит за пределы окна, модель просто не видит. Она не «помнит» ваш разговор месячной давности, если вы начали новый чат.

Проблемы

Галлюцинации

Это главная и самая опасная проблема. Модель может уверенно и убедительно выдавать полностью ложную информацию. Она не «врёт» намеренно. Она генерирует наиболее вероятный текст, и иногда этот текст не соответствует реальности. При этом модель не говорит «я не знаю». Она просто выдаёт ответ, как будто он верный.

Ошибочные выводы

Модель может строить логические цепочки, которые выглядят правильно, но содержат ошибки. Особенно это заметно в сложных расчётах, юридических вопросах и узкоспециализированных темах. Модель не понимает контекст так, как понимает его эксперт в своей области.

Мифы

Миф 1: «Можно загрузить свои данные в модель»

Нет. Вы не можете «добавить» свои документы в базовые знания ChatGPT или Claude. Модель обучена на определённых данных, и изменить их нельзя. Когда вы прикрепляете файл в чат, модель просто видит его содержимое в рамках текущего контекстного окна. Закрыли чат, и модель всё забыла.

Дообучение (fine-tuning) существует, но это дорогой и сложный процесс, который требует специалистов и большого объёма подготовленных данных. Это не «загрузить PDF и готово».

Миф 2: «ИИ заменит всех программистов/дизайнеров/маркетологов»

Не заменит. Изменит характер работы и повысит производительность, да. Но полная замена специалистов требует от модели способности понимать бизнес-контекст, нести ответственность за решения и самостоятельно ставить себе задачи. Этого пока нет.

Миф 3: «Модель понимает, что она говорит»

Нет. Модель не обладает пониманием в человеческом смысле. Она оперирует статистическими закономерностями языка. Это не значит, что её ответы бесполезны, но важно понимать природу инструмента.

Миф 4: «Чем новее модель, тем она лучше для любой задачи»

Не всегда. Более мощная модель не обязательно лучше подходит для вашей конкретной задачи. Иногда маленькая и дешёвая модель справляется не хуже, а обходится в десятки раз дешевле.

Миф 5: «Прогресс развивается по экспоненте»

Прогресс не бесконечен. Посмотрите на базовые технологии вокруг себя - вы увидите, что многие из них переживали экспоненциальный рост в прошлом, но сегодня развиваются далеко не так стремительно. Например, железные дороги, самолеты, автомобили - за последние 70 лет здесь не произошло радикальных изменений. Обычно технология развивается по кривой, указанной на рисунке ниже.

llm

RAG-система

RAG (Retrieval-Augmented Generation) решает проблему «как дать модели доступ к нашим данным» без дообучения.

Работает это так:

Ваши документы (базы знаний, инструкции, FAQ) разбиваются на фрагменты и сохраняются в специальную базу данных.
Когда пользователь задаёт вопрос, система сначала ищет в этой базе наиболее релевантные фрагменты.
Найденные фрагменты подставляются в контекст модели вместе с вопросом.
Модель генерирует ответ, опираясь на подставленные данные.

По сути, модель не «знает» ваши данные. Ей каждый раз подсовывают нужный кусочек информации, и она формулирует ответ на его основе.

С чем LLM справляются хорошо

Генерация и редактирование текстов. Письма, описания товаров, статьи, переводы, суммаризация документов. Здесь модели экономят огромное количество времени.

Работа с кодом. Написание простых скриптов, объяснение чужого кода, поиск ошибок, конвертация между языками программирования.

Анализ и структурирование информации. Извлечение данных из неструктурированного текста, классификация, составление таблиц из «сырых» данных.

Брейнсторминг и генерация идей. Модель видела огромное количество текстов и может предложить неожиданные ракурсы.

С чем LLM справляются плохо

Точные вычисления и математика. Модель может ошибиться даже в простой арифметике.

Актуальная информация. Знания модели ограничены датой обучения. Без доступа к интернету она не знает, что произошло вчера.

Узкоспециализированные экспертные задачи. Медицинские диагнозы, юридические заключения, инженерные расчёты. Модель может помочь, но доверять ей критические решения опасно.

Длинные многошаговые задачи. Чем длиннее и сложнее задача, тем больше вероятность, что модель потеряет нить и допустит ошибку.

Вайбкодинг

Вайбкодинг (vibe coding) — это подход, при котором человек описывает задачу на естественном языке, а LLM-модель пишет код. По сути, вы «программируете вайбами»: объясняете, что хотите получить, и модель генерирует рабочий код.

Звучит как мечта, но есть серьёзные ограничения.

Проблемы вайбкодинга

Spec-фреймворк как решение

Spec-фреймворк (specification framework) предлагает другой подход: прежде чем писать код, вы создаёте подробную спецификацию проекта. Описываете архитектуру, компоненты, связи между ними, требования к каждой части. А затем даёте модели задачи маленькими порциями, каждый раз с чётким контекстом.

Это снимает проблему раздувания контекста и даёт более предсказуемый результат. Но есть нюанс: чтобы написать хорошую спецификацию, нужно разбираться в архитектуре и процессах разработки. То есть spec-фреймворк помогает опытным разработчикам работать быстрее, но не превращает новичка в разработчика.

ИИ-агенты

ИИ-агенты — это системы, в которых LLM-модель не просто отвечает на вопросы, а выполняет последовательность действий: ищет информацию, вызывает инструменты, принимает промежуточные решения и движется к цели.

Мифы и ограничения

Миф: «Агент может автономно решать сложные бизнес-задачи». На практике агенты хорошо работают в узких, чётко определённых сценариях. Чем шире задача и чем больше шагов, тем выше вероятность ошибки. Ошибка на раннем этапе приводит к тому, что все последующие шаги идут в неправильном направлении.

Миф: «Агенты надёжны и предсказуемы». Нет. Один и тот же агент может выполнить одну и ту же задачу по-разному в разные дни. LLM по своей природе не детерминированы: каждый запуск может дать немного другой результат. Для критически важных бизнес-процессов это проблема.

Миф: «Агент заменит целый отдел». Агенты хороши как помощники, которые автоматизируют рутинные цепочки действий. Но им нужен человеческий контроль на ключевых этапах. Полностью автономный агент, работающий без присмотра над важными задачами, — это рецепт для дорогостоящих ошибок.

Реальное ограничение: стоимость ошибки. Когда агент ошибается, он ошибается быстро и масштабно. Если человек, выполняя рутинную задачу, заметит странность и остановится, агент продолжит выполнение, не подозревая, что что-то пошло не так. Поэтому критически важно проектировать «точки контроля», где человек проверяет промежуточные результаты.

OpenClaw: пример хайпа вокруг агентов

Отдельно стоит сказать про OpenClaw, потому что вокруг него сейчас много шума. OpenClaw позиционируется как «персональный ИИ-ассистент», который работает круглосуточно. Его можно развернуть на собственном компьютере или на сервере. Он подключается к мессенджерам (Telegram, WhatsApp, iMessage), умеет управлять файлами, запускать команды и автоматизировать задачи.

Как это работает. OpenClaw сам по себе бесплатный. Но он не содержит собственного ИИ. Каждое ваше сообщение он отправляет через API к внешним моделям (Claude, GPT и другие), и за каждый такой вызов вы платите токенами. Каждое действие, каждый шаг автоматизации, каждая проверка это API-вызов, а значит, расход токенов.

Взаимодействие с браузером — отдельная статья расходов. Когда OpenClaw работает с веб-страницами, он делает скриншоты экрана и отправляет их модели как изображения. Модель «смотрит» на скриншот, решает, куда нажать, получает новый скриншот, снова анализирует. Каждое такое изображение стоит в десятки раз дороже обычного текстового запроса. Простая операция в браузере (заполнить форму, нажать пару кнопок) может потребовать 5-10 скриншотов. В итоге задача, которая заняла бы 30 секунд у человека, съедает токенов на несколько долларов.

Почему это дорого. Пользователи на GitHub жалуются, что сжигают миллионы токенов за одну ночь. При активном использовании с браузерной автоматизацией счета легко уходят за $200-800 в месяц.

В чём подвох. Большинство задач, которые OpenClaw выполняет через цепочку агентных вызовов с раздуванием контекста, можно решить простым вызовом API напрямую. Написать скрипт на 20 строк, который делает конкретную задачу через API, будет в 10 раз дешевле, быстрее и предсказуемее. Агент тратит токены на «размышления», промежуточные шаги, скриншоты и переосмысление контекста. Прямой API-вызов тратит токены только на саму задачу.