Новые исследования ставят под сомнение токен-биллинг ИИ

Андрей Пыхов
Icon
8
Icon
Общество
Icon
1/6/2025 15:25
News Main Image

Оплата по токенам — принятая модель тарификации в современных AI-сервисах, включая ChatGPT и другие LLM-инструменты. Однако новые научные исследования показывают, что эта система непрозрачна и подвержена манипуляциям, что может приводить к переплатам и злоупотреблениям. В этой статье мы разбираем, как работает токен-биллинг, в чем его ключевые недостатки и какие альтернативы предлагают ученые.
Источник новости: https://www.unite.ai/new-research-papers-question-token-pricing-for-ai-chats/



Понимание биллинга на основе токенов

Что такое токен и как он используется в биллинге

В большинстве современных AI-сервисов, таких как ChatGPT-4o, расчёт стоимости осуществляется по количеству обработанных токенов. Токен представляет собой небольшую единицу текста — это может быть слово, его часть, знак препинания или даже пробел. Однако токен — это не то же самое, что слово: например, слово "unbelievable" может быть засчитано как один токен в одной системе, а в другой — как три ("un", "believ", "able").

Токены учитываются как в пользовательском вводе, так и в ответах модели, а итоговая цена формируется на основе общего количества этих единиц. При этом пользователи не видят, как именно происходит подсчёт токенов, и не могут проверить его точность. Некоторые интерфейсы отображают количество токенов уже после выполнения запроса, но это не даёт возможности заранее рассчитать стоимость или убедиться в справедливости тарификации.

Скрытая инфляция токенов и манипуляции

Исследование Max Planck Institute показало, что провайдеры могут завышать количество токенов, не нарушая правил. Один из примеров — когда система возвращает видимый результат "San Diego", который может быть представлен как два токена, но провайдер может сообщить пользователю о девяти токенах ("S", "a", "n", пробел, "D", "i", "e", "g", "o"), увеличивая таким образом плату без изменения вывода.

Авторы предложили алгоритм, способный производить такие манипуляции незаметно для пользователя и без отклонений от стандартного поведения модели. Этот подход был протестирован на моделях LLaMA, Mistral и Gemma и показал значительное превышение количества токенов при сохранении правдоподобия.

Альтернатива: биллинг по количеству символов

Исследователи предлагают перейти от токен-ориентированного биллинга к расчёту стоимости на основе символов. Это подход, при котором стоимость зависит от количества видимых символов, а не от скрытых процессов. Такой метод, по мнению авторов, устраняет стимулы к манипуляции токенами и делает ценообразование более прозрачным.

Однако у этого варианта есть свои сложности. Короткие ответы могут стать приоритетом, даже если они менее информативны. Кроме того, внедрение символо-ориентированной модели может потребовать законодательного вмешательства, поскольку крупные компании вряд ли добровольно откажутся от системы, которая позволяет им контролировать и скрывать реальные издержки.

Скрытые процессы и непрозрачность вычислений

Исследование университетов Мэриленда и Беркли указывает на ещё одну проблему — скрытые внутренние операции. Многие LLM-сервисы выполняют множество дополнительных действий, таких как внутренние вызовы моделей, промежуточные размышления, использование инструментов и взаимодействие между агентами. Эти операции могут значительно увеличить количество токенов, за которые взимается плата, но они не отображаются пользователю.

Например, при использовании reasoning LLM API может происходить подмена более мощной модели на менее производительную, при этом стоимость остаётся прежней. Такие замены трудно обнаружить, ведь результат может всё равно выглядеть корректно. В некоторых случаях до 90% токенов, за которые взимается плата, никогда не отображаются пользователю.

Решения для проверки прозрачности

Для борьбы с непрозрачностью авторы предлагают систему аудита, включающую криптографические доказательства внутренних действий, а также верификацию моделей и инструментов. Одна из таких систем — CoIn, разработанная в Университете Мэриленда. Она использует хеш-функции и семантические проверки для выявления скрытого увеличения токенов без раскрытия содержимого.

CoIn строит дерево Меркла из эмбеддингов токенов, что позволяет проверять их количество, не раскрывая содержимое. Также система анализирует, насколько логично скрытое содержание связано с финальным ответом, чтобы обнаруживать искусственные вставки.

В тестах CoIn показала эффективность обнаружения до 95% случаев скрытой инфляции токенов, минимизируя при этом раскрытие данных. Однако её внедрение зависит от сотрудничества со стороны провайдеров, а также от наличия независимого надзора.

Проблема структурной непрозрачности

Третье исследование из Университета Мэриленда подчёркивает, что основная проблема кроется в самой архитектуре LLM-сервисов. Пользователи не могут наблюдать или проверять большую часть операций, за которые с них взимается плата. Это позволяет поставщикам незаметно увеличивать стоимость, внедряя лишние токены или скрытые процессы.

Пример — запуск модели OpenAI o3 на задаче ARC-AGI, где было затрачено 111 миллионов токенов, что обошлось в $66,772. Даже незначительная манипуляция при таких масштабах может иметь серьёзные финансовые последствия.

Таким образом, текущая модель биллинга на основе токенов основывается на доверии, которое нельзя проверить технически. Это создаёт системную асимметрию информации между поставщиком и пользователем.

Основные выводы исследований

Невидимые токены и завышенные счета

Новое исследование демонстрирует, что модель оплаты услуг ИИ на основе токенов скрывает от пользователей реальные расходы. Провайдеры могут завышать счета, манипулируя подсчетом токенов или добавляя скрытые этапы обработки, которые не отображаются в ответах, но учитываются в оплате. Это означает, что пользователи платят за процессы, которых они не видят.

Интерфейсы, как правило, не отображают количество токенов в реальном времени, а способ их подсчета часто невозможно воспроизвести. Даже если счетчик токенов появляется после ответа, пользователь не может определить, был ли расчет справедлив.

Исследование Max Planck Institute: манипуляции токенизацией

В работе Is Your LLM Overcharging You? исследователи из Max Planck Institute показали, как провайдеры могут незаметно увеличивать количество токенов, не изменяя видимого вывода. Например, фраза “San Diego” может быть представлена как два токена (“|San| Diego|”), но провайдер может начислить девять токенов (“|S|a|n| |D|i|e|g|o|”). Это возможно благодаря неоднозначности токенизации строки.

Авторы представили эвристический алгоритм, который позволяет реализовать такое «правдоподобное завышение» токенов без нарушения логики декодирования. Тесты на моделях LLaMA, Mistral и Gemma показали статистически значимое увеличение количества токенов.

Исследователи предлагают перейти к системе оплаты по количеству символов, что, по их мнению, устранит стимулы для манипуляций и обеспечит более прозрачную систему ценообразования.

Исследование University of Maryland и Berkeley: скрытые операции

Во второй статье, Invisible Tokens, Visible Bills, ученые из Университета Мэриленда и Беркли подчеркивают, что проблема выходит за рамки токенизации. Они отмечают, что пользователям выставляются счета за внутренние вызовы моделей, спекулятивные рассуждения, использование инструментов и взаимодействия между агентами — все это происходит без ведома пользователя.

Исследователи выделяют две ключевые формы манипуляций: инфляция количества (например, искусственное увеличение токенов) и снижение качества (незаметная подмена более слабых моделей под видом премиальных). В одном из случаев более 90% токенов, за которые был выставлен счет, не были показаны пользователю, а внутренние рассуждения увеличили объем токенов более чем в 20 раз.

Для решения проблемы предлагается многоуровневая система аудита, включающая криптографические доказательства активности и независимый надзор.

Исследование CoIn: архитектурная непрозрачность

Третья работа, CoIn: Counting the Invisible Reasoning Tokens in Commercial Opaque LLM APIs, рассматривает проблему как структурную. Учёные из Университета Мэриленда утверждают, что коммерческие LLM-сервисы скрывают промежуточные шаги рассуждений, несмотря на то что пользователи за них платят.

Описывается пример, где один запуск модели OpenAI o3 обошелся в 111 миллионов токенов, что эквивалентно $66,772. Даже небольшие манипуляции в таких масштабах могут привести к значительным финансовым потерям.

Для борьбы с этим авторы предлагают систему CoIn — сторонний аудит, основанный на криптографической верификации токенов и семантическом анализе. Система использует хэширование вложений токенов в структуру Merkle и проверяет соответствие промежуточных рассуждений финальному ответу.

Тестирование показало, что CoIn может обнаружить инфляцию токенов с точностью до 95% при минимальном раскрытии данных. Однако эффективность системы всё ещё зависит от готовности провайдеров к сотрудничеству.

Общая проблема: системная непрозрачность

Все три исследования подчеркивают общую проблему — асимметрию информации между провайдерами и пользователями. Пользователи не могут проверить, за что они платят, и не имеют доступа к метрикам, на которых основан счёт. Текущая система оплаты на основе токенов использует единицу измерения, которая может быть произвольно интерпретирована, что делает её уязвимой для злоупотреблений.

Предложенный переход к оплате по символам может решить часть проблем, но также несет риски, такие как дискриминация языков с большей длиной слов. Полноценное решение требует как технологических инноваций, так и, возможно, законодательных изменений.

Предложенные решения и вызовы

Переход к оплате по символам

Одним из ключевых предложений, выдвинутых исследователями из Института Макса Планка в работе "Is Your LLM Overcharging You? Tokenization, Transparency, and Incentives", является переход от расчёта стоимости по токенам к оплате по количеству символов. Такой подход, по их мнению, устранит стимулы для недобросовестного завышения числа токенов и обеспечит более прозрачную и справедливую модель ценообразования.

Исследователи утверждают, что текущая система токенизации неоднозначна и позволяет провайдерам без нарушения формальных правил увеличивать счёт, подавая одни и те же ответы как состоящие из большего количества токенов. Например, ответ «San Diego» может быть интерпретирован как 2 токена или как 9, в зависимости от разбивки.

Тем не менее, переход к символьной оплате сопряжён с рядом трудностей. Во-первых, такая схема может изменить бизнес-модели, и потребуется законодательное вмешательство, чтобы стимулировать переход. Во-вторых, есть опасения, что провайдеры будут стремиться к созданию максимально коротких (пусть и менее информативных) ответов ради снижения издержек, что может повлиять на качество сервиса.

Необходимость внешнего аудита

В работе Invisible Tokens, Visible Bills, подготовленной исследователями Университета Мэриленда и Беркли, подчёркивается необходимость создания независимых аудиторских инструментов. Авторы настаивают на том, что скрытые операции — такие как внутренние вызовы моделей, спекулятивное рассуждение, использование инструментов и взаимодействие между агентами — в значительной степени влияют на стоимость, но при этом остаются невидимыми для пользователя.

Они предлагают разработку многоуровневой системы аудита, включающей криптографические доказательства активности, идентификаторы используемых моделей и независимый надзор. Это необходимо для устранения структурной асимметрии информации, при которой пользователи не могут проверить справедливость предъявленных им счетов.

Система CoIn: аудит невидимых токенов

Третья работа, CoIn: Counting the Invisible Reasoning Tokens in Commercial Opaque LLM APIs, предлагает техническое решение в виде сторонней системы аудита — CoIn. Она позволяет проверять количество и обоснованность скрытых токенов без раскрытия их содержимого. Система использует хеширование эмбеддингов рассуждений в структуру типа Merkle-дерева и семантическую валидацию, сравнивая смысл скрытых блоков с финальным ответом.

В тестах CoIn показал эффективность обнаружения инфляции токенов до 95% без значительного раскрытия данных. Однако реализация этой системы требует сотрудничества со стороны провайдеров, что пока не гарантировано.

Ограничения и барьеры внедрения

Несмотря на эффективность предложенных решений, существует множество вызовов:

  • Коммерческие интересы провайдеров: Текущая модель оплаты по токенам выгодна поставщикам услуг, поскольку позволяет использовать непрозрачные метрики для увеличения дохода.
  • Технические сложности: Создание и интеграция аудиторских систем требует значительных ресурсов и может повлечь дополнительные издержки.
  • Юридические и нормативные барьеры: Переход к более прозрачной модели потребует законодательного давления или инициатив со стороны регулирующих органов.
  • Проблемы локализации: Оплата по символам может необоснованно повышать стоимость для пользователей, использующих языки с большей длиной слов или сложной грамматикой, например, немецкий или русский.

В целом, предложенные решения направлены на повышение прозрачности и справедливости в ценообразовании LLM-сервисов, однако их реализация потребует как технических инноваций, так и изменений в бизнес-моделях и регулировании отрасли.

Возможные последствия

Результаты трёх новых исследований указывают на существенные проблемы в текущей модели тарификации языковых ИИ-сервисов, основанной на токенах. Эти проблемы затрагивают не только прозрачность и справедливость оплаты, но и потенциально изменят подходы к разработке, регулированию и потреблению ИИ-услуг в будущем.

Правовые и нормативные изменения

Авторы исследования из Института Макса Планка подчеркивают, что переход от токен-биллирования к более прозрачной схеме — например, тарификации по количеству символов — потребует законодательного вмешательства. Без прямого давления со стороны регулирующих органов крупные поставщики ИИ-услуг вряд ли добровольно откажутся от выгодной, но непрозрачной модели. Таким образом, можно ожидать усиления требований к прозрачности со стороны государственных структур, особенно в странах с активной цифровой регуляцией.

Влияние на бизнес-модели провайдеров

Если предложения исследователей получат развитие, поставщикам ИИ-сервисов придётся адаптировать свои алгоритмы и интерфейсы к новым стандартам. В частности, переход к тарификации по символам вынудит их оптимизировать генерацию ответов, избегая ненужных внутренних шагов, которые ранее использовались для увеличения токенов и, соответственно, прибыли. Это может повлиять на архитектуру моделей и привести к более лаконичным и целенаправленным ответам.

Однако есть риск, что такие изменения приведут к обратному эффекту: в попытке сократить количество символов, поставщики могут жертвовать качеством откликов или использовать компрессионные алгоритмы, искажающие смысл.

Развитие инструментов независимого аудита

Исследования из Университета Мэриленда и Беркли указывают на необходимость создания независимых механизмов верификации. Такие инструменты, как предложенный CoIn (Counting the Invisible), могут стать стандартом для оценки использования токенов без раскрытия конфиденциальных данных модели. При этом они могут не только повысить уровень доверия пользователей, но и стать обязательной частью сертификации ИИ-сервисов, особенно при использовании в корпоративной или государственной среде.

Воздействие на пользовательский опыт и интерфейсы

Текущая непрозрачность токенизации делает невозможным для пользователей понимать, за что именно они платят. В будущем можно ожидать появления более информативных пользовательских интерфейсов, отображающих количество использованных токенов или символов в реальном времени. Это изменит поведение потребителей: с большей вероятностью они будут следить за расходами и адаптировать свои запросы для повышения эффективности, что в свою очередь повлияет на стиль общения с ИИ.

Потенциал для появления новых игроков

Если существующие гиганты рынка не примут предложенные меры, это создаёт окно возможностей для стартапов: предложив прозрачную и справедливую систему тарификации, они смогут выделиться на фоне конкурентов и завоевать доверие пользователей. Однако такие компании столкнутся с препятствиями в виде повышенных затрат на реализацию прозрачных алгоритмов и потенциальной нехватки ресурсов для масштабирования.

Выводы для потребителей и компаний

В условиях текущей асимметрии информации между провайдерами и пользователями, последние остаются незащищёнными от скрытых расходов. В будущем компании, использующие LLM в своей работе, будут нуждаться в инструментах внутреннего аудита и контроля, чтобы избегать переплат и неэффективного использования сервисов. Это особенно актуально для крупных организаций, обрабатывающих миллионы токенов ежемесячно, где даже незначительные манипуляции могут оборачиваться значительными финансовыми потерями.

Исследования из Мэриленда, Беркли и Института Макса Планка раскрыли системные изъяны в модели тарификации на основе токенов и предложили конкретные пути повышения прозрачности. Переход к оплате по символам, независимый аудит и новые стандарты могут изменить правила игры в ИИ-индустрии. Пользователям и бизнесу стоит уделить особое внимание этим вопросам уже сейчас — чтобы не оказаться в ситуации, когда за «невидимые токены» придётся дорого заплатить.