Игорь Градов

23 июня 2026 г. в 14:45 МСК6 мин

GLM-5.2 работает через OpenAI-совместимый API: альтернатива YandexGPT API для разработчиков из РФ за $1,4

Китайская модель GLM-5.2 от Z.AI работает через OpenAI-совместимый API (интерфейс, через который программы общаются с моделью), и это позволяет подключить её к существующему коду за считанные минуты, получив режим рассуждений, вызов функций и контекст до миллиона токенов при цене от 1,4 доллара за миллион входных токенов.

Почему это важно

GLM-5.2 принимает тот же формат запросов, что и GPT-4o, поэтому перенос кода сводится к замене двух строк: адреса сервера и названия модели. Для разработчиков из РФ и СНГ это рабочий способ получить рассуждающую модель без VPN и без подписки на OpenAI.

Z.AI (ранее Zhipu AI) опубликовала GLM-5.2 с открытым доступом через несколько провайдеров: собственный api.z.ai, OpenRouter, Together, Requesty и Hugging Face. Модель поддерживает «режим размышлений» (thinking mode) с тремя уровнями усилий, потоковую передачу ответа, вызов внешних функций (function calling) и структурированный JSON-вывод. Ниже пошаговый гайд: от получения ключа до работающего ИИ-агента (программы, которая сама вызывает нужные инструменты).

Что понадобится?

Python 3.9+ и библиотека openai последней версии
API-ключ одного из провайдеров: Z.AI, OpenRouter, Together, Requesty или Hugging Face (бесплатная регистрация у большинства)
Google Colab или любая среда с доступом в интернет
Примерно 30 минут на весь цикл от настройки до работающего агента

Пошаговая инструкция

1. Установите библиотеку и загрузите ключ

import subprocess, sys
subprocess.run([sys.executable, "-m", "pip", "install", "-q", "-U", "openai"], check=False)

import os, getpass
from openai import OpenAI

# Выберите провайдера
PROVIDERS = {
    "zai":        {"base_url": "https://api.z.ai/api/paas/v4/",
                   "model": "glm-5.2", "env": "ZAI_API_KEY"},
    "openrouter": {"base_url": "https://openrouter.ai/api/v1",
                   "model": "z-ai/glm-5.2", "env": "OPENROUTER_API_KEY"},
    "together":   {"base_url": "https://api.together.xyz/v1",
                   "model": "zai-org/GLM-5.2", "env": "TOGETHER_API_KEY"},
}

PROVIDER = "zai"
CFG = PROVIDERS[PROVIDER]

Провайдер zai даёт прямой доступ к модели. OpenRouter и Together удобны тем, кто уже работает с этими маршрутизаторами. Формат запросов одинаковый у всех.

2. Создайте клиента и обёртку для чата

def load_api_key(env_name):
    if os.environ.get(env_name):
        return os.environ[env_name]
    return getpass.getpass(f"Введите {env_name}: ")

client = OpenAI(
    api_key=load_api_key(CFG["env"]),
    base_url=CFG["base_url"]
)
MODEL = CFG["model"]

Обратите внимание: OpenAI(...) здесь создаёт клиента не к серверам OpenAI, а к выбранному провайдеру GLM-5.2. Именно в этом смысл OpenAI-совместимого API: библиотека та же, сервер другой.

3. Напишите универсальную функцию чата

def chat(messages, effort=None, thinking=True,
         tools=None, tool_choice="auto",
         stream=False, max_tokens=2048, temperature=1.0):
    extra = {"thinking": {"type": "enabled" if thinking else "disabled"}}
    if effort and thinking:
        extra["reasoning_effort"] = effort
    kwargs = dict(
        model=MODEL, messages=messages,
        max_tokens=max_tokens, temperature=temperature,
        stream=stream, extra_body=extra
    )
    if tools:
        kwargs.update(tools=tools, tool_choice=tool_choice)
    return client.chat.completions.create(**kwargs)

Параметр thinking включает режим рассуждений. Параметр effort задаёт глубину: "high" или "max". Без этих параметров модель отвечает быстро и дёшево, с ними думает дольше, но качественнее.

4. Проверьте базовый чат

resp = chat(
    [{"role": "user", "content": "Кратко: что умеет GLM-5.2?"}],
    thinking=False, max_tokens=200
)
print(resp.choices[0].message.content)

5. Сравните режимы рассуждения

import time

problem = ("Поезд А выезжает из города А в 9:00 со скоростью 60 км/ч. "
           "Поезд Б выезжает из города Б (420 км) в 9:30 со скоростью 90 км/ч навстречу. "
           "Во сколько они встретятся?")

for label, kw in [
    ("thinking OFF",  dict(thinking=False)),
    ("effort=high",   dict(thinking=True, effort="high")),
    ("effort=max",    dict(thinking=True, effort="max")),
]:
    t0 = time.time()
    resp = chat([{"role": "user", "content": problem}],
                max_tokens=2000, **kw)
    print(f"{label}: {time.time()-t0:.1f}с, "
          f"токенов: {resp.usage.completion_tokens}")
    print(resp.choices[0].message.content[:300], "\n")

Режим thinking=False отвечает быстрее всего. Режим effort="max" тратит больше токенов, но выдаёт пошаговое решение с проверкой. Для рутинных задач (генерация текста, суммаризация) рассуждения можно отключать и экономить.

6. Включите потоковую передачу

stream = chat(
    [{"role": "user", "content": "Почему небо голубое? Дай TL;DR в одну строку."}],
    thinking=True, effort="high", stream=True, max_tokens=1200
)
for chunk in stream:
    if not chunk.choices:
        continue
    delta = chunk.choices[0].delta
    if getattr(delta, "content", None):
        print(delta.content, end="", flush=True)

Потоковый режим (streaming) отдаёт ответ по частям. Пользователь видит текст сразу, не дожидаясь полной генерации. Рассуждения модели приходят в отдельном канале reasoning_content.

Сколько это стоит?

По данным Z.AI, входные токены (то, что вы отправляете модели) стоят 1,40 доллара за миллион, выходные (то, что модель генерирует) стоят 4,40 доллара за миллион. Для отслеживания расходов добавьте счётчик:

PRICE_IN_PER_M, PRICE_OUT_PER_M = 1.40, 4.40
total_in, total_out = 0, 0

def track(usage):
    global total_in, total_out
    total_in += getattr(usage, "prompt_tokens", 0) or 0
    total_out += getattr(usage, "completion_tokens", 0) or 0

def cost():
    return (total_in * PRICE_IN_PER_M + total_out * PRICE_OUT_PER_M) / 1_000_000

Что получается на практике

Задача о поездах в режиме thinking=False выдаёт ответ за 1,5 секунды, тратя около 80 выходных токенов. Тот же вопрос с effort="max" занимает 4 секунды, расходует около 400 токенов, но ответ содержит пошаговые вычисления и самопроверку. Переключение между режимами происходит одним параметром, код не меняется.

Частые ошибки

Забыли extra_body. Без него параметры thinking и reasoning_effort не дойдут до сервера, модель ответит без рассуждений, и вы решите, что функция не работает.
Путаница провайдеров. Название модели отличается: glm-5.2 у Z.AI, z-ai/glm-5.2 у OpenRouter, zai-org/GLM-5.2 у Together. Ошибка в одном символе даёт 404.
Потоковый режим без обработки reasoning_content. Рассуждения приходят не в delta.content, а в отдельном поле. Если его не читать, вы теряете цепочку логики модели.
Высокий max_tokens в режиме effort="max". Модель генерирует длинную цепочку рассуждений, и при лимите 8 000 токенов счёт за один запрос вырастает ощутимо. Для тестов ставьте 1 000 до 2 000.

Что делать с этим прямо сейчас, по ролям?

Разработчику. Если ваш проект уже использует yandex gpt api или OpenAI-клиент, подключение GLM-5.2 займёт замену двух строк. Это рабочий запасной вариант на случай, когда один провайдер недоступен.

Автору Дзена. Режим рассуждений полезен для генерации структурированных планов статей и фактчека черновиков. Режим без рассуждений подходит для быстрой переформулировки заголовков.

Предпринимателю из РФ. Доступ к api.z.ai из России работает без VPN. Для сравнения: yandex gpt api (YandexGPT) требует подписки на Yandex Cloud, GigaChat работает через Сбер. GLM-5.2 даёт ещё одну точку доступа к рассуждающей модели, причём с ценой ниже, чем у большинства западных аналогов.

Мнение редакции dzen.guru

По моим тестам, GLM-5.2 в режиме effort="max" решает математические задачи на уровне, сопоставимом с GPT-4o, но заметно дешевле. Главное преимущество не сама модель, а совместимость с OpenAI-клиентом: не нужно учить новую библиотеку, переписывать промпты (запросы к модели) или менять архитектуру. Честная оговорка: для русского языка модель иногда переключается на английский в середине ответа, особенно в режиме рассуждений. Системный промпт (инструкция, задающая поведение модели) с явным указанием языка решает проблему, но не всегда.

Пять провайдеров, один формат запросов, цена от 1,4 доллара за миллион токенов. Если вы откладывали эксперименты с рассуждающими моделями из-за цены или доступа, GLM-5.2 убирает оба барьера: зарегистрируйтесь на api.z.ai, вставьте ключ в код выше и отправьте первый запрос, это займёт три минуты.

Попробуйте промпт-конструктор dzen.guru

Генерируйте системные промпты для GLM-5.2 и других моделей, тестируйте режимы рассуждений и сравнивайте результаты.

Попробовать бесплатно

Поделиться:Telegram VK

Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Google DeepMind и A24 вместе создадут ИИ для кино: учёные сядут рядом с режиссёрами

Google DeepMind и независимая кинокомпания A24 3 июня 2025 года объявили о долгосрочном исследовательском партнёрстве, в котором учёные-разработчики ИИ будут…

23 июня в 15:45 МСК4 мин

Нейросеть Grok научилась сама доводить код до конца: одна команда вместо десятков промптов

Нейросеть Grok получила режим, который меняет сам процесс работы с кодом: вы ставите задачу одной командой, а ИИ-агент (программа, которая сама планирует и…

23 июня в 13:45 МСК5 мин

Google перевела Gemini API на новый интерфейс: агентные функции доступны только через него

Google выпустила Interactions API в стабильной версии и сделала его основным интерфейсом для работы с моделями Gemini и ИИ-агентами, заменив прежний…

23 июня в 12:45 МСК5 мин