Содержание

Anthropic Обновила Skill Creator: Теперь Навыки Можно Тестировать | 2026

07.03.2026 • 1 мин чтения • 9 просмотров • 0 лайков

Зачем Тестировать Навыки ИИ-агента

Вы написали навык (Skill) для своего AI-агента. Он отвечает клиентам, создаёт отчёты, обрабатывает заявки. Кажется, всё работает. Но откуда вы знаете, что он делает это правильно?

Вот реальная проблема: исследование ETH Zurich показало, что инструкции, написанные разработчиками для AI-агентов, улучшают качество работы всего на 4%. А некоторые инструкции даже ухудшают результат на 3%, при этом увеличивая затраты на 20%.

Проблема не в инструкциях, а в отсутствии проверки

Когда вы пишете навык без обратной связи, вы добавляете туда вещи, которые агент и так знает, смешанные с инструкциями, которые его путают. Результат: непредсказуемое поведение. Это как давать сотруднику инструкцию, которую никто ни разу не проверял на практике.

Аналогия: медицинский экзамен

Представьте, что вы нанимаете врача. Он показывает диплом — отлично. Но вы хотите убедиться, что он действительно умеет ставить диагнозы. Что делаете? Даёте ему тестовые случаи: «Вот симптомы, какой диагноз?» И проверяете ответы.

Exactly — именно это теперь делает Skill Creator для AI-навыков. Вы создаёте «экзаменационные билеты», агент их «сдаёт», а система автоматически проверяет результаты.

Что Конкретно Обновилось

Anthropic обновила свой инструмент Skill Creator — это встроенный навык в Claude Code, который помогает создавать другие навыки. Раньше он умел только писать черновики. Теперь он умеет тестировать, сравнивать и улучшать.

Автоматические тесты

Создаёте набор тестовых запросов с ожидаемыми результатами. Система сама запускает навык и проверяет, справился ли он.

A/B-сравнение версий

Написали новую версию навыка? Запустите обе на одних тестах и увидите, какая работает лучше. Объективно, с цифрами.

Оптимизация триггеров

Специальный инструмент анализирует описание навыка и улучшает его, чтобы навык активировался точно тогда, когда нужно.

Главное изменение одной строкой

Раньше: «Я написал навык и надеюсь, что он работает». Теперь: «Я написал навык и знаю, что он работает — вот результаты тестов».

Что ещё обновилось в Claude Code (март 2026)

Обновление Skill Creator — часть большого обновления Claude Code. Вот что ещё появилось:

Команда /loop — для повторяющихся задач по расписанию. Навыки теперь могут работать автоматически, без вашего участия.
Переменная ${CLAUDE_SKILL_DIR} — навыки теперь легко находят свои файлы, не зависят от расположения на диске.
Claude API Skill — готовый навык для работы с API Anthropic. Помогает строить приложения с использованием Claude.
Рекомендация по стилю — Anthropic советует не писать «ВСЕГДА» и «НИКОГДА» в навыках. Вместо жёстких правил — объяснять логику, почему нужно делать именно так.

Как Работает Тестирование Навыков

Тестирование навыка — это как устроить экзамен для сотрудника. Вы готовите задания, он их выполняет, а система проверяет ответы. Только всё происходит автоматически.

Шаг 1: Создаёте тестовый сценарий

Описываете ситуацию, которую навык должен уметь обрабатывать. Например, для навыка «Проверка JavaScript-кода»:

Пример тестового сценария

Запрос: «Проверь этот обработчик заказов на Express — есть ли проблемы?»

Что должен найти агент:

Входные данные не проверяются (валидация отсутствует)
Асинхронные вызовы внутри forEach не ожидаются
Сравнение через == вместо === (нестрогое сравнение)
Ошибки логируются через console.log (ненадёжно)
Функция validateOrder объявлена, но нигде не вызывается

Шаг 2: Система запускает навык

Специальные суб-агенты работают параллельно:

Исполнитель Запускает навык на тестовом запросе

Проверяющий Оценивает результат по критериям

Сравниватель Сравнивает две версии вслепую

Аналитик Находит скрытые паттерны в результатах

Шаг 3: Получаете результат

Система генерирует HTML-отчёт, в котором видно:

Процент прохождения — сколько критериев из тестов навык выполнил
Сравнение «с навыком» vs «без навыка» — насколько навык реально улучшает работу агента
Проблемные места — где навык ошибается и почему

Зачем сравнивать «с навыком» и «без»?

Иногда навык не даёт улучшений — модель и так справляется. Или, что хуже, навык ухудшает результат. Сравнение показывает реальную пользу навыка. Если разницы нет — значит, навык нужно переписать или убрать лишнее.

Четыре Режима Skill Creator

Обновлённый Skill Creator работает в четырёх режимах. Это как четыре инструмента в одном — для каждого этапа работы с навыком.

🔨 Create — Создание

Вы описываете, что должен уметь навык. Skill Creator задаёт уточняющие вопросы, пишет черновик SKILL.md и создаёт первые тестовые сценарии. Как собеседование при найме: «Расскажите, что должен уметь этот сотрудник?»

📝 Eval — Тестирование

Запускает навык на тестовых запросах и проверяет результаты по критериям. Показывает, какие задачи навык решает хорошо, а где ошибается. Как аттестация: «Давайте проверим, как сотрудник справляется».

🔧 Improve — Улучшение

На основе результатов тестов переписывает навык: исправляет ошибки, добавляет недостающие инструкции, убирает лишнее. Цикл «тест → улучшение → тест» повторяется до нужного качества.

📊 Benchmark — Замер

Сравнивает версии навыка между собой или с работой агента без навыка. Показывает конкретные цифры: «Версия 2 справляется на 15% лучше». Как финальный экзамен перед допуском к работе.

Цикл улучшения

На практике работа выглядит так:

Create — написали навык
Eval — прогнали тесты, увидели 70% прохождения
Improve — доработали инструкции
Eval — снова тесты, теперь 85%
Improve — ещё раз доработали
Benchmark — финальное сравнение: навык v3 на 40% лучше, чем без навыка

Это как итеративная доработка продукта: выпустил → получил обратную связь → улучшил → повторил.

Реальные Результаты: Кто Уже Тестирует Навыки

Тестирование навыков — не теория. Крупные компании уже используют этот подход и публикуют результаты.

Безопасность

Cisco — Software Security

Навык для написания безопасного кода. Проверяет 23 категории уязвимостей.

Общая оценка: 84%
Улучшение в 1.78 раза
Агент почти вдвое чаще пишет безопасный код

Результат: код безопаснее на 78%

Аудио

ElevenLabs — Text-to-Speech

Навык для работы с API озвучки текста.

Общая оценка: 93%
Улучшение в 1.32 раза
На 32% чаще правильно использует API

Результат: меньше ошибок интеграции

Hugging Face — Tool Builder

Навык для создания инструментов через API Hugging Face.

Общая оценка: 81%
Улучшение в 1.63 раза
На 63% точнее работает с API

Результат: быстрее интеграция с ML

Почему цифры важны

Без тестов вопрос «хороший ли навык?» — это мнение. С тестами — это факт. Cisco может сказать: «Наш навык делает код безопаснее на 78%». Не «кажется, что работает лучше», а измеримый результат.

Интересное наблюдение

Когда разработчики Tessl протестировали навык для проверки JavaScript-кода на модели Claude Opus 4.6, оказалось, что результат с навыком и без навыка был одинаковый — 100%. Модель и так находила все ошибки.

Это не баг, а фича: тест показал, что навык нужно усложнить. Нет смысла учить агента тому, что он и так знает. Лучше сосредоточить навык на том, где модель действительно ошибается.

Что Это Значит Для Бизнеса

Если вы не разработчик и не планируете сами создавать навыки — вот почему это обновление важно для вас.

1. AI-агенты становятся надёжнее

Когда навыки тестируются, вы можете доверять им больше. Это как разница между «мы наняли человека с улицы» и «мы наняли человека, который прошёл три этапа собеседования и тестовое задание».

2. Можно измерить пользу

До этого обновления нельзя было объективно сказать, насколько навык улучшает работу агента. Теперь можно. Benchmark покажет: «С этим навыком агент обрабатывает заявки на 40% точнее». Это уже бизнес-метрика, которую можно показать руководству.

3. Навыки — это программное обеспечение

Смена парадигмы

Раньше навык воспринимался как «текстовый файлик с подсказками». Теперь Anthropic явно говорит: навык — это софт, который нужно тестировать, версионировать и поддерживать. Как любую программу в вашей компании.

4. Появляется рынок проверенных навыков

На маркетплейсах (ClawHub, Tessl Registry) появляются навыки с результатами тестирования. Вы видите: навык от Cisco — 84% прохождения, улучшение 1.78x. Навык от неизвестного автора — без тестов. Какой выберете?

Аспект	Без тестирования	С тестированием
Доверие	«Вроде работает»	«Проходит 93% тестов»
Обновления	Молимся, что не сломается	Автоматически проверяем
Выбор навыка	По описанию и отзывам	По результатам бенчмарков
ROI	Сложно посчитать	«Улучшение в 1.63x»

Как Начать Тестировать Свои Навыки

Если у вас уже есть AI-агент с навыками (или вы только думаете об этом), вот практический план:

Шаг 1: Определите, что тестировать

Начните с навыков, которые влияют на деньги или клиентов:

Ответы клиентам в чат-боте
Обработка заявок и лидов
Генерация документов (коммерческих предложений, договоров)
Работа с CRM (создание сделок, задач)

Шаг 2: Создайте тестовые сценарии

Для каждого навыка напишите 5-10 типичных ситуаций. Не абстрактные, а из реальной практики:

Плохой тест

«Клиент спрашивает о продукте. Агент должен ответить правильно.»

Слишком расплывчато — как проверить «правильно»?

Хороший тест

«Клиент спрашивает: Сколько стоит подписка на год?» Агент должен: 1) Назвать цену 5000₽/мес. 2) Упомянуть скидку за год. 3) Дать ссылку на оплату.»

Шаг 3: Запустите и итерируйте

В Claude Code скажите: «Протестируй мой навык [название]». Skill Creator создаст тесты, запустит их и покажет результат. Если навык не проходит какие-то проверки — доработайте его и повторите.

Совет: начните с малого

Не пытайтесь сразу протестировать все навыки. Выберите один самый важный, создайте для него 5 тестов, добейтесь 90%+ прохождения. Потом переходите к следующему. Качество важнее количества.

Шаг 4: Мониторьте регулярно

Модели обновляются каждые несколько недель. То, что работало на Claude Sonnet 4.5, может сломаться на Sonnet 4.6. Запускайте тесты после каждого обновления модели — это займёт пару минут, но сэкономит часы отладки.

Часто задаваемые вопросы

Источники

Частые вопросы

Anthropic обновила встроенный инструмент Skill Creator в Claude Code. Раньше он умел только писать черновики навыков. Теперь он умеет автоматически тестировать, сравнивать версии A/B и оптимизировать триггеры навыков.

Исследование ETH Zurich показало: инструкции, написанные разработчиками для AI-агентов, улучшают качество работы всего на 4%. Некоторые инструкции даже ухудшают результат на 3%, увеличивая затраты на 20%. Без тестирования нельзя знать, работает ли навык правильно.

Вы создаёте набор тестовых запросов с ожидаемыми результатами — «экзаменационные билеты». Skill Creator сам запускает навык на каждом тесте и проверяет, справился ли он. Это превращает «надеюсь, что работает» в «знаю, что работает».

A/B-сравнение позволяет запустить две версии навыка на одном наборе тестов и увидеть объективные результаты с цифрами. Это заменяет субъективную оценку «кажется, новая версия лучше» на данные.

Специальный инструмент анализирует описание навыка и улучшает его, чтобы навык активировался точно тогда, когда нужно — и не активировался, когда не нужно. Это решает проблему ложных срабатываний.

Вместе с обновлением Skill Creator вышли: команда /loop для повторяющихся задач по расписанию, переменная ${CLAUDE_SKILL_DIR} для надёжного поиска файлов навыков, готовый Claude API Skill для работы с API Anthropic.

Навыки (Skills) в Claude Code — это файлы инструкций (SKILL.md) с триггерными фразами и поведением. Skill Creator — встроенный инструмент Claude Code, который помогает создавать, тестировать и улучшать эти навыки.

        Понравилась статья? Поставь лайк.
      

Нужна ИИ-автоматизация под ваш бизнес?

Запишитесь на бесплатную консультацию — обсудим задачу и пришлём готовое решение.

Обсудить проект →