Новое

Anthropic Обновила Skill Creator: Теперь Навыки ИИ-агентов Можно Тестировать Как Программы

Представьте: вы написали инструкцию для сотрудника, но не знаете, понял ли он её правильно. Раньше единственный способ проверить — дать ему реальную задачу и надеяться. Теперь Anthropic добавила «экзамен» для AI-навыков: запускаете тест — и видите, справляется агент или нет.

12 минут чтения Обновлено: 07.03.2026

Зачем Тестировать Навыки ИИ-агента

Вы написали навык (Skill) для своего AI-агента. Он отвечает клиентам, создаёт отчёты, обрабатывает заявки. Кажется, всё работает. Но откуда вы знаете, что он делает это правильно?

Вот реальная проблема: исследование ETH Zurich показало, что инструкции, написанные разработчиками для AI-агентов, улучшают качество работы всего на 4%. А некоторые инструкции даже ухудшают результат на 3%, при этом увеличивая затраты на 20%.

Проблема не в инструкциях, а в отсутствии проверки

Когда вы пишете навык без обратной связи, вы добавляете туда вещи, которые агент и так знает, смешанные с инструкциями, которые его путают. Результат: непредсказуемое поведение. Это как давать сотруднику инструкцию, которую никто ни разу не проверял на практике.

Аналогия: медицинский экзамен

Представьте, что вы нанимаете врача. Он показывает диплом — отлично. Но вы хотите убедиться, что он действительно умеет ставить диагнозы. Что делаете? Даёте ему тестовые случаи: «Вот симптомы, какой диагноз?» И проверяете ответы.

Exactly — именно это теперь делает Skill Creator для AI-навыков. Вы создаёте «экзаменационные билеты», агент их «сдаёт», а система автоматически проверяет результаты.

Что Конкретно Обновилось

Anthropic обновила свой инструмент Skill Creator — это встроенный навык в Claude Code, который помогает создавать другие навыки. Раньше он умел только писать черновики. Теперь он умеет тестировать, сравнивать и улучшать.

Автоматические тесты

Создаёте набор тестовых запросов с ожидаемыми результатами. Система сама запускает навык и проверяет, справился ли он.

A/B-сравнение версий

Написали новую версию навыка? Запустите обе на одних тестах и увидите, какая работает лучше. Объективно, с цифрами.

Оптимизация триггеров

Специальный инструмент анализирует описание навыка и улучшает его, чтобы навык активировался точно тогда, когда нужно.

Главное изменение одной строкой

Раньше: «Я написал навык и надеюсь, что он работает». Теперь: «Я написал навык и знаю, что он работает — вот результаты тестов».

Что ещё обновилось в Claude Code (март 2026)

Обновление Skill Creator — часть большого обновления Claude Code. Вот что ещё появилось:

  • Команда /loop — для повторяющихся задач по расписанию. Навыки теперь могут работать автоматически, без вашего участия.
  • Переменная ${CLAUDE_SKILL_DIR} — навыки теперь легко находят свои файлы, не зависят от расположения на диске.
  • Claude API Skill — готовый навык для работы с API Anthropic. Помогает строить приложения с использованием Claude.
  • Рекомендация по стилю — Anthropic советует не писать «ВСЕГДА» и «НИКОГДА» в навыках. Вместо жёстких правил — объяснять логику, почему нужно делать именно так.

Как Работает Тестирование Навыков

Тестирование навыка — это как устроить экзамен для сотрудника. Вы готовите задания, он их выполняет, а система проверяет ответы. Только всё происходит автоматически.

Шаг 1: Создаёте тестовый сценарий

Описываете ситуацию, которую навык должен уметь обрабатывать. Например, для навыка «Проверка JavaScript-кода»:

Пример тестового сценария

Запрос: «Проверь этот обработчик заказов на Express — есть ли проблемы?»

Что должен найти агент:

  • Входные данные не проверяются (валидация отсутствует)
  • Асинхронные вызовы внутри forEach не ожидаются
  • Сравнение через == вместо === (нестрогое сравнение)
  • Ошибки логируются через console.log (ненадёжно)
  • Функция validateOrder объявлена, но нигде не вызывается

Шаг 2: Система запускает навык

Специальные суб-агенты работают параллельно:

Исполнитель Запускает навык на тестовом запросе
Проверяющий Оценивает результат по критериям
Сравниватель Сравнивает две версии вслепую
Аналитик Находит скрытые паттерны в результатах

Шаг 3: Получаете результат

Система генерирует HTML-отчёт, в котором видно:

  • Процент прохождения — сколько критериев из тестов навык выполнил
  • Сравнение «с навыком» vs «без навыка» — насколько навык реально улучшает работу агента
  • Проблемные места — где навык ошибается и почему

Зачем сравнивать «с навыком» и «без»?

Иногда навык не даёт улучшений — модель и так справляется. Или, что хуже, навык ухудшает результат. Сравнение показывает реальную пользу навыка. Если разницы нет — значит, навык нужно переписать или убрать лишнее.

Четыре Режима Skill Creator

Обновлённый Skill Creator работает в четырёх режимах. Это как четыре инструмента в одном — для каждого этапа работы с навыком.

📝 Eval — Тестирование

Запускает навык на тестовых запросах и проверяет результаты по критериям. Показывает, какие задачи навык решает хорошо, а где ошибается. Как аттестация: «Давайте проверим, как сотрудник справляется».

🔧 Improve — Улучшение

На основе результатов тестов переписывает навык: исправляет ошибки, добавляет недостающие инструкции, убирает лишнее. Цикл «тест → улучшение → тест» повторяется до нужного качества.

📊 Benchmark — Замер

Сравнивает версии навыка между собой или с работой агента без навыка. Показывает конкретные цифры: «Версия 2 справляется на 15% лучше». Как финальный экзамен перед допуском к работе.

Цикл улучшения

На практике работа выглядит так:

  1. Create — написали навык
  2. Eval — прогнали тесты, увидели 70% прохождения
  3. Improve — доработали инструкции
  4. Eval — снова тесты, теперь 85%
  5. Improve — ещё раз доработали
  6. Benchmark — финальное сравнение: навык v3 на 40% лучше, чем без навыка

Это как итеративная доработка продукта: выпустил → получил обратную связь → улучшил → повторил.

Реальные Результаты: Кто Уже Тестирует Навыки

Тестирование навыков — не теория. Крупные компании уже используют этот подход и публикуют результаты.

Безопасность

Cisco — Software Security

Навык для написания безопасного кода. Проверяет 23 категории уязвимостей.

  • Общая оценка: 84%
  • Улучшение в 1.78 раза
  • Агент почти вдвое чаще пишет безопасный код
Результат: код безопаснее на 78%
Аудио

ElevenLabs — Text-to-Speech

Навык для работы с API озвучки текста.

  • Общая оценка: 93%
  • Улучшение в 1.32 раза
  • На 32% чаще правильно использует API
Результат: меньше ошибок интеграции
ML

Hugging Face — Tool Builder

Навык для создания инструментов через API Hugging Face.

  • Общая оценка: 81%
  • Улучшение в 1.63 раза
  • На 63% точнее работает с API
Результат: быстрее интеграция с ML

Почему цифры важны

Без тестов вопрос «хороший ли навык?» — это мнение. С тестами — это факт. Cisco может сказать: «Наш навык делает код безопаснее на 78%». Не «кажется, что работает лучше», а измеримый результат.

Интересное наблюдение

Когда разработчики Tessl протестировали навык для проверки JavaScript-кода на модели Claude Opus 4.6, оказалось, что результат с навыком и без навыка был одинаковый — 100%. Модель и так находила все ошибки.

Это не баг, а фича: тест показал, что навык нужно усложнить. Нет смысла учить агента тому, что он и так знает. Лучше сосредоточить навык на том, где модель действительно ошибается.

Что Это Значит Для Бизнеса

Если вы не разработчик и не планируете сами создавать навыки — вот почему это обновление важно для вас.

1. AI-агенты становятся надёжнее

Когда навыки тестируются, вы можете доверять им больше. Это как разница между «мы наняли человека с улицы» и «мы наняли человека, который прошёл три этапа собеседования и тестовое задание».

2. Можно измерить пользу

До этого обновления нельзя было объективно сказать, насколько навык улучшает работу агента. Теперь можно. Benchmark покажет: «С этим навыком агент обрабатывает заявки на 40% точнее». Это уже бизнес-метрика, которую можно показать руководству.

3. Навыки — это программное обеспечение

Смена парадигмы

Раньше навык воспринимался как «текстовый файлик с подсказками». Теперь Anthropic явно говорит: навык — это софт, который нужно тестировать, версионировать и поддерживать. Как любую программу в вашей компании.

4. Появляется рынок проверенных навыков

На маркетплейсах (ClawHub, Tessl Registry) появляются навыки с результатами тестирования. Вы видите: навык от Cisco — 84% прохождения, улучшение 1.78x. Навык от неизвестного автора — без тестов. Какой выберете?

Аспект Без тестирования С тестированием
Доверие «Вроде работает» «Проходит 93% тестов»
Обновления Молимся, что не сломается Автоматически проверяем
Выбор навыка По описанию и отзывам По результатам бенчмарков
ROI Сложно посчитать «Улучшение в 1.63x»

Как Начать Тестировать Свои Навыки

Если у вас уже есть AI-агент с навыками (или вы только думаете об этом), вот практический план:

Шаг 1: Определите, что тестировать

Начните с навыков, которые влияют на деньги или клиентов:

  • Ответы клиентам в чат-боте
  • Обработка заявок и лидов
  • Генерация документов (коммерческих предложений, договоров)
  • Работа с CRM (создание сделок, задач)

Шаг 2: Создайте тестовые сценарии

Для каждого навыка напишите 5-10 типичных ситуаций. Не абстрактные, а из реальной практики:

Плохой тест

«Клиент спрашивает о продукте. Агент должен ответить правильно.»

Слишком расплывчато — как проверить «правильно»?

Шаг 3: Запустите и итерируйте

В Claude Code скажите: «Протестируй мой навык [название]». Skill Creator создаст тесты, запустит их и покажет результат. Если навык не проходит какие-то проверки — доработайте его и повторите.

Совет: начните с малого

Не пытайтесь сразу протестировать все навыки. Выберите один самый важный, создайте для него 5 тестов, добейтесь 90%+ прохождения. Потом переходите к следующему. Качество важнее количества.

Шаг 4: Мониторьте регулярно

Модели обновляются каждые несколько недель. То, что работало на Claude Sonnet 4.5, может сломаться на Sonnet 4.6. Запускайте тесты после каждого обновления модели — это займёт пару минут, но сэкономит часы отладки.

Часто задаваемые вопросы

Добавили встроенные тесты (eval loop): теперь можно запускать навык на тестовых запросах, автоматически проверять результат по критериям, сравнивать версии между собой и оптимизировать описание навыка для более точного срабатывания. Раньше всё это приходилось делать вручную.

Нет. Skill Creator работает через Claude Code — вы общаетесь с ним словами. Говорите «создай навык для X» или «протестируй мой навык», и он сам генерирует тесты, запускает их и показывает результаты в удобном виде. Код писать не нужно.

Принцип похожий, но адаптирован для AI. В обычных тестах проверяют: функция вернула число 42. В eval-тестах проверяют: агент нашёл нужную проблему, дал структурированный ответ, не упустил важные детали. Это скорее экзамен, чем механическая проверка.

Сам Skill Creator — бесплатная часть Claude Code. Но для запуска тестов используются API-вызовы Claude, которые оплачиваются по стандартным тарифам. На практике тестирование одного навыка обходится в несколько долларов — зависит от количества тестов и модели.

Да, и это даже рекомендуется. Модели обновляются, и навык, который работал идеально на прошлой версии, может начать ошибаться на новой. Регулярное тестирование помогает ловить такие проблемы до того, как они повлияют на работу.

На GitHub Anthropic в репозитории github.com/anthropics/skills — там есть skill-creator с примерами eval-тестов. Также на реестре Tessl Registry (tessl.io/registry) опубликованы навыки с результатами тестирования от компаний вроде Cisco и ElevenLabs.

Если вы используете AI-агента для работы с клиентами, документами или CRM — создайте навык, протестируйте его на реальных сценариях и убедитесь, что он справляется. Это как тест-драйв для сотрудника перед допуском к реальной работе.

Источники

3 просмотров

Полезная статья?

Сохраните в закладки, чтобы не потерять

Ctrl + D