Magentic-UI: Багатоагентний веб-інтерфейс для автоматизації складних завдань
Огляд
Magentic-UI — це новаторський науково-дослідний прототип, який впроваджує агентний підхід до автоматизації складних веб-завдань. Система розроблена для безперебійної співпраці між людьми та AI-агентами, поєднуючи декілька спеціалізованих агентів під управлінням інтелектуального Оркестратора. Вона забезпечує прозорість, контроль і високу гнучкість у виконанні завдань.




Основна архітектура
Magentic-UI побудований на команді з п’яти агентів, що працюють у модульній архітектурі:
- Оркестратор: Центральний блок управління на основі великої мовної моделі (LLM). Планує, координує та делегує завдання.
- WebSurfer: Агент, що керує браузером і здатен взаємодіяти з веб-сторінками — натискати, прокручувати, вводити текст і використовувати навігацію.
- Coder: Програмувальний агент, який пише та виконує скрипти на Python або shell у контейнері Docker.
- FileSurfer: Опрацьовує файли, використовуючи інструменти для конвертації документів та відповідає на запити, пов’язані з файлами.
- UserProxy: Взаємодіє з користувачем для схвалення, зворотного зв’язку та спільного планування.
Ключові функції
🧑🤝🧑 Спільне планування
Користувачі та Оркестратор спільно створюють покроковий план виконання. Інтерфейс дозволяє додавати, змінювати, видаляти або перегенеровувати кроки для оптимального планування.
🤝 Спільне виконання завдань
Виконання завдань є кооперативним процесом. Агенти виконують підзадачі, постійно інтегруючи зворотний зв’язок у реальному часі.
🛡️ Захист дій
Чутливі або потенційно небезпечні операції потребують підтвердження від користувача, що забезпечує повну прозорість і контроль.
🧠 Навчання на основі планів
Система адаптується з часом, навчаючись на основі попередніх планів і взаємодії з користувачем, підвищуючи ефективність наступних виконань.
Як працює Magentic-UI

- Взаємодія: Користувач вводить ціль у текстовій формі (також можна додати зображення). Оркестратор створює план у вигляді природної мови.
- Виконання плану: Для кожного кроку Оркестратор обирає відповідного агента або запитує дії від користувача.
- Керування кроками: Після отримання відповіді Оркестратор перевіряє її завершеність перед переходом до наступного кроку.
- Адаптивність: Якщо якийсь крок не вдається (наприклад, сайт недоступний), система переплановує дії за згодою користувача.
- Завершення: Після завершення всіх кроків користувач отримує фінальне резюме.
Увесь процес є інтерактивним, візуальним і доступним для редагування користувачем у будь-який момент.
Початок роботи
Необхідне середовище
- Python 3.10+
- Docker
- WSL2 (тільки для Windows)
- Ключ OpenAI API
Установка через PyPI
python3 -m venv .venv source .venv/bin/activate pip install magentic-ui export OPENAI_API_KEY=<ВАШ_API_КЛЮЧ> magentic ui —port 8081
Відкрийте localhost:8081, щоб запустити інтерфейс.
Розширене налаштування
Використання конфігураційного файлу
Для налаштування власних API-ключів або переходу на Azure OpenAI, створіть файл config.yaml у каталозі ~/.magentic_ui. Приклад:
model_config: &client provider: autogen_ext.models.openai.OpenAIChatCompletionClient config: model: gpt-4o api_key: <ВАШ API КЛЮЧ> max_retries: 10 orchestrator_client: *client coder_client: *client web_surfer_client: *client file_surfer_client: *client action_guard_client: *client
Для інтеграції з Azure замініть provider і додайте ваш endpoint, deployment name та метод автентифікації.
Збірка з вихідного коду
Клонування репозиторію
git clone github.com/...microsoft/magentic-ui.git cd magentic-ui
Налаштування Python-середовища
uv venv —python=3.12 .venv uv sync —all-extras source .venv/bin/activate
Збірка інтерфейсу
# Встановіть Node через nvm curl -o- raw.githubusercontent.com/...sh/nvm/v0.40.1/install.sh | bash nvm install node # Встановіть залежності cd frontend npm install -g gatsby-cli npm install —global yarn yarn install yarn build cd ..
Запуск Magentic-UI
magentic ui —port 8081
Для розробки інтерфейсу (frontend) окремо:
cd frontend cp .env.default .env.development npm run start
- Інтерфейс для розробки: localhost:8000
- Інтерфейс для продакшну: localhost:8081
Участь у розробці
Magentic-UI — це проєкт з відкритим кодом під ліцензією Microsoft Open Source Code of Conduct. Ви можете долучитися через pull-запити або рецензування задач.
Перед внесенням змін:
- Підпишіть Угоду Ліцензії Учасника (CLA).
- Запустіть локальні тести:
poe check
Висновок
Magentic-UI переосмислює співпрацю між AI-системами та людьми у веб-середовищі. Завдяки потужній оркестрації агентів, чіткій сегментації завдань та прозорості під контролем користувача, він слугує еталоном для майбутніх інтерфейсів спільної роботи людини й штучного інтелекту. Якщо ви розробник, дослідник або ентузіаст — Magentic-UI надає надійну й розширювану платформу для створення інтелектуальних інструментів веб-автоматизації.
Немає коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів