Magentic-UI: Багатоагентний веб-інтерфейс для автоматизації складних завдань

Огляд

Magentic-UI — це новаторський науково-дослідний прототип, який впроваджує агентний підхід до автоматизації складних веб-завдань. Система розроблена для безперебійної співпраці між людьми та AI-агентами, поєднуючи декілька спеціалізованих агентів під управлінням інтелектуального Оркестратора. Вона забезпечує прозорість, контроль і високу гнучкість у виконанні завдань.

Magentic-UI Landing

Co-Planning UI

Co-Tasking UI

Action Guard UI

Основна архітектура

Magentic-UI побудований на команді з п’яти агентів, що працюють у модульній архітектурі:

  • Оркестратор: Центральний блок управління на основі великої мовної моделі (LLM). Планує, координує та делегує завдання.
  • WebSurfer: Агент, що керує браузером і здатен взаємодіяти з веб-сторінками — натискати, прокручувати, вводити текст і використовувати навігацію.
  • Coder: Програмувальний агент, який пише та виконує скрипти на Python або shell у контейнері Docker.
  • FileSurfer: Опрацьовує файли, використовуючи інструменти для конвертації документів та відповідає на запити, пов’язані з файлами.
  • UserProxy: Взаємодіє з користувачем для схвалення, зворотного зв’язку та спільного планування.

Ключові функції

🧑🤝🧑 Спільне планування

Користувачі та Оркестратор спільно створюють покроковий план виконання. Інтерфейс дозволяє додавати, змінювати, видаляти або перегенеровувати кроки для оптимального планування.

🤝 Спільне виконання завдань

Виконання завдань є кооперативним процесом. Агенти виконують підзадачі, постійно інтегруючи зворотний зв’язок у реальному часі.

🛡️ Захист дій

Чутливі або потенційно небезпечні операції потребують підтвердження від користувача, що забезпечує повну прозорість і контроль.

🧠 Навчання на основі планів

Система адаптується з часом, навчаючись на основі попередніх планів і взаємодії з користувачем, підвищуючи ефективність наступних виконань.

Як працює Magentic-UI

Magentic-UI

  1. Взаємодія: Користувач вводить ціль у текстовій формі (також можна додати зображення). Оркестратор створює план у вигляді природної мови.
  2. Виконання плану: Для кожного кроку Оркестратор обирає відповідного агента або запитує дії від користувача.
  3. Керування кроками: Після отримання відповіді Оркестратор перевіряє її завершеність перед переходом до наступного кроку.
  4. Адаптивність: Якщо якийсь крок не вдається (наприклад, сайт недоступний), система переплановує дії за згодою користувача.
  5. Завершення: Після завершення всіх кроків користувач отримує фінальне резюме.

Увесь процес є інтерактивним, візуальним і доступним для редагування користувачем у будь-який момент.

Початок роботи

Необхідне середовище

  • Python 3.10+
  • Docker
  • WSL2 (тільки для Windows)
  • Ключ OpenAI API

Установка через PyPI

python3 -m venv .venv
source .venv/bin/activate
pip install magentic-ui
export OPENAI_API_KEY=<ВАШ_API_КЛЮЧ>
magentic ui —port 8081

Відкрийте localhost:8081, щоб запустити інтерфейс.

Розширене налаштування

Використання конфігураційного файлу

Для налаштування власних API-ключів або переходу на Azure OpenAI, створіть файл config.yaml у каталозі ~/.magentic_ui. Приклад:

model_config: &client
provider: autogen_ext.models.openai.OpenAIChatCompletionClient
config:
model: gpt-4o
api_key: <ВАШ API КЛЮЧ>
max_retries: 10
orchestrator_client: *client
coder_client: *client
web_surfer_client: *client
file_surfer_client: *client
action_guard_client: *client

Для інтеграції з Azure замініть provider і додайте ваш endpoint, deployment name та метод автентифікації.

Збірка з вихідного коду

Клонування репозиторію

git clone github.com/...​microsoft/magentic-ui.git
cd magentic-ui

Налаштування Python-середовища

uv venv —python=3.12 .venv
uv sync —all-extras
source .venv/bin/activate

Збірка інтерфейсу

# Встановіть Node через nvm
curl -o- raw.githubusercontent.com/...​sh/nvm/v0.40.1/install.sh | bash
nvm install node
# Встановіть залежності
cd frontend
npm install -g gatsby-cli
npm install —global yarn
yarn install
yarn build
cd ..

Запуск Magentic-UI

magentic ui —port 8081

Для розробки інтерфейсу (frontend) окремо:

cd frontend
cp .env.default .env.development
npm run start

Участь у розробці

Magentic-UI — це проєкт з відкритим кодом під ліцензією Microsoft Open Source Code of Conduct. Ви можете долучитися через pull-запити або рецензування задач.

Перед внесенням змін:

  • Підпишіть Угоду Ліцензії Учасника (CLA).
  • Запустіть локальні тести:
poe check

Висновок

Magentic-UI переосмислює співпрацю між AI-системами та людьми у веб-середовищі. Завдяки потужній оркестрації агентів, чіткій сегментації завдань та прозорості під контролем користувача, він слугує еталоном для майбутніх інтерфейсів спільної роботи людини й штучного інтелекту. Якщо ви розробник, дослідник або ентузіаст — Magentic-UI надає надійну й розширювану платформу для створення інтелектуальних інструментів веб-автоматизації.

👍ПодобаєтьсяСподобалось1
До обраногоВ обраному1
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Підписатись на коментарі