Pixtral 12B: нова мультимодальна AI-модель від Mistral для аналізу зображень і тексту
Французький стартап штучного інтелекту Mistral випустив свою першу модель, здатну обробляти як зображення, так і текст. Про це повідомляє TechCrunch.
Нова модель під назвою Pixtral 12B має 12 мільярдів параметрів та важить близько 24 ГБ. Параметри вказують на здатність моделі вирішувати задачі, і моделі з більшою кількістю параметрів, як правило, демонструють кращі результати.
Pixtral 12B побудована на основі текстової моделі Mistral під назвою Nemo 12B. Нова модель може відповідати на запитання щодо будь-якої кількості зображень будь-якого розміру, використовуючи URL-адреси або зображення, закодовані через base64 (схема перетворення даних). Подібно до інших мультимодальних моделей, таких як Anthropic’s Claude та OpenAI GPT-4, Pixtral 12B здатна виконувати завдання, як, наприклад, підписування зображень або підрахунок об’єктів на фото.
Pixtral 12B доступна для завантаження через торрент на GitHub та платформу Hugging Face. Її можна використовувати та адаптувати відповідно до ліцензії Apache 2.0 без обмежень.
Наразі доступних демоверсій Pixtral 12B немає, проте, за словами Софії Янг, голови відділу зв’язків з розробниками в Mistral, модель скоро буде доступна для тестування на платформах компанії — Le Chat та Le Plateforme.
Які саме дані зображень були використані для навчання Pixtral 12B, наразі невідомо.
Немає коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів