Тестували Llama Guard як перший шар перед RAG-запитом — він значно легший за full-size модель у ролі судді і для класифікації шкідливих намірів точніший.
Тестували Llama Guard як перший шар перед RAG-запитом — він значно легший за full-size модель у ролі судді і для класифікації шкідливих намірів точніший.
Тестували Llama Guard як перший шар перед RAG-запитом — він значно легший за full-size модель у ролі судді і для класифікації шкідливих намірів точніший.
до речі на рахунок захисту, думаю всі LLM провайдери надають додатково (чи йде по замовчуванню) prompt injection protection — наприклад Azure, learn.microsoft.com/...s/concepts/content-filter
Microsoft Foundry includes a content filtering system that works alongside core models and image generation models and is powered by Azure AI Content Safety. This system runs both the prompt and completion through an ensemble of classification models designed to detect and prevent the output of harmful content.Сам...
Якщо ви справді вважаєте, що текстовий джейлбрейк у 2026-му — це щось із розряду міфів
не з розряду міфів звичайно, але конкретно в цьому випадку з AI-помічником на сайті як я писав вище ваше твердження притягнуте за вуха
А потім мамкин хакер (ша)...
Якщо ви справді вважаєте, що текстовий джейлбрейк у 2026-му — це щось із розряду міфів, то ви або занадто вірите в RLHF, або просто не виходите за межі системних промптів від розробника. Щодо H0: ви знову плутаєте поняття.
LMGIFU? Чи вам просто ліньки довести H0 гіпотезу? Поки що виглядає як спроба згенерувати контент на порожньому місці. Чекаю на пруфи що не можливо, а не на «я так відчуваю» А за те що прочитаний заголовок пейперу респект. Там ще список літератури є )
на соловїній про бабцю ))
нас не провести) стаття про Image-based Prompt Injection — тому бабця і grandma актуальні) — ви покажіть приклади як через text можна зламати сучасні LLM моделі
А що саме обгрунтувати? Трохи незрозуміло )
які вже давним-давно захищені
а народ то не знає ), і якусь прутню пише, замість того, щоб на соловїній про бабцю )) чисто залишу це тут arxiv.org/html/2603.03637v1 там ще дата є )
ну якщо токенів вистачить ) про Intent Classifier та чистку від Injection
який сенс цього коменту? так security завжди важлива, але як я написав вище в цьому випадку ви радше хочете показати вашу обізнаність і не обізнаність інших?
Коментарі