Спроба навайбкодити голосовий додаток для Android «OK Google, ...»

💡 Усі статті, обговорення, новини про Mobile — в одному місці. Приєднуйтесь до Mobile спільноти!

Мета: Навайбкодити додаток для Android через який голосом! можна буде керувати пристроем через MQTT.

Так як я зовсім ніколи таким не займався (розробкую для Android), то вирішив зробити це через сучасний підхід «вайб-кодінгу» :-)

Поставив Android Studio, підключів туди Gemeni, телефон. Поставив задачу Gemini.

Через декілька ітерацій, отримав додаток (Kotlin), який використовував SpeechRecognizer, розпізнавав фрази (наприклад: «відчини ворота») і реагував на них визваючи метод в коді.

Але... це не підходить, бо таким чином додаток постійно займає мікрофон, ну і мабуть для батареї це не дуже.

Та і користувачі будуть не в захваті що в них постійно телефон щось слуха (та показує індікацію).

Я ж правий?

То ж запитав, а чи можна це зробити через асистента? Типу «OK Google, відчини ворота за допомогю <ім’я додатку>» і команда полетіла мені в додаток.

Gemini сказав, що так, можна. Переписав код. Тепер я маю отримувати реакцію в ...


private fun handleIntent(intent: Intent)

І тут вже все перестало працювати, ніякіх визовів я не отримую, Gemini агент, весь час щось пробує переписати але нефіга то не працює.

Google Asistant на телефоні, теж весь час якусь фігню стелить у відповід на мої команди, що навіть і коментувати не хочеться, бо починає потрохи дратувати.

В мене вже виникла, підозра а чи можливо це якось у принципі. Чи може Gemini щось не так робе.

Чи де є якісь приклади коду таких додатків. Чи я напоровся на цю фігню, коли LLM-ка хоче допомогти і робе фігню?

Буду дуже вдячний за поради чи приклади таких проектів (можливо й код).

👍ПодобаєтьсяСподобалось0
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Знавці iOS, чи можна щось подібне робити для айфонів? чи там ще менше варіантів ніж на андроід?

То вам вдалося зробити це чи ні?
Я все більше бачу потребу в такій інтеграції для себе

Ні. На те є дві причини:
1) Я писав нижче:

OPEN_APP_FEATURE

dou.ua/...​rums/topic/57054/#3053046 але то можна було б обійти наприклад START actions (я читав що він працює нормально, але сам не пробував).

2) І причина номер два, мабуть сама велика... коли в машині підключено Google Android Auto, то... сюрпрайз сюрпрайз!! Ніякі голосові actions працювати не будуть. Я пробував навіть на аплікухах, які нормально працюють (наприклад, часи, установка будильника, таймера тощо). Так працюють нормально, як тільки підключаєш Android Auto, голосовий помічник Google змінюється на щось тупувате (це навіть не Google Assistant), який ніфіга не відстрелює, що від нього хочуть.
Я так розумію, це зроблено Google-ом навмисно, «за для нашої безпеки». По тій же причині, наприклад, для додатків під Android Auto неможна зробити кастомниій UI. Можна використовувати тільки декілька шаблонів які дозволяє Google а от млять зробити 4-ри велікі кнопки у моему випадку щоб керувати воротами та гаражками — не можна.

От така х.. малята.

Але якщо тобі Android Auto не потрібно, то ось посилання на тікет гуглу issuetracker.google.com/u/3/issues/481519334
Там є архів з моїм проєктом.
На цей час він успішно показує Actions (треба затиснути іконку), ну і щоб Google їх проіндексував, потрібно мати Google Play Console акаунт (одноразово 20 баксів).

...видно що ви абсолютно не розумієте як працює андроід, і ніякий вайбкодинг тут вам не допоможе. я би радив зекономити час і, якщо вже так хочеться, — навайбкодити щось на фронтенді, там воно заведеться і успіху буде більше (він взагалі буде).

Зачекай. Так адепти вайбкодінгу кажуть, що нічого не потрібно розуміти

:))) не будемо їх переконувати у зворотньому

Ну то ж відкрий нам очі! Чому OPEN_APP_FEATURE не працює нормально?

я до вас на ви, а ви мені на ти — це некрасиво і некультурно. а тому — відкривайте свої очі самостійно пліз. чат-жпт і джеміні в поміч :)))

Підкажіть будь ласка як ви підключили Gemini в андроід студіо? Бо зараз це недоступно в Україні. Як обійти це?

А його потрібно якось підключити окремо в AS? Я писав код в AS і тестував на телефоні. Там Gemini вже за замовчуванням (в мене Galaxy S24 Ultra, та Poco M3).

Якщо комусь цікаво, продовження цієї історії. Я таки розібрався що потрібно робити.. але, воно не працює. Хоч документація стверджує що повинно. Принаймі BII actions.intent.OPEN_APP_FEATURE у мене не запрацювало через активацію голосом.

Я зробив тут тему: support.google.com/...​d=14399196645535299842-EU

але потім знайшов там же ще декілька таких:
support.google.com/...​id=6099753826236131625-EU
support.google.com/...​id=6099753826236131625-EU

І схоже що Google-у пофігу.

ось тут усі найновіші моделі гугла.. мабуть тобі потрібна вкладка аудіо.. пробуй, потім розкажеш..

aistudio.google.com/prompts/new_chat

Совет тут только один — учить программирование а не заниматся фигней.

Ой спасибо! Записал, на бумажку, наклею на алтарь где у меня советы от гуру висят.

Ну продовжуй мучити свій Gemini поки не запрацює.
Якщо все таки не працює, то спробуй все спочатку.
Якщо не працює, то спробуй інший агент — Claude Code, Cursor etc

Якщо те що ти хочеш впринципі зробити можна, то рано чи пізно вони знайдуть

У мене вже сумніви щодо ОК Google ... Воно взагалі такий додаток можливий? Бо продовжувати лупитись об стіну, така собі ідея.

Я не використовув OK Google. Він в принципі на щось реагує? Може його якось включити треба.
Якщо реагує, але не запускає твій додаток то треба дізнатися чи підкючення додаткових додатків взагалі можливе.

Гугл каже, що можна додати свої додатки щоб слузали після фрази Ok google

Мені теж каже. Але якийсь простий робочий екзампл з якогось SDK, був би вартий тисячі слів. Я поки такий не знайшов.

Підписатись на коментарі