Ші у вивченні іноземних мов ... свіженька тортура з цього «поля»
Нещодавно отримав дуже веселий (і трохи болючий) досвід: створював генератор асоціацій для швидкого вивчення іноземних слів. Задум був такий: зробити розумну AI-систему, якій даєш цільову мову та трохи інформації про людину (її професію, життєвий досвід — це важливо для підбору ассоціацій дорослому), а вона видає асоціації, що намертво врізаються в пам’ять. Не просто набір схожих слів, а яскраві образи, які дорослій людині реально легко запам’ятати.

Ядром була модель, натренована на 9600 фонетичних українських та російських асоціаціях, створених людьми. «Глухоту» моделей обходив через IPA-транскрипції з наголосами: тобто порівнював не букви, а чисте звучання слів.
Логіка була проста: якщо модель бачить фонеми, вона має нормально знаходити звукові збіги. Вважав, що такої кількості даних вистачить для роботи з будь-якими іншими мовами, які захоче вивчити пан чи пані з України 😄.
Спочатку все йшло просто ідеально. З англійською, французькою, іспанською чи німецькою штучний інтелект творив магію: легко знаходив потрібні звуки й будував логічні речення. Здається іспанську на А1, читаючии ці ассоціації, я ве вивчив (жарт)) Як я тоді зрадів, що знайшов ідеальний рецепт!
А потім з’явилася литовська, турецька та ще кілька східних... Ті самі моделі та промпти в тому самому ПАЙПІ ламалися й генерували сміття, яке неможливо було запам’ятати (та грець із ним — це навіть читати було важко).
Здавалося б, IPA (транскрипція) мала стати універсальним ключем до будь-якої мови в цій задачі, проте в «НЕ РОМАНСЬКИХ» мовах є щось таке чарівне, чого ШІ поки що не до кінця розуміє😉.
3 коментарі
Додати коментар Підписатись на коментаріВідписатись від коментарівЗдається, ви (з моделлю) погано врахували аллофони і межі між реальними фонемами. Наприклад, в General American [ʌ] і [ɑ] обидві можуть зсуватись до [ɐ], а [æ] повзти вгору до [eə] чи навіть [ɪə]; в британській — навпаки, донизу до [a]. Інші мови теж можуть таким страждати. В німецькій [ɔ] нормально повзе до [o], а в словʼянських, по більшости, це заборонено (хоча є в болгарських і українських говірках). Ось такі речі дуже тяжко перевчити, і якщо модель сформована на одному мапінгу алофонів до фонем, на інші вона не підходить. Навіть в англійській між RP і GA, вже сказав, буде дуже приблизний збіг. Людина вміє перемикатись між такими моделями, після багаторічного навчання різним мовам. А у вас, напевно, все простіше.
В вашій розповіді максимально дивне, мені здається, те, що тренування на українській і російській дало легше розуміння англійської і німецької, ніж турецької. Якраз турецька має чіткі голосні і сінгармонію, схожу на східнословʼянську (наприклад /ɣɔ/ :: /gʲø/), я очікував би протилежного ефекту.
Ну і як саме у вас виглядали ті транскрипції? Наприклад, як позначалась палаталізація? Чи позначали дорсальний і альвеолярний характер приголосних як /t/, /d/?
Питання, питання...
В асоціаціях звучання не повинно передаватися 1 до 1. Головне щоб той, хто вивчає, згадав звуковий патерн для відбудови потрібного слова в пам’яті. Цілком достатньо збігу звучання на 80+%.
Ось приклад для литовського слова:
• valyklà [ва-ли-КЛА] — химчистка
• Асоціація: ВЕЛИКАн идет в ХИМЧИСТКУ
Тому для універсального підбору я робив так: спочатку IPA-транскрипцію переписував КИРИЛИЦЕЮ. Так само і транскрипцію цільової мови (до якої підбирав асоціацію) конвертував у кирилицю, намагаючись врахувати особливості звучання. Схоже, саме на цьому етапі все й зламалося зі східними мовами .... Конвертування в кирилицю мабудь просто зрізає їх унікальні фонеми ...
Цікаво, як ви кирилицею розрізняли навіть в англійській [a], [ɐ], [ɑ], і [ʌ].
Турецьку кирилиця здатна описати без великих проблем. Але яка саме у вас була конверсія — ХЗ.