Мова – об’єкт, який можна описати

23 квітня до Інституту філології завітала з лекцією Мар’яна Романишин, представник компанії Grammarly. Кафедра української мови та прикладної лінгвістики готує бакалаврів та магістрів з цієї спеціальності. Але чомусь новому можна буде навчитися на літній безкоштовній школі CompLing Summer School-2019 від Grammarly. Інтенсив-курс триватиме з 8 по 13 липня у Києві. Поки ж Мар’яна окреслила, чим займається компанія, розказала про опрацювання природньої мови програмами та трохи розповіла про необхідні навички для комп’ютерного лінгвіста.

Прикладники вивчають мову не як мову, а як явище: знаходять закономірності на всіх рівнях, пишуть спеціальні програми з різними цілями. Мета NLP-технологій для фахівців – розпізнати текст (усний чи письмовий). Напрацюваннями користуємося щодня. Це й особисті помічники, і підказки для клавіатури, і автовиправлення помилок. Програм безліч. Хоча на базі української можливі застосунки почали розроблятися нещодавно, однак з англійською навчилися аналізувати, генерувати та трансформувати мову. Наприклад, фільтрують спам та образливі тексти. Цікавий сентимент-аналіз: скажімо, відома людина вчинила чи сказала щось, на з’явилася реакція в мережі. Технологія дозволяє виявити, як сприйняли подію люди. Це може бути й доволі складно. У реченні «Якби вона була добрішою» немає жодного слова з негативною семантикою, однак програма мусить розпізнати в ній негативну емоцію.

Непростим є розпізнання гумору, іронії, сарказму в текстах. Досліджують такі речі за когнітивними ознаками. Однак навіть звичайному філологу складно вловити межу іронії та сарказму, а запрограмувати машину, аби за мовними елементами вона точно впізнала жарт – завдання для завзятих! Корисним є дотування інформації. Наприклад, є неструктурований текст. Із нього маємо виокремити основні поняття чи дійвоих осіб і подати в базу. Як каже пані Мар’яна, комп’ютерні лінгвісти – дуже ліниві люди! Вони майже нічого не роблять вручну, а радше створять застосунок. Усі ми, надто філологи, знайомі з машинним перекладом. Це є приклад перетворення текстів. Інший – виправлення помилок (фактично переклад із неправильної мови правильною). Перетворюються також усний текст на письмовий і навпаки. На іспитах студентам був би корисним додаток автореферування тексту. Це коли маємо 300 сторінок підручника, а потрібні 30, але по суті. Спрощення тексту – ще один тип транформації у комп’ютерній лінгвістиці. Його розробляють для тих, хто починає вивчати мову, для нефахівців із певної теми, для людей із вадами здоров’я. Пані Мар’яна також розповіла про анонімізацію тексту (коли зв’язки та суть лишаються, замінюють тільки імена та вказівки часу й місця), про питально-відповідальні системи (прикладом є Гугл, він працює за базою пошуку).

Щодо генерування мови дізналися про боти, які використовуються на форумах, у відеоіграх тощо. Також створення кінцівки історії – Story Close Task як приклад. Існують уже й перші книжки, написані не авторами, а згенеровані програмою. Генерують стилі: як написати «Анну Кареніну» в стилі Муракамі?

Що ж потрібно знати, аби бути чарівником – комп’ютерним лінгвістом – і допомагати людям швидко дізнаватися інформацію, перевіряти тексти, перекладати, розважатися тощо? Прикладники мусять вміти працювати з комп’ютером, із текстом, знати структурну лінгвістику (чому точно навчать в Інституті філології), NLP-технології. Комп’ютерний лінгвіст знайде закономірності, автоматизує їх, запрограмує на потрібну задачу. Важливі нюанси на всіх рівнях мов, від фонетики до морфемного аналізу, семантики, складних синтаксичних конструкцій. Але фахівець навчиться поратися із лінгвістичними неоднозначностями та навчить цьому машину. Тож якщо ви маєте навички програмування, непогно володієте англійською та вивчали структурну лінгвістику, Мар’яна буде рада доповнити знання юних прикладників на літній школі від Grammarly.

Юлія Кузьменко

Категорії: