Advertising
Новости
К списку новостей

8 декабря 2025
Кипрский греческий получает голос в технологиях: создана первая ИИ-модель точного распознавания диалекта

Никосия, Кипр. Команда из трех специалистов разработала первую в своем роде ИИ-модель преобразования речи в текст, которая точно распознает кипрский греческий — диалект, с которым большинство глобальных голосовых систем традиционно не справляется.


Прорыв для малоресурсных языков

Менеджер AI-продуктов Игорь Акимов совместно со стажерами Хуссейном Хадрой (Университет Никосии) и Никитой Марковым (UCLan Cyprus) создали автоматическую систему распознавания речи (ASR), специально адаптированную под фонетику и структуру кипрского диалекта.
Система позволяет пользователю говорить в микрофон, после чего алгоритм преобразует кипрскую речь в точный текст — и этот механизм уже может интегрироваться:

  • в голосовые ассистенты;
  • службы автоматического перевода;
  • системы call-центров;
  • образовательные платформы;
  • медицинские информационные системы.

Практическое применение: от медицины до сохранения культурного наследия

По словам разработчиков, модель имеет широкий спектр применения:

  1. Здравоохранение: автоматическая транскрипция речи пациентов, особенно пожилых, в медицинские карты без ручного ввода.
  2. Бизнес: голосовые боты начинают понимать реальный диалект клиентов, а не только стандартный греческий.
  3. Образование и культура: оцифровка архивов, сохранение устного наследия и модернизация учебных инструментов.
  4. Глобальная лингвистика: методология может быть применена к любому малоресурсному языку в мире.

Главная проблема — отсутствие данных

Команда столкнулась с ключевым вызовом: отсутствием качественных датасетов.
Исследовательские организации отказались помочь — у одних данные были утеряны, другие просили непомерные суммы. Даже Meta, собравшая корпус по 1600 языкам, не имела ни одного часа кипрской речи.

Чтобы построить корпус «с нуля», команда вручную собирала аудио:

  • телепередачи;
  • радиопередачи;
  • подкасты;
  • аудиокниги.

Так был создан крупнейший в истории набор кипрско-греческих аудиоданных.


Как обучали модель

  1. Фаза 1: Бытовая речь. Алгоритм изучал естественные особенности диалекта: ритм, интонации, фонетику.
  2. Фаза 2: Профессиональная речь. Новости и радио улучшили точность и снизили уровень ошибок.
  3. Фаза 3: KenLM. Языковая модель помогла ИИ выбирать наиболее вероятные слова в контексте.
  4. Фаза 4: Обратная связь от носителей.
    Создана платформа, где пользователи исправляют ошибки ИИ — и эти правки тут же идут в обучение модели.

Все это реализовано при бюджете всего 150 долларов, благодаря оптимизации и использованию облачных сервисов.


Проект нуждается в помощи: требуется больше данных

Команда собрала уже около 300 часов кипрской речи, однако для создания лучшей в мире модели требуется значительно больше.

Каждый желающий может помочь, потратив 10–15 минут на проверку транскрипции аудио на платформе проекта:

voiceofcyprus.org

По словам Акимова:

“Даже несколько минут работы волонтёров могут существенно улучшить модель. Мы хотим, чтобы каждый киприот мог говорить на своем диалекте — и быть при этом понятным технологиями”.


Как вы считаете, может ли такая инициатива стать основой для полноценного цифрового сохранения кипрского греческого диалекта и послужить моделью для других малых языков?

Показать комментарии
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии