Опубликовано: 22 декабря 2025

Генеративный ИИ обучен лишь нескольким из 7000 языков мира. Проблема ошибок и предвзятости.

Для обеспечения позитивного будущего важно с самого начала уделять приоритетное внимание ответственному проектированию и внедрению технологий. Поскольку генеративный ИИ продолжает развиваться беспрецедентными темпами, необходимость сотрудничества между заинтересованными сторонами для обеспечения того, чтобы любые инновации служили силам добра, становится все более актуальной.

В мире сейчас люди говорят более чем на 7000 языках, однако большинство чат-ботов с искусственным интеллектом обучены примерно на 100 из них. А английский язык, несмотря на то, что на нем говорит менее 20% населения мира, используется почти половиной веб-сайтов. Поскольку большинство больших языковых моделей (LLM) обучаются на английском тексте, если вы, скажем, студент из России, и используете ИИ для анализа исследовательской работы на своём родном языке, такие модели, как ChatGPT (впрочем, как и отечественные разработки) могут вас очень сильно подвести. Почему же так происходит?

Сейчас компании и правительства предпринимают усилия по созданию национальных независимых моделей искусственного интеллекта, чтобы обеспечить внедрение технологий в большее количество из тысяч языков мира. Но надо признать, что сохраняющийся пока неизбежный цифровой дисбаланс приводит к проблемам. Среди «безумных ошибок», обнаруженных после перевода текстов цифровыми системами, были случаи замены имён месяцами, отсутствие важных деталей и даже перестановка терминов узко-специфичной направленности. Сами машины работают с уровнем, который не соответствует даже малейшему качеству, необходимому для выполнения работы, приемлемой для человека, находящегося в ситуации, когда ставки очень высоки.

Несмотря на постепенное появление многоязычных языковых моделей, они по-прежнему обычно обучаются непропорционально больше на англоязычных текстах и, таким образом, в конечном итоге переносят ценности и предположения, закодированные в этих культурах и академических базах, в другие языковые контексты, где им может не быть места. Доходит порой до скандальных примеров, когда слово «голубь», которое онлайн-переводчик может интерпретировать на разных языках, как связанное с миром, баскский эквивалент этого перевода («uso») на самом деле является оскорблением.

Generative AI is trained on only a few of the 7,000 languages in the world. The problem of errors and bias.фото
Эксперты утверждают, что необходимо разработать приложения для обработки естественного языка (NLP) для лингвистических культур, отличных от английского, чтобы уменьшить предвзятость у алгоритмов генеративного ИИ, чтобы сохранить культурное наследие многих стран. Государственный и частный секторы должны инвестировать в создание тщательно отобранных наборов данных, а также в разработку лингвистических нейросетей для языков, недостаточно представленных в англоязычной литературе. Это необходимо реализовывать, используя опыт местных сообществ и исследователей, чтобы сделать алгоритмы обучения уникальными и доступными для местного населения этих регионов.

Сохранение языка и культуры с помощью технологий имеет первостепенное значение для программистов, разработчиков, лингвистов и искусствоведов в данном сеторе технологического развития. Кроме того, знания, знания и мудрость малых коренных народов могут быть сохранены путём интеграции многих инновационных технологий, которые есть в многонациональных государствах. Показателен позитивный пример, как один турецкий художник не смог наладить контакт с амазонским сообществом, в котором он жил и работал, и превратил свое разочарование в действие. Он возглавил разработку инструмента с открытым исходным кодом, работающую на основе ИИ, который бы был удобен для любых коренных народов, чтобы «сохранить их язык с помощью технологий.

С точки зрения создания интеллектуальных систем обработки естественного языка, участники процесса их создания указывают на важность междисциплинарных возможностей обучения и сотрудничества с лингвистами, для уточнения некоторых элементов терминологии, аналогов которой может вообще не быть в государственном языке. Такие случай очень распространены во многих уголках мира. Специалисты утверждают, что такие меры помогут уменьшить распространённую предвзятость в технологиях искусственного интеллекта, базирующихся на обучении с наборами данных англоязычного сегмента. Для носителей других языков, стремящихся попасть в группы научного сообщества, одних лишь передовых знаний в соответствующей области исследований недостаточно — всё равно необходимы навыки владения английским языком, достаточные для эффективной научной коммуникации. Хотя современные инструменты перевода или коррекции грамматики, разработанные на основе знаний, полученных в ВУЗе, могут помочь носителям других языков писать или читать контент на английском языке, эти инструменты имеют важные оговорки, и пользователям следует соблюдать осторожность в отношении их использования.

Заинтересованные стороны из государственного и частного секторов должны понимать, что для обеспечения подлинной согласованности систем ИИ необходима качественная обратная связь, которая является разнообразной и репрезентативной для всей базы пользователей. Метод критического анализа перспектив для выявления потенциальных недостатков, уязвимостей и областей, требующих улучшения. Такой подход должен быть неотъемлемой частью от разработки модели до её применения и выпуска. Чтобы повысить прозрачность и подотчётность, компании, разрабатывающие контент, созданный с помощью искусственного интеллекта, должны нести ответственность за отслеживание того, как он создаётся, и документировать источники происхождения баз знаний, на которых происходит обучение.

Кроме того, регулирующие органы должны разработать пошаговый процесс проверки создаваемых языковых моделей. Это должно быть похоже на детальные проверки, используемые в клинических испытаниях медицинской направленности или при производстве автомобилей, как до, так и после запуска продукта в эксплуатацию. Для контроля за этим должен быть привлечён независимый аудитор, доступ которого в центры обработки данных, для проведения проверки, должен быть чётко регламентирован. Уделяя особое внимание этим аспектам, разработчики ИИ могут создавать системы, которые укрепляют доверие и способствуют позитивному взаимодействию с человеком.

Опубликовано:

Добавить комментарий