Для обеспечения позитивного будущего важно с самого начала уделять приоритетное внимание ответственному проектированию и внедрению технологий. Поскольку генеративный ИИ продолжает развиваться беспрецедентными темпами, необходимость сотрудничества между заинтересованными сторонами для обеспечения того, чтобы любые инновации служили силам добра, становится все более актуальной.
В мире сейчас люди говорят более чем на 7000 языках, однако большинство чат-ботов с искусственным интеллектом обучены примерно на 100 из них. А английский язык, несмотря на то, что на нем говорит менее 20% населения мира, используется почти половиной веб-сайтов. Поскольку большинство больших языковых моделей (LLM) обучаются на английском тексте, если вы, скажем, студент из России, и используете ИИ для анализа исследовательской работы на своём родном языке, такие модели, как ChatGPT (впрочем, как и отечественные разработки) могут вас очень сильно подвести. Почему же так происходит?
Сейчас компании и правительства предпринимают усилия по созданию национальных независимых моделей искусственного интеллекта, чтобы обеспечить внедрение технологий в большее количество из тысяч языков мира. Но надо признать, что сохраняющийся пока неизбежный цифровой дисбаланс приводит к проблемам. Среди «безумных ошибок», обнаруженных после перевода текстов цифровыми системами, были случаи замены имён месяцами, отсутствие важных деталей и даже перестановка терминов узко-специфичной направленности. Сами машины работают с уровнем, который не соответствует даже малейшему качеству, необходимому для выполнения работы, приемлемой для человека, находящегося в ситуации, когда ставки очень высоки.
Несмотря на постепенное появление многоязычных языковых моделей, они по-прежнему обычно обучаются непропорционально больше на англоязычных текстах и, таким образом, в конечном итоге переносят ценности и предположения, закодированные в этих культурах и академических базах, в другие языковые контексты, где им может не быть места. Доходит порой до скандальных примеров, когда слово «голубь», которое онлайн-переводчик может интерпретировать на разных языках, как связанное с миром, баскский эквивалент этого перевода («uso») на самом деле является оскорблением.

Эксперты утверждают, что необходимо разработать приложения для обработки естественного языка (NLP) для лингвистических культур, отличных от английского, чтобы уменьшить предвзятость у алгоритмов генеративного ИИ, чтобы сохранить культурное наследие многих стран. Государственный и частный секторы должны инвестировать в создание тщательно отобранных наборов данных, а также в разработку лингвистических нейросетей для языков, недостаточно представленных в англоязычной литературе. Это необходимо реализовывать, используя опыт местных сообществ и исследователей, чтобы сделать алгоритмы обучения уникальными и доступными для местного населения этих регионов.
Сохранение языка и культуры с помощью технологий имеет первостепенное значение для программистов, разработчиков, лингвистов и искусствоведов в данном сеторе технологического развития. Кроме того, знания, знания и мудрость малых коренных народов могут быть сохранены путём интеграции многих инновационных технологий, которые есть в многонациональных государствах. Показателен позитивный пример, как один турецкий художник не смог наладить контакт с амазонским сообществом, в котором он жил и работал, и превратил свое разочарование в действие. Он возглавил разработку инструмента с открытым исходным кодом, работающую на основе ИИ, который бы был удобен для любых коренных народов, чтобы «сохранить их язык с помощью технологий.
С точки зрения создания интеллектуальных систем обработки естественного языка, участники процесса их создания указывают на важность междисциплинарных возможностей обучения и сотрудничества с лингвистами, для уточнения некоторых элементов терминологии, аналогов которой может вообще не быть в государственном языке. Такие случай очень распространены во многих уголках мира. Специалисты утверждают, что такие меры помогут уменьшить распространённую предвзятость в технологиях искусственного интеллекта, базирующихся на обучении с наборами данных англоязычного сегмента. Для носителей других языков, стремящихся попасть в группы научного сообщества, одних лишь передовых знаний в соответствующей области исследований недостаточно — всё равно необходимы навыки владения английским языком, достаточные для эффективной научной коммуникации. Хотя современные инструменты перевода или коррекции грамматики, разработанные на основе знаний, полученных в ВУЗе, могут помочь носителям других языков писать или читать контент на английском языке, эти инструменты имеют важные оговорки, и пользователям следует соблюдать осторожность в отношении их использования.
Заинтересованные стороны из государственного и частного секторов должны понимать, что для обеспечения подлинной согласованности систем ИИ необходима качественная обратная связь, которая является разнообразной и репрезентативной для всей базы пользователей. Метод критического анализа перспектив для выявления потенциальных недостатков, уязвимостей и областей, требующих улучшения. Такой подход должен быть неотъемлемой частью от разработки модели до её применения и выпуска. Чтобы повысить прозрачность и подотчётность, компании, разрабатывающие контент, созданный с помощью искусственного интеллекта, должны нести ответственность за отслеживание того, как он создаётся, и документировать источники происхождения баз знаний, на которых происходит обучение.
Кроме того, регулирующие органы должны разработать пошаговый процесс проверки создаваемых языковых моделей. Это должно быть похоже на детальные проверки, используемые в клинических испытаниях медицинской направленности или при производстве автомобилей, как до, так и после запуска продукта в эксплуатацию. Для контроля за этим должен быть привлечён независимый аудитор, доступ которого в центры обработки данных, для проведения проверки, должен быть чётко регламентирован. Уделяя особое внимание этим аспектам, разработчики ИИ могут создавать системы, которые укрепляют доверие и способствуют позитивному взаимодействию с человеком.