Чатботът ChatGPT, разработен от OpenAI, е способен да дава отговори на въпроси по всякакви теми - от ядрено инженерство до стоическа философия. Проблемът е, че добрите му резултати засега са само на английски език, пише The Economist. 

Най-новата версия - ChatGPT-4, отбелязва 85% на общ тест с въпроси и отговори. На други езици обаче тя съвсем не се представя толкова впечатляващо.

При полагане на теста на индийския език телугу, например, говорен от близо 100 милиона души, чатботът отбелязва само 62% верни отговори. 

OpenAI не разкрива много подробности за това как е създаден ChatGPT-4. Но един поглед към неговия предшественик ChatGPT-3 може да даде някои насоки. Големите езикови модели (LLM) се обучават върху текст, извлечен от интернет, където английският език доминира в много голяма степен.

Около 93% от данните за обучение на ChatGPT-3 са били на английски език. В Common Crawl, който е само един от наборите от данни, върху които е обучен моделът, английският съставлява 47% от корпуса, като други (най-вече сродни) европейски езици представляват 38%. 

За разлика от тях, китайциският и японският заедно съставляват едва 9%. А тежестта на Телугу дори не влиза в рамките на грешките при закръгляване. 

Според оценката на Натаниел Робинсън, изследовател от университета Джон Хопкинс, това не е проблем, ограничен до ChatGPT. Всички LLM се справят по-добре с езици с "висок ресурс", за които има много данни за обучение, отколкото с по-рядко срещаните.

Това е проблем за хората и компаниите, които се надяват да "изнасят" AI в бедните страни, с надеждата, че технологията може да подобри много аспекти от ежедневието им - от училищата до здравеопазването. 

Това е и причината, поради която много изследователи по света работят, за да "научат" изкуствения интелект на повече езици. 

Може ли AI да стане полиглот?

Правителството на Индия е особено активно по тази тема. Много от публични услуги в страната вече са дигитализирани и тя се стреми да ги подсили с AI. През септември миналата година беше представен чатбот, чиято цел е да помогне на фермерите да получат информация за държавните помощи.

Ботът работи, като "споява" два вида езикови модели в едно, казва Шанкар Марувада от неправителствената организация EkStep Foundation, която помогна за изграждането му.

Потребителите могат да изпращат заявки на родния си език, а след това те се предават на софтуер за машинен превод, който ги превежда на английски. Английската версия на въпроса се подава на езиковия модел, а отговорът му се превежда обратно на майчиния език на потребителя.

Системата изглежда работи задоволително, но преводът на заявки на предпочитания от LLM език е доста тромаво решение.

Една от алтернативите е да се модифицира частта от LLM, която "нарязва" думите на по-малки парчета, наречени токени, за да може останалата част от модела да се манипулира.

Например, текст на деванагари (писменост, използвана с езика хинди) се нуждае от три до четири пъти повече токени, когато се обработва по стандартния начин, отколкото същия текст на английски. 

Индийският стартъп Sarvam AI е разработил токенизатор, оптимизиран за хинди, който значително намалява броя на операциите. По-малко токени означават по-малко изчисления. Създателите на аргоритъма смятат, че той може да намали разходите за отговаряне на въпроси с около три четвърти.

Друга възможност е да се подобрят наборите от данни, на които се обучават големите езикови модели. Често това означава дигитализиране на печатни и ръкописни текстове на физически носители. 

През ноември миналата година екип от изследователи от университета Мохамед бин Зайед в Абу Даби пусна най-новата версия на арабскоговорящ модел, наречен Jais. Той има една шеста от параметрите на ChatGPT-3, но се представя наравно с него в тестовете на арабски език. 

Могат ли хората да обучат езиковите модели? 

Третият вариант е да се променят моделите, след като вече са били обучени. Както Jais, така и OpenHathi са имали двойки въпроси и отговори, ръчно зададени от хора. Същото се случва и със западните чатботове, като инструмент срещу разпространяването на дезинформация.

Ernie Bot на китайския технологичен гигант Baidu беше променен, за да спре да казва неща, срещу които правителството може да възрази. Моделите могат да се учат и от човешката обратна връзка, в която потребителите оценяват отговорите им.

Но това е трудно да се направи за много езици от по-бедните държави, тъй като изисква набиране на достатъчно голям брой квалифицирани специалисти.

Колко добре ще работи всичко това, предстои да видим. Една четвърт от възрастните в Индия са неграмотни - проблем, който никакви настройки на LLM не могат да решат.

Много индийци предпочитат да използват гласови съобщения за комуникация, отколкото текстови. AI може да превръща речта в текст (индийският чатбот за фермерите, например, го прави), но това добавя още една стъпка, при която могат да се промъкнат грешки.

И е възможно създателите на локални езикови модели, в крайна сметка, да бъдат извадени от бизнеса поради усилията на големите имена от Силициевата долина.

Въпреки че далеч не е идеален, ChatGPT-4 е много по-добър от ChatGPT-3 в отговорите на въпроси на езици, различни от английския. 

Но какъвто и подход да бъде избран, ако AI се научи да говори на всички 7000 световни езика, резултатът няма как да бъде негативен.