16+
Вторник, 23 апреля 2024
  • BRENT $ 86.51 / ₽ 8071
  • RTS1164.95
17 марта 2024, 11:08 Технологии

Языковая модель GigaChat от «Сбера» вошла в пятерку лучших в мире

Лента новостей

По версии издания Arabian Business, она стала четвертой, опередив Gemini от Google и GPT-3.5. Насколько можно верить такой оценке?

Фото: Михаил Метцель/ТАСС

Русскоязычная языковая модель от «Сбера» GigaChat, запущенная весной прошлого года, вошла в пятерку лучших в мире. По данным арабского делового издания Arabian Business, она стала четвертой, опередив Gemini от Google и GPT-3.5. Кроме того, нейросеть оказалась единственной российской разработкой, которая вошла в международный бенчмарк, а в работе с русскоязычными запросами опередила все модели. Что логично, ведь это ее родной язык обучения.

В оценке моделей был использован метод слепого тестирования, когда аналитики, не зная названия модели, сравнивали успешность выполнения задач, которые ставили перед нейросетью. Оценивались такие параметры, как языковой перевод, творческое письмо, генерация кода и другие характеристики.

Комментирует главный архитектор ИИ-систем исследовательского центра ИИ по направлению «Транспорт и логистика» НИЯУ МИФИ Роман Душкин:

Роман Душкин Роман Душкин главный архитектор систем искусственного интеллекта исследовательского центра ИИ по направлению «Транспорт и логистика» НИЯУ МИФИ «Обычно бенчмаркинг делается для конкретной задачи, модели сравнивались в том числе на возможность использования малоресурсных языков, как они называются. Малоресурсный язык — это язык, у которого мало дата-сетов. То есть мало лингвистической информации о нем. Это нам кажется, что 200 млн человек на русском языке разговаривает, все документы ООН на русском пишутся и прочее. Но проблема русского языка в том, что дата-сетов, на которых обучаются модели, достаточно мало. Поэтому русский язык — среднересурсный по сравнению с английским, испанскими и китайским. То есть английский, испанский и китайский — это языки с большим количеством размеченных дата-сетов. Модели изучались на то, как они общаются на таких малоресурсных языках. И, разумеется, GigaChat с точки зрения общения на русском языке достаточно хорош, потому что это его главный язык обучения все-таки. С другой стороны, мои собственные эксперименты с GigaChat показывают, что он все-таки немного не дотягивает даже до уровня ChatGPT, не говоря уже о GPT-4. Поэтому нужно говорить про методологию оценивания, методологию этого самого бенчмаркинга. Но даже если посмотреть на эту шкалу, на ней показано, что GPT-4 на первом месте, а Claude 3 на втором, и это очень странно, потому что, по всем другим независимым оценкам, Claude 3 превосходит GPT-4 на порядок. Это уже напрягает, насколько эти результаты валидны».

Несмотря на сомнения в методологии указанного исследования и неточности позиций ведущих AI, GigaChat от «Сбера» действительно может считаться лучшей российской разработкой, считает гендиректор Dbrain, автор телеграм-канала AI Happens Алексей Хахунов:

Алексей Хахунов гендиректор Dbrain, автор телеграм-канала AI Happens «GigaChat действительно может быть лучшей русскоязычной моделью. Почему может — потому что хороших тестов «Яндекса» и GigaChat я, по крайней мере, не видел. Они находятся где-то наравне, но, может быть, GigaChat где-то немного его опережает. При этом среди всех моделей GPT существуют публичные лидерборды, есть такой форум Hugging Face, на нем проводится тестирование всех моделей в реальном времени. Есть батлы этих моделей, и они покрываются большим количеством тестов. Актуальный топ-3 выглядит так, что первое и второе места разделяют GPT-4 и Claude 3, что совпадает с этим рейтингом. После этого идет модель Mistral, которая здесь вообще находится на десятом месте, что уже создает много вопросов. Обычно они тестируются на задачах из бакалавриата и магистратуры — тесты на знание разных доменов, тесты на творческие задания, на написание кода, на поиски багов и подобные вещи. Поэтому может ли модель GigaChat опережать, например, модель от Google Gemini? Может быть, но есть еще другой Gemini, и вряд ли она его обгоняет. И очень странно, что GigaChat обгоняет модель Mistral, которая действительно работает очень и очень хорошо».

Любая мультимодальная модель, то есть модель, способная воспринимать информацию и в виде текста, и в виде изображений, должна оправдывать данные исследований и быть применима для широкого пользователя, говорит SЕО студии искусственного интеллекта и преподаватель НИУ ВШЭ Дарья Фокина:

Дарья Фокина SЕО студии искусственного интеллекта, преподаватель НИУ ВШЭ «В любых подобных рейтингах важно не забывать про практическую применимость для пользователя. Open AI сейчас пошли в сторону создания GPT-ассистентов, то есть моделей, настроенных под конкретную задачу, например написать код, сделать резюме, проанализировать таблицу, составить письмо. Пока остальные модели все равно догоняют и по техническим характеристикам, и по удобству, и по практической применимости. Но будем надеяться, что это ненадолго и GigaChat такими темпами может и вырваться вперед, особенно в плане работы с русским языком».

Буквально на днях совокупная аудитория пользователей GigaChat и Kandinsky достигла 18 млн человек. Релиз нейросети от «Сбера» случился еще весной 2023 года, а в сентябре сервис открыл к ней доступ всем желающим. Самой популярной функцией нейросети за последний месяц оказалась возможность создавать персонализированные поздравительные открытки к праздникам.

Рекомендуем:

Фотоистории

Рекомендуем:

Фотоистории
BFM.ru на вашем мобильном
Посмотреть инструкцию