GPT-4 особенности и возможности

OpenAI объявила о выпуске GPT-4, который знаменует собой последнее достижение в их усилиях по расширению масштабов глубокого обучения. GPT-4 — это большая мультимодальная модель, которая может обрабатывать входные изображения и текст и генерировать текстовые выходные данные.

Хотя GPT-4 не так эффективен, как люди, во многих реальных ситуациях, он продемонстрировал производительность на уровне человека в различных профессиональных и академических тестах. Например, он попал в 10% лучших тестируемых на смоделированном экзамене на адвоката, тогда как его предшественник, GPT-3.5, попал в нижние 10%.

Разработка GPT-4 потребовала шестимесячного итеративного выравнивания с учетом уроков программы состязательного тестирования OpenAI и ChatGPT. Эти усилия привели к лучшим результатам с точки зрения фактичности, управляемости и соблюдения установленных правил, хотя еще есть возможности для улучшения.

Стек глубокого обучения OpenAI был перестроен за последние два года, а суперкомпьютер был разработан совместно с Azure специально для их рабочей нагрузки. GPT-3.5 был обучен год назад в качестве предварительного теста, что позволило команде выявить и исправить ошибки и улучшить свои теоретические основы. Это помогло обеспечить беспрецедентную стабильность во время тренировочного прогона GPT-4, который стал первой крупной моделью, тренировочные характеристики которой команда могла точно предсказать заранее. Они намерены усовершенствовать свою методологию, чтобы прогнозировать будущие возможности и готовиться к ним еще раньше, что является важным элементом безопасности.

Возможность ввода текста GPT-4 выпускается через ChatGPT и API, хотя есть список ожидания. OpenAI сотрудничает с одним партнером, чтобы расширить доступность возможности ввода изображения. OpenAI Evals, их платформа для оценки производительности модели ИИ, находится в открытом доступе, чтобы любой мог сообщить о недостатках и оставить отзыв для дальнейших улучшений.

Возможности

В непринужденной беседе различение GPT-3.5 и GPT-4 может быть затруднено. Однако по мере того, как сложность задачи превышает определенный порог, различия становятся более очевидными. GPT-4 более надежен, креативен и способен обрабатывать гораздо более тонкие инструкции, чем его предшественник GPT-3.5.

Чтобы понять различия между двумя моделями, были протестированы различные эталонные тесты, в том числе смоделированные экзамены, изначально предназначенные для людей. В некоторых случаях использовались самые последние общедоступные тесты (например, олимпиады и вопросы с бесплатным ответом AP), в то время как в других были приобретены практические экзамены из выпусков 2022–2023 годов. Специальной подготовки к этим экзаменам не проводилось, хотя во время обучения модель заметила небольшую часть проблем. Результаты считаются репрезентативными и могут быть найдены в техническом отчете.

Визуальные входы

GPT-4 способен обрабатывать как текстовые, так и графические входные данные, что позволяет пользователям задавать любые языковые или визуальные задачи. В дополнение к генерации выходных данных на естественном языке и коде из текстовых входных данных, он может генерировать выходные данные из входных данных, состоящих как из текста, так и из изображений.

GPT-4 отображает аналогичные возможности в различных доменах, включая документы с текстом и фотографиями, диаграммы или снимки экрана, как и при вводе только текста. Его также можно улучшить с помощью методов времени тестирования, разработанных для текстовых языковых моделей, таких как подсказки с несколькими выстрелами и цепочкой мыслей.

Однако входные изображения все еще находятся на стадии исследования и в настоящее время недоступны для общественности.