Компания OpenAI заявила о проблемах с одним из самых популярных бенчмарков, используемых для оценки способностей искусственного интеллекта в программировании. По мнению разработчиков, этот тест, широко применяемый в индустрии, содержит «загрязненные» данные, что ставит под вопрос объективность результатов.
В OpenAI утверждают, что в процессе обучения модели искусственного интеллекта могли непреднамеренно получить доступ к данным, содержащимся в самом бенчмарке. Это приводит к тому, что ИИ демонстрирует завышенные результаты, не отражающие его реальные возможности в решении новых, незнакомых задач. По сути, ИИ не столько программирует, сколько воспроизводит заученные ответы.
Данная ситуация поднимает важный вопрос о методологии оценки ИИ. Если существующие бенчмарки не позволяют получить объективную картину, необходимо разрабатывать новые, более надежные способы измерения прогресса в этой области. OpenAI предлагает пересмотреть подходы к тестированию, чтобы обеспечить более точную и релевантную оценку навыков программирования ИИ.
Источник: Decrypt
