Apple проверили миф о современных нейросетях

V1toCorleone · 15.10.2024

Ограничения нейросетей в математическом рассуждении: что показывают исследования

В наше время нейросети, такие как ChatGPT, прочно вошли в нашу жизнь. Мы обращаемся к ним за помощью в поиске информации, написании текстов и даже в решении математических задач. Однако способны ли они действительно мыслить, как мы? Это вопрос, который исследуют ученые, и недавно группа специалистов из Apple провела исследование, чтобы выяснить это.

В своей работе они разработали бенчмарк GSM-Symbolic, чтобы оценить, насколько хорошо нейросети справляются с математическими задачами. После проведения экспериментов было ясно лишь одно - нейросети без человека это как автомобиль без "ЭКЮ" (Мозг автомобиля). Даже простые задачи могут вызывать трудности у нейросетей, особенно когда условия формулируются чуть иначе. Например, представьте себе такую задачу:
Задача:
В пятницу Вовка собрал 10 яблок, в субботу — 15 яблок, а в воскресенье он собрал вдвое больше, чем в пятницу. Сколько всего яблок у Вовки?

Математически это решается просто:
10+15+(10×2)=10+15+20=45

Стоит добавить немного рассуждения в задачу:
В пятницу Вовка собрал 10 яблок, в субботу — 15 яблок, а в воскресенье он собрал вдвое больше, чем в пятницу, но 2 из них были гнилыми. Сколько здоровых яблок у Вовки?

Здесь нейросеть может запутаться и решить задачу по формуле:
10+15+(10×2)−2=45−2=43

Но мы-то знаем, что гнилые яблоки не влияют на общее количество! Человек легко поймет, что правильный ответ — 45. Этот пример иллюстрирует, что нейросети не могут по-настоящему рассуждать, они скорее следуют шаблонам, которые изучили из своих данных.

Дополнительные исследования, такие как работы от OpenAI и других лабораторий, подтверждают, что языковые модели сталкиваются с трудностями, когда дело доходит до сложных условий. Команда из Стэнфорда провела свои исследования и обнаружила, что даже самые современные языковые модели могут делать грубые ошибки в математике, если условия задачи не стандартные.

Таким образом, несмотря на все впечатляющие достижения в области искусственного интеллекта, у нейросетей остаются серьезные ограничения в способности к логическому рассуждению и пониманию контекста. Это подчеркивает важность дальнейших исследований, чтобы повысить точность и надежность моделей. Тем самым доказывает ещё раз что в ближайшее время думать о полной автоматизации процессов не стоит. ИИ на сегодняшний день стоит использовать исключительно для решения трудоёмких задач которые имеют стандартный ход выполнения.

Поэкспериментировав сам с разными задачами сделал для себя несколько выводов с которыми я рад поделиться с вами, а именно:

Писать полноценные рабочие скрипты ИИ не может. Однако он запросто напишет <<скелет>> кода или же фрагмент кода которого в последствии придётся наполнять <<жизнью>>

ИИ отлично справляется с поиском источников информации а так же организации этой информации в более понятном формате.

ИИ уже умеет редактировать и генерировать фотографии. Однако это никак не сможет заменить полноценного дизайнера который сможет реализовать ТЗ заказчика вплоть до самых мелких деталей

Выводы:

Мир технологий движется вперед, и, возможно, в будущем мы увидим более продвинутые системы, которые смогут мыслить так, как это делаем мы. На данном этапе это всего лишь инструмент который может упростить нашу жизнь в разы.

hokage · 15.10.2024

V1toCorleone сказал: ↑

В пятницу Вовка собрал 10 яблок, в субботу — 15 яблок, а в воскресенье он собрал вдвое больше, чем в пятницу, но 2 из них были гнилыми. Сколько здоровых яблок у Вовки?

Здесь нейросеть может запутаться и решить задачу по формуле:
10+15+(10×2)−2=45−2=43

Но мы-то знаем, что гнилые яблоки не влияют на общее количество! Человек легко поймет, что правильный ответ — 45.
Нажмите, чтобы раскрыть...

Без негатива, но по-моему, это какой-то рофло ресерч, а Apple в новости фигурирует только потому, что один из команды ресерчеров работает уборщиком там, либо кто-то из копирайтеров где-то очень сильно накосячил
Модель решила задачу ровно так, как следует. Ее попросили посчитать количество здоровых яблок, она посчитала здоровые яблоки, которых 43. Причем тут общее количество 45

V1toCorleone · 15.10.2024

hokage сказал: ↑

Без негатива, но по-моему, это какой-то рофло ресерч, а Apple в новости фигурирует только потому, что один из команды ресерчеров работает уборщиком там, либо кто-то из копирайтеров где-то очень сильно накосячил
Модель решила задачу ровно так, как следует. Ее попросили посчитать количество здоровых яблок, она посчитала здоровые яблоки, которых 43. Причем тут общее количество 45
Нажмите, чтобы раскрыть...

Я немного позже добавлю источник и документацию. На момент создания данной статьи я отталкивался от официальной документации. Но из-за того что она была на английском я решил не добавлять ссылку на этот источник. Так же проведя немного поисков понял что Apple не первые кто пришли к этому выводу. Несколько компаний ставили схожие эксперименты и результаты были одинаковые. Как только в условиях задачах появлялся "рассуждающий" фактор который никак не был связан с целевым вопросом ИИ давала не правильный ответ.

V1toCorleone · 15.10.2024

Проанализировал суть поставленного вопроса @hokage, и ты прав, была допущена ошибка не в смысле, а ошибка была допущена мною в тексте задачи. Признаю ошибку. Это связано с изучением большого количества материала и по этому произошла сия путаница в тексте.
(Скоро отредактирую новость.)

T1LT · 17.10.2024

V1toCorleone сказал: ↑

Проанализировал суть поставленного вопроса @hokage, и ты прав, была допущена ошибка не в смысле, а ошибка была допущена мною в тексте задачи. Признаю ошибку. Это связано с изучением большого количества материала и по этому произошла сия путаница в тексте.
(Скоро отредактирую новость.)
Нажмите, чтобы раскрыть...

Не ошибайся больше дон.хорошо дон?
но касательно эксперимента я считаю это вполне ожидаемо.гпт и его подобные слишком много иноваций принесли нашей жизни. И есть роботы в японии которые числятся в штабе как работники,на данном этапе возможно разработчикам "не выгодно" внедрять рассудок и эмпатию в искусственный интелект,рано ещё

V1toCorleone · 17.10.2024

T1LT сказал: ↑

Не ошибайся больше дон.хорошо дон?
но касательно эксперимента я считаю это вполне ожидаемо.гпт и его подобные слишком много иноваций принесли нашей жизни. И есть роботы в японии которые числятся в штабе как работники,на данном этапе возможно разработчикам "не выгодно" внедрять рассудок и эмпатию в искусственный интелект,рано ещё
Нажмите, чтобы раскрыть...

Вполне вероятно, что ты прав. Изначально ИИ мало что умел, но как я упомянул в статье, я удивился какой прорыв он совершил на данном этапе. Я его редко открывал. И был ошарашен как стало удобно с ним работать. Его можно использовать для производства <<кирпичей>> для будущего <<дома>>. В последствии ты уже как каменщик строишь желаемый дом не потеряв слишком много времени для подбора своеобразных кирпичей.
Так же, ИИ имеет рассудок, но он крайне примитивный и может ответить на базовые вопросы. Но есть и обратная сторона монеты. Если его обучить под твои требования, он сможет давать тебе гораздо больший результат чем без этого обучения. Однако специальных "гайдов" под эту цель не существует. Приходится самому методом проб и ошибок выходить на желаемый результат.

cyprus top · 19.10.2024

можно в двух словах немнога уважения карлеоне время топа как никак

V1toCorleone · 19.10.2024

cyprus top сказал: ↑

можно в двух словах немнога уважения карлеоне время топа как никак
Нажмите, чтобы раскрыть...

Был бы благодарен если выразишь свои мысли более чётко и ясно. Так я смогу ответить тебе на твой вопрос!