👩💻 OpenAI обяви нов „умен“ модел – o1
OpenAI представи нов модел, наречен „o1“, ориентиран за решаване на сложни математически задачи. Номерът на модела е, че той е в състояние да мисли, преди да отговори, образувайки дълги вериги от разсъждения, което е особено важно при изпълнение на задачи, които изискват задълбочен анализ. Той превъзхожда GPT-4o по много начини в контекста на логиката и решаването на сложни проблеми.
🤯 Състезание по математика (AIME 2024)
– GPT-4o решава около 13,4% от задачите, което е доста нисък резултат.
– o1-преглед показва подобрение решаващ 56,7% задачи.
– o1 значително превъзхожда и двата модела с което води до 83,3% точност.
🤯Програмиране (Codeforces)
– GPT-4o отбелязва само 11,0% в състезания по програмиране.
– o1-преглед показва значително подобрение с резултат от 62%.
– o1 показва резултата – 89%.
🤯Въпроси за ниво на докторантура по природни науки (GPQA Diamond)
– GPT-4o достига 56,1% точност с решаване на проблеми
– o1-преглед повишава точността до 78,3%, а версия o1 – до 78,0%.
– Наети човешки експерти с докторска степен средно 69,7%
Заключения: o1 превъзхожда GPT-4o във всичко представени задачи – било то математика, програмиране или природни науки.
🤖 Основен Иновативната убийствена функция на „o1“ е използването на веригата на мисълта. Моделът може да „мисли“ пред себе си как да отговаря, което прави подхода й към задачите по-последователен и структуриран. о1 научава се да разбива задачи към по-прости стъпки, коригиране на грешки и промяна на стратегии, ако е необходимо. В случая с GPT-4o няма такъв подход.
🤖 Алтман пише , че това е началото на нова парадигма: AI вече е в състояние да извършва сложни общи разсъждения срещи. 1-preview и o1-mini са налични днес в ChatGPT за плюс и екипни потребители.
Като се има предвид, че експертите с докторски степени вече са се показали по-лоши от o1 през 2024 г., прогнозите на Леополд до 2030 г. изглеждат доста реалистично.
👆В същото време Китай:Най-добрата невронна мрежа за математика беше пусната от китайците – техният Qwen-2.5 Math решава проблеми на ниво с hype OpenAI o1 !- Моделът работи по същия метод на разсъждение като o1 и е добавена възможност за изпълнение на Python код – умножението и делението вече не са проблем (вижте екранната снимка);— Пуснали са три версии наведнъж: за параметри 1.5b, 7b и 72b. Първите две ще работят дори на най-слабите компютри;- Работи БЕЗПЛАТНО.Можете да използвате Homework Killer онлайн или да го инсталирате на вашия компютър локално.