AI 요약 제목

멀티 에이전트 문명 도전! OpenAI 노암 브라운의 스케일링 비밀

원본 제목

Scaling Test Time Compute to Multi-Agent Civilizations — Noam Brown, OpenAI

Latent Space

조회수 11.4K회 좋아요 354개 게시일 2025년 06월 19일

설명

Solving Poker and Diplomacy, Debating RL+Reasoning with Ilya, what's *wrong* with the System 1/2 analogy, and the challenges of scaling Test-Time Compute Timestamps 00:00 Intro – Diplomacy, Cicero & World Championship 02:00 Reverse Centaur: How AI Improved Noam’s Human Play 05:00 Turing Test Failures in Chat: Hallucinations & Steerability 07:30 Reasoning Models & Fast vs. Slow Thinking Paradigm 11:00 System 1 vs. System 2 in Visual Tasks (GeoGuessr, Tic-Tac-Toe) 14:00 The Deep Research Existence Proof for Unverifiable Domains 17:30 Harnesses, Tool Use, and Fragility in AI Agents 21:00 The Case Against Over-Reliance on Scaffolds and Routers 24:00 Reinforcement Fine-Tuning and Long-Term Model Adaptability 28:00 Ilya’s Bet on Reasoning and the O-Series Breakthrough 34:00 Noam’s Dev Stack: Codex, Windsurf & AGI Moments 38:00 Building Better AI Developers: Memory, Reuse, and PR Reviews 41:00 Multi-Agent Intelligence and the “AI Civilization” Hypothesis 44:30 Implicit World Models and Theory of Mind Through Scaling 48:00 Why Self-Play Breaks Down Beyond Go and Chess 54:00 Designing Better Benchmarks for Fuzzy Tasks 57:30 The Real Limits of Test-Time Compute: Cost vs. Time 1:00:30 Data Efficiency Gaps Between Humans and LLMs 1:03:00 Training Pipeline: Pretraining, Midtraining, Posttraining 1:05:00 Games as Research Proving Grounds: Poker, MTG, Stratego 1:10:00 Closing Thoughts – Five-Year View and Open Research Directions

📝✨

자막

전체 자막 보기

안녕하세요 여러분, L and Space 팟캐스트에 오신 것을 환영합니다 .

안녕하세요, 저는 Deible의 파트너이자 CTO인 알레시오입니다.

공동 진행자이자 Small AI의 창립자인 스푹스가 함께합니다.

안녕하세요.

저희는 휴일인 월요일에 OpenAI의 낸 브라운과 함께 녹음을 하고 있습니다 .

환영.

감사합니다.

마침내 당신이 우리와 함께 하게 되어 정말 기쁩니다.

음, 많은 사람들이 당신의 말을 들었습니다.

당신은 팟캐스트에 꽤 관대한 시간을 투자해왔습니다.

음, 렉스 프리드먼과 당신은 최근에 TED 강연을 했는데, 사고 패러다임에 대한 내용이었습니다 .

하지만 제 생각에 당신의 최근 업적 중 가장 흥미로운 것은 세계 외교 챔피언십에서 우승한 것입니다 .

응.

2022년에 당신은 인간 플레이어 중 상위 10%에 속하는 키케로와 같은 것을 만들었습니다.

제가 가장 먼저 묻고 싶은 것은 키케로에서 활동한 이후, 그리고 지금 개인적으로 외교를 맡으면서 외교적 플레이가 어떻게 바뀌었는가입니다.

이런 게임을 만들 때는 봇을 디버깅할 수 있을 만큼 게임을 잘 이해해야 합니다.

봇이 정말 급진적이고 인간이 일반적으로 하지 않는 일을 한다면, 그것이 실수인지 아니면 시스템의 버그인지 아니면 봇이 정말 뛰어난 것인지 확신할 수 없기 때문입니다.

외교 작업을 할 당시, 저는 게임을 더 잘 이해하려고 심도 있게 연구했습니다.

저는 토너먼트에 참가했습니다 .

저는 게임에 대한 튜토리얼 영상과 해설 영상을 많이 시청했고 그 과정을 거치면서 실력이 향상되었습니다.

그리고 게임 에서 봇이 어떻게 행동하는지 보는 것도 좋은데, 때로는 사람이 일반적으로 하지 않는 일을 하기도 합니다.

그러면서 게임에 대해서도 알게 됐어요.

시세로를 출시했을 당시, 우리는 2022년 말에 발표했습니다.

저는 아직도 그 게임이 정말 매력적이라고 생각합니다.

그래서 저는 그것을 계속 따라가고 싶습니다.

저는 계속해서 플레이하고 싶었고, 그 덕분에 2025년 세계 선수권 대회에서 우승할 수 있었습니다.

몇 달 전이었습니다.

인간과 기계가 함께 일하는 켄타우로스 시스템과 같은 의문이 항상 제기됩니다.

토너먼트에서 키케로를 사용했는지 묻는 건, 바둑에서 플레이 스타일을 업데이트한 것과 같은 일이 있었나요? 답은 '아니요'입니다.

봇이 플레이하는 방식을 보고 거기서 영감을 얻은 게 토너먼트에서 도움이 되었다고 생각해요.

응.

요즘 사람들은 외교 활동을 할 때마다 튜링 질문을 던지나요 ? 같이 플레이하는 사람이 봇인지 아닌지 알아내려고 노력해 보세요.

네, 처음 시작할 때 걱정했던 게 바로 그거였어요.

우리가 Cisero를 작업할 때는 정말 흥미로웠어요.

아시 다시피 우리에게는 최고의 언어 모델이 없었거든요.

우리는 언어 모델의 품질에 정말 병목 현상을 겪었고, 때때로 봇이 이상한 말을 하곤 했습니다.

90~99%는 괜찮았지만 가끔은 정말 이상한 말을 하기도 했습니다 .

마치 환각을 본 것 같았습니다.

누군가가 봇과 대화할 때 이전에 말했던 내용을 언급하면, 봇은 " 우리가 무슨 말을 하는지 전혀 모르겠어요.

제가 그런 말을 한 적이 없어요.

"라고 말합니다.

그러면 그 사람은 " 채팅에서 위로 스크롤하면 돼요"라고 말할 거예요.

말 그대로 바로 거기에 있는 것 같아요.

그러면 봇은 "아니요, 당신은 윈도우 사용자입니다.

"라고 말할 겁니다.

그리고 이런 일이 일어나면 사람들은 그냥 "아, 그 사람은 피곤하거나 취했거나 아니면 그냥 나를 놀리는 거야"라고 무시합니다.

하지만 사람들이 봇을 찾지 않았기 때문이라고 생각해요 .

그들은 게임에 봇이 있을 거라고는 예상하지 못했습니다 .

사실 우리는 사람들 이 게임에 봇이 있다는 걸 어느 순간 알아차리고 항상 그것을 주의 깊게 살피게 될까봐 두려웠습니다.

그리고 항상 그렇게 할 것이고, 찾으려고 노력한다면 발견할 수 있을 것입니다.

그게 문제예요.

그러니 이제 그것이 발표되었고 사람들이 그것을 찾아볼 수 있게 되었으니, 그것을 발견하는 것이 더 쉬워질 거라고 생각합니다.

그런데 언어 모델도 2022년 이후로 많이 좋아졌습니다.

적대적이죠.

응.

그러니까, 이 시점에서, 아시다시피, 사실은 GP40과 03 같은 모델이 투어링 테스트에 합격한 셈이죠.

그래서 저는 그들이 실제로 변화를 가져올 만큼 많은 투어 관련 질문을 할 수 있다고 생각하지 않습니다 .

그리고 세사르는 2.

7b 정도로 아주 작았죠? 그것은 매우 작은 언어 모델이었습니다.

응.

이건 우리가 프로젝트를 진행하면서 깨달은 것 중 하나인데, 대규모 언어 모델을 갖는 게 정말 많은 이점을 가져다준다는 거죠.

네.

오늘날 AI에 대한 인식과 많은 사람들이 생각하는 안전에 대한 담론, 즉 사람들이 게임에서 이길 수 있도록 설득하는 데 정말 능숙한 봇을 만들었다는 것에 대해 어떻게 생각하시나요? 그리고 오늘날의 연구실에서는 그런 종류의 문제는 다루지 않는다고 말하고 싶어할지도 모릅니다.

두 가지 사이의 이분법에 대해 어떻게 생각하시나요? 아니요, 솔직히 말해서 시세로를 출시한 후, AI 안전 커뮤니티의 많은 사람들이 연구 결과에 매우 만족했고 작동 방식을 좋아했습니다.

시세로는 매우 제어 가능한 시스템이었기 때문입니다.

우리는 시세로에 특정한 구체적인 행동을 조건지었고, 이를 통해 명확하게 해석하고 정의할 수 있는 행동을 추구할 것이라고 말할 수 있는 많은 조정 가능성을 얻었습니다.

그냥 마음대로 달리고 싶은 대로 하는 언어 모델이 아닙니다 .

사실 꽤 조종하기 쉬운데, 언어 모델이 사람과 상호작용하는 방식을 조종하는 전체적인 추론 시스템이 있어요 .

사실, 많은 연구자들이 저에게 연락해서 이것이 이 시스템으로 안전을 확보할 수 있는 아주 좋은 방법이라고 생각한다고 말했습니다.

외교와 관련해 우리가 가질 수 있는 마지막 질문은 외교 에 대한 Oer 모델을 업데이트하거나 테스트했는지, 그리고 더 많은 변화를 기대하는지에 대한 것입니다.

저는 그렇지 않아요.

저는 트위터에서 이것이 좋은 벤치마크가 될 것이라고 말한 적이 있습니다.

저는 모든 주요 봇들이 서로 외교 게임을 하면서 누가 가장 잘하는지 보는 것을 좋아할 겁니다.

몇몇 사람들이 거기에서 영감을 얻어 실제로 벤치마크를 구축하고 모델을 평가하고 있다고 생각합니다.

제가 알기로는 지금은 별로 잘하지 못하는 것 같아요.

음, 하지만 제 생각에는 정말 흥미로운 벤치마크이고, 시도해 볼 만한 정말 멋진 일이 될 것 같아요 .

그럼, 이제 O 시리즈에 대해 좀 더 자세히 알아보겠습니다.

지난번에 홍보를 많이 하셨을 때는 01을 출시하셨던 것 같아요.

TED 강연도 하셨고, 그런 일도 다 하셨죠.

분위기가 어때요? 전반적으로 분위기가 어떻게 바뀌었나요? 화학 분야와 같은 분야에서 도메인 전문가로부터 오래된 시리즈 모델을 검토하는 방법, 예를 들어 작년 말 이후로 어떻게 업데이트했는지에 대해 배울 수 있어서 매우 기쁘다고 말씀하셨죠 ? 저는 개발 주기 초기에는 궤적이 꽤 명확했다고 생각합니다 .

그리고 그 이후로 펼쳐진 모든 일은 제가 예상했던 대로 순조롭게 진행되었다고 생각합니다.

그러니 솔직히 말해서, 제가 생각하는 세상이 어디로 가고 있는지에 대한 인식은 그렇게 많이 바뀌지 않았다고 말하고 싶습니다.

음, 저는 우리가 이 패러다임이 계속해서 빠르게 진보하는 것을 보게 될 것이라고 생각합니다.

저는 앞서 말했듯이, 오늘날에도 그 점이 사실이라고 생각합니다.

01 미리보기에서 01로, 그리고 03으로 지속적인 진보를 이루었고 앞으로도 계속 그런 모습을 보게 될 것이고, 이 모델이 할 수 있는 일이 더욱 확대될 것이라고 생각합니다.

아시다시피, 우리가 대리인의 행동을 보게 될 거예요.

우리는 이미 행위자의 행동을 보기 시작했습니다 .

솔직히 말해서 저는 03부터 일상생활에서 이걸 엄청 많이 써왔어요 .

저는 이 기능이 정말 유용하다고 생각합니다.

특히 이제 웹을 탐색하고 제가 대신 의미 있는 조사를 할 수 있다는 사실이요.

3분 안에 답변을 받을 수 있는 소규모 심층 조사 같은 거죠.

네, 저는 시간이 지날수록 점점 더 유용해지고 더 강력해질 것이라고 생각합니다 .

응.

그리고 심층 연구에 대해 이야기하고 있는데, 실행 가능한 여러 도메인에서 이를 수행할 수 있다는 증거가 필요하다면 트윗을 남겨주세요.

심층 연구는 일종의 좋은 예입니다.

사람들이 놓치고 있는 것이 있는지 말씀해 주실 수 있나요 ? 저는 이 말을 자주 듣는 것 같아요 .

인코딩과 수학은 쉽게 할 수 있지만 다른 도메인은 그렇지 않은 것 같아요.

저는 꽤 명성 있는 AI 연구자들을 포함하여 많은 사람들에게서 이런 질문을 자주 받습니다.

이런 질문은, 추론 모델이 수학과 코딩, 그리고 쉽게 검증할 수 있는 분야에서는 성공을 거두고 있지만, 성공 여부가 덜 정의된 분야에서도 성공할 수 있을까요 ? 이것이 이렇게 널리 인식되는 게 놀랍습니다.

우리는 심층적인 연구 결과를 공개했고 사람들이 이를 시도해 볼 수 있으니까요.

사람들은 그것을 사용합니다.

이 분야는 매우 인기가 많은데, 성공 여부를 쉽게 검증할 수 있는 척도가 없는 분야라는 게 분명합니다.

이는 가장 좋은 연구 보고서는 무엇일까 하는 질문과 매우 비슷하지만, 이 모델은 이 도메인에서 매우 뛰어난 성과를 보이고 있습니다.

그래서 저는 이것이 이러한 모델이 보상을 쉽게 검증할 수 없는 작업에서도 성공할 수 있다는 존재 증명과 같다고 생각합니다 .

꼭 틀린 답이 있는 건 아니고, 심층적인 연구의 질에 따라 스펙트럼이 있는 거 아닌가요? 보기에는 좋은 보고서지만 정보가 그런대로 괜찮은 보고서가 될 수도 있습니다.

사람들이 결과를 받았을 때 차이점을 이해하는 데 어려움을 겪는다고 생각하시나요 ? 제 생각에는 사람들은 결과를 얻었을 때 차이를 이해하고 심층적인 연구 결과가 얼마나 좋은지에 놀라는 것 같습니다.

물론 100%는 아닙니다.

더 나아질 수 있었고, 우리는 그것을 개선할 것입니다.

하지만 저는 사람들이 좋은 보고서와 나쁜 보고서의 차이를 알아차릴 수 있다고 생각합니다.

좋은 보고서와 보통의 보고서도 분명히 구별할 수 있고, 그 차이가 나중에 제품을 구축하고 모델 성능을 개선하는 데 충분할 것입니다.

제 말은, 사람들이 결과물의 차이를 알 수 없는 상황이라면 , 등반 이든 진전이든 별로 중요하지 않다고 생각해요.

음, 이런 모델은 성공의 척도가 있는 분야에서는 더욱 발전할 겁니다.

이제 저는 이 아이디어가 쉽게 검증 가능해야 한다는 등의 내용이 필요하다고 생각합니다 .

저는 그게 사실이라고 생각하지 않아요.

저는 이러한 모델이 성공이 정의하기 어려운 분야에서도 성공할 수 있다고 생각합니다.

때로는 성공이 주관적일 수도 있습니다.

사람들은 당신이 했던 것처럼 빠르게 생각하는 것과 느리게 생각하는 것에 많이 의존합니다.

이는 사고 모델에 대한 비유이고, 지금은 상당히 널리 퍼졌다고 생각합니다.

이것이 다음 확장 패러다임이라는 아이디어는 모든 비유가 불완전합니다.

빠르게 생각 하고 느리게 생각하는 것 또는 시스템 1, 시스템 2가 실제로 이러한 것을 확장하는 방식으로 전환되지 않는 한 가지 방법은 무엇입니까? 제 생각에 과소평가되고 있는 한 가지는 사전 훈련된 모델이 이러한 추가적인 사고의 이점을 실제로 얻으려면 특정 수준의 기능이 필요하다는 것입니다 .

이것이 바로 추론 패러다임이 그 당시에 등장하게 된 이유입니다.

더 일찍 일어났을 수도 있었을 것 같지만, GBD2에 추론 패러다임을 적용해 보면 별 효과가 없었을 것 같아요.

이것이 출현인가? 그것이 반드시 출현인지 말하기는 어렵지만, 제가 그것을 명확하게 정의할 수 있는 측정을 한 적은 없습니다 .

음, 하지만 사람들이 GBD로 생각의 사슬을 시도했던 건 분명한 것 같아요.

아주 작은 모델로 시도했지만, 그게 별 효과가 없다는 걸 깨달았죠 .

그러면 더 큰 모델을 사용하면 더 좋아지기 시작합니다 .

이런 종류의 행동이 어느 정도 새롭게 나타나는지에 대해서는 많은 논란이 있지만, 분명히 차이가 있습니다.

그러니까, 이 두 개의 독립적인 패러다임이 존재하는 것은 아닙니다.

모델 에 특정 수준의 시스템 1 기능이 있어야 시스템 2를 갖출 수 있고, 시스템 2의 이점을 누릴 수 있다는 점에서 시스템 2와 시스템 1은 서로 연관되어 있다고 생각합니다.

네, 저는 이전에 아마추어 신경과학자들을 상대로 게임을 해본 적이 있고, 그것을 뇌의 진화와 비교해보려고 했습니다.

뇌의 다른 부분을 진화시키기 전에 먼저 대뇌 피질이 진화해야 한다는 거죠.

그리고 아마도 그것이 우리가 여기서 하고 있는 일일 것입니다.

응.

그리고 실제로 이건 제가 생각하는 시스템 1, 시스템 2 패러다임과 크게 다르지 않다고 주장할 수도 있습니다.

왜냐하면 체스를 두는 것에 대해 비둘기에게 정말 열심히 생각하라고 하면, 그것이 그렇게 멀리까지 갈 수 없다는 것을 알기 때문입니다.

천 년 동안 생각해도 체스를 더 잘 둘 수 없을 거라는 걸 알잖아요.

그러니 동물과 인간과 마찬가지로 시스템 1의 측면에서도 특정 수준의 지적 능력이 필요하며, 그렇게 하지 않으면 시스템 2의 혜택도 받을 수 없을 것입니다.

응.

바로 이 t 측면 접선이 시각적 추론에도 적용됩니다.

그러니까 이제 우리에게 40과 같은 기본적인 옴니모델 유형이 있다고 가정해 봅시다.

그러면 03은 지오게서에서도 정말 뛰어나게 됩니다.

다른 방식에도 적용되는가요? 저는 증거가 그렇다고 생각합니다.

이는 귀하가 어떤 종류의 질문을 하는지에 따라 달라집니다.

시스템 2에서 별로 도움이 되지 않는 몇 가지 질문이 있다고 생각합니다.

지리적 게스트는 확실히 도움이 되는 질문 중 하나라고 생각합니다.

제가 추측해야 한다면 이미지 인식은 시스템 2 사고방식에서 덜 혜택을 받는 것 중 하나일 겁니다.

왜냐하면 그것을 알고 있느냐 모르느냐에 따라 다르기 때문입니다.

응.

정확히.

그럴 리가 없습니다.

응.

그리고 제가 보통 지적하는 것은 정보와 검색과 같은 것입니다 .

누군가가 당신에게 이 사람이 언제 태어났냐고 물었는데, 당신이 인터넷에 접속할 수 없다면, 당신은 그것을 알거나 모르거나 둘 중 하나일 뿐이고, 당신은 거기 앉아서 오랫동안 생각할 수도 있을 겁니다 .

아마도 여러분은 교육받은 추측을 할 수 있을 것이고, 이 사람은 아마도 이 시기에 살았을 것이고 따라서 대략적인 날짜일 것이라고 말할 수 있을 것입니다.

하지만 실제로 알지 못한다면 데이트를 좋아할 수 없을 겁니다 .

하지만 틱택토와 같은 공간적 추론이 더 나을 수도 있습니다.

왜냐하면 거기에 모든 정보가 있기 때문입니다.

응.

그리고 틱택토에서 볼 수 있듯이 GPD 4.

5가 떨어지는 것은 사실이라고 생각합니다.

아시다시피, 꽤 잘 재생됩니다.

넘어진다고는 말할 수 없겠지.

꽤 잘 되는 편이에요.

보드를 그릴 수 있습니다.

합법적인 움직임을 할 수 있지만, 때로는 실수를 할 수도 있습니다.

그리고 완벽하게 재생하려면 그 시스템도 정말 필요합니다.

이제 GBD6에 도달해서 시스템 1만 실행했다면 완벽하게 플레이될 가능성이 있습니다 .

아시다시피, 언젠가는 알게 되겠지만, 지금 당장은 정말 잘하려면 시스템 두 개가 필요할 것 같아요 .

시스템 1에 필요한 것은 무엇이라고 생각하시나요? 그러니 게임 규칙에 대한 일반적인 이해가 필요합니다.

메타 게임 같은 것도 이해해야 하나요? 보통 게임에서 조각을 어떻게 평가하는지 알고 싶죠.

시스템 1에서 일반화해서 시스템 2에서 게임플레이에 도달할 수 있는 방법이 있나요 ? 저는 시스템 1이 많을수록, 인간에게도 마찬가지라고 생각합니다.

인간이 처음으로 체스 같은 게임을 할 때, 시스템 2 사고방식을 많이 적용할 수 있습니다 .

그리고 거기에 시스템 2 사고방식을 많이 적용한다면, 예를 들어 정말 똑똑한 사람에게 완전히 새로운 게임을 제시하고, " 좋아요, 이 게임을 AI나 이 게임을 완벽하게 마스터한 사람과 플레이해 볼게요.

"라고 말한다면, 그 사람에게 3주 동안 앉아서 이 게임을 플레이하는 방법에 대해 생각하라고 말하는 셈입니다.

제 추측으로는 실제로 꽤 잘할 수 있을 것 같지만, 게임에 대한 직관을 키우는 사고방식을 구축하는 데는 분명 도움이 될 겁니다.

그렇게 하면 정말 많은 것을 얻을 수 있을 테니까요.

훨씬 더 빨라요.

포켓몬의 예가 좋은 예라고 생각합니다.

시스템 1에는 게임에 대한 모든 정보가 있고, 게임에 적용한 후에도 작동하려면 여전히 많은 하네스가 필요합니다.

하네스에서 얼마나 많은 것을 가져와서 시스템 1에서 시스템 2로 가져와서 가능한 한 하네스 없이 사용할 수 있을지 알아내려고 합니다.

하지만 그건 게임과 AI를 일반화하는 것과 같은 질문인 것 같습니다.

네, 저는 그건 다른 질문이라고 생각합니다.

하네스에 대한 질문은 제 생각에 이상적인 하네스는 하네스가 없다는 것입니다.

그렇죠.

저는 하네스가 결국에는 우리가 넘어설 수 있는 지팡이와 같다고 생각합니다.

그러니까 비용이 두 가지뿐이고, O3에 물어보면 되죠.

사실, 알 다시피, 흥미로운 건 포켓몬을 플레이하는 게 일종의 벤치 마크로 등장했다는 거예요.

사실 저는 눈을 뜨고 있는 모델로 이것을 평가하는 데 꽤 반대했습니다.

제 생각은 이렇습니다.

이 평가를 하려면 03으로 해보자는 겁니다.

03은 아무런 하네스 없이 얼마나 멀리 갈 수 있을까요 ? 포켓몬을 플레이하면 어디까지 갈 수 있나요 ? 그리고 답은 그리 멀지 않다는 거예요 , 아시죠? 음, 괜찮아요.

모델이 매우 나쁜 성과를 보여도 평가는 괜찮다고 생각합니다.

그리고 저는 그 질문에 대한 답이 ' 이제 이 평가에서 좋은 성적을 낼 수 있도록 정말 좋은 하네스를 만들자'는 식은 아니라고 생각합니다.

제 생각에 답은 다음과 같습니다.

좋아요, 그럼 모델의 성능을 개선해서 모든 면에서 좋은 성과를 낼 수 있게 하고, 이 평가에서도 진전을 이루도록 하죠.

유효한 하네스 이동을 확인하는 것과 같은 것을 고려하시겠습니까? 아니면 이것이 모델에 있습니까 ? 체스 같은 거요.

시스템 1에서는 모델이 어떤 움직임이 유효한지, 무엇을 할 수 있고 할 수 없는지 학습하는 반면, 시스템 2에서는 알아내는 것과 같습니다.

제 생각에는 디자인에 관한 질문이 많은 것 같아요 .

저는 원한다면 모델에게 어떤 움직임이 합법적인지 확인할 수 있는 기능을 제공해야 한다고 생각합니다.

그런 식으로, 그게 이런 환경에서 옵션이 될 수 있을 것 같아요.

알 겠어요.

도구 호출 같은 걸 통해 해당 동작이 합법적인지 확인할 수 있고, 그렇게 하고 싶다면 사용할 수 있고, 그런 다음 모델이 불법적인 움직임을 하면 어떻게 해야 하는지와 같은 설계 질문이 있고, 모델이 불법적인 움직임을 하면 게임에서 지는 게 완전히 합리적이라고 생각해요.

사람이 체스 게임에서 불법적인 움직임을 하면 어떻게 되는지 잘 모르겠어요.

사실 잘 모르겠어요.

그냥 게임에서 지는 건가요? 잘 모르겠어요.

그렇다면 AI 모델에 대한 평가 기준도 되는 평가를 해야 한다고 말하는 게 완전히 합리적이라고 생각해요.

응.

하지만 연구자의 관점에서 해석할 수 있는 한 가지 방법은 검색을 할 수 있는지 여부입니다.

Deep Seek의 유명한 발견 중 하나는 MCTS가 그들에게 그다지 유용하지 않았다는 것입니다 .

하지만 많은 엔지니어가 검색을 시도하고 많은 토큰을 소비하고 있는 것 같고, 그럴 만한 가치가 없는 것 같습니다.

글쎄요, 여기서 제가 구별하고 싶은 건, 어떤 움직임이 합법적인지 불법적인지 확인하기 위해 도구를 사용하는 것과, 실제로 그 움직임을 실행한 후에 그것이 합법적인지 불법적인지 확인하는 것은 다르다는 겁니다 .

오른쪽? 그러니 그 도구 호출이 가능하다면, 그 도구 호출을 해서 움직임이 합법적인지 불법적인지 확인하는 게 전혀 괜찮다고 생각합니다.

모델이 "아, 내가 이런 움직임을 하고 있구나"라고 말하는 건 다르다고 생각해요.

응.

그러면 "아, 불법적인 행동을 했군요"라는 피드백이 나오죠.

그래서, "아, 농담이에요.

이제 다른 걸 할게요.

"라는 생각이 들죠.

그러니까, 그게 제가 그리는 구별점이에요 .

어떤 사람들은 두 번째 유형의 사물 배치를 테스트 시간 컴퓨팅으로 분류하려고 했습니다.

그것을 시험 시간 계산으로 분류하지는 않을 것입니다 .

로봇이 있다고 상상해 보세요.

로봇이 세상에서 어떤 행동을 취하다가 무언가를 부수면, " 아, 농담이야"라고 말할 수 없을 겁니다 .

이런 패러다임에 의존하고 싶지 않은 데에는 여러 가지 이유가 있습니다.

그럴 의도는 없었어요 .

해당 작업을 취소하겠습니다.

마치 그것이 고장난 것처럼.

따라서 이런 방식으로 로봇을 움직인 다음 시뮬레이션에서 해당 물체가 부서진 것을 확인하고 해당 동작을 하지 않기로 결정했다면 어떻게 될지 시뮬레이션하고 싶다면, 전혀 문제가 없지만 세상에서 수행한 동작을 그냥 실행 취소할 수는 없습니다 .

이 대략적인 부분에서 다루고 싶은 것이 몇 가지 더 있습니다 .

사실 저는 빠르고 느린 사고에 대한 답변을 가지고 있는데, 많은 사람들이 효과적인 모델 라우터 계층을 넣으려고 노력하고 있다고 생각합니다.

예를 들어 빠른 응답 모델과 장기 사고 모델인 엔트로픽 사이에요.

엔트로픽은 명시적으로 그렇게 하고 있고, 항상 라우팅을 위해 스마트 판단이 필요한지 아니면 빠르기 때문에 라우트하기 위해 멍청한 판단이 필요한지에 대한 질문이 있는 것 같습니다.

모델 라우터가 있다고 가정해 보겠습니다.

시스템 한 쪽과 시스템 두 쪽 사이에 요청을 전달한다고 가정해 보겠습니다.

라우터는 빠르기 위해 스마트 모델만큼 스마트해야 할까요, 아니면 멍청해야 할까요? 멍청한 모델이라도 문제가 정말 어렵고 스스로는 해결할 수 없다는 걸 인식하고 더 유능한 모델에 문제를 전달하는 건 가능하다고 생각합니다.

하지만 멍청한 모델이 속거나 과신하는 것도 가능합니다.

모르겠습니다.

저는 거기에 실제로 상충관계가 있다고 생각합니다.

하지만 저는 지금 사람들이 만들고 있는 많은 것들이 결국에는 규모 때문에 쓸려 없어질 것이라고 생각합니다.

그래서 저는 하네스가 결국 모델이 될 좋은 예라고 생각하고 이런 일은 추론 모델에서 실제로 일어났다고 생각합니다.

추론 모델이 등장하기 전에는 추론 행동을 얻기 위해 GBD40이나 이러한 비추론 모델에 많은 호출을 하는 이런 에이전트 시스템을 엔지니어링하는 데 많은 작업이 필요했습니다.

그런데 결국에는 그냥 추론 모델을 만들었고 이런 복잡한 행동은 필요 없다는 것이 밝혀졌습니다.

사실, 여러 면에서 상황을 더 나쁘게 만듭니다.

아무런 스캐폴딩도 없이 추론 모델에 같은 질문을 던지고 그냥 그대로 두면 됩니다.

그래서 사람들은 지금 추론 모델 위에 스캐폴딩을 쌓고 있지만, 저는 여러 면에서 그러한 스캐폴딩도 추론 모델로 대체될 것이고, 모델 전체가 더욱 유능해질 것이라고 생각합니다.

마찬가지로 라우터와 같은 모델도 우리가 공개적으로 단일 통합 모델이 있는 세상으로 이동하고 싶다고 말했고, 그 세상에서는 모델 위에 라우터가 필요하지 않을 것입니다.

그래서 저는 라우터 문제가 결국 해결될 것이라고 생각합니다.

또한 라우터를 모델에 내장하면 그 자체로 가중치가 부여됩니다.

저는 이런 것에 이점이 있을 거라고 생각하지 않습니다.

제가 틀렸을 수도 있고, 다른 모델 공급업체로 라우팅하는 데에는 이유가 있겠지만, 라우터는 결국 사라질 것이라고 생각합니다.

단기적으로는 그럴 만한 가치가 있는 일이죠.

사실 지금 당장 유익하고, 제품을 만들고 있고 그것으로부터 이득을 얻고 있다면 지금 당장 그럴 만한 가치가 있는 일입니다.

제가 생각하기에 많은 개발자가 직면한 까다로운 일 중 하나는 6개월, 12개월 후에 이 모델이 어떻게 될지 계획해야 한다는 것입니다.

일이 매우 빠르게 진행되기 때문에 이는 매우 어렵습니다 .

아시다시피, 6개월 동안 뭔가를 만들어 놓고 규모 때문에 완전히 사라지는 건 원치 않을 겁니다.

하지만 저는 개발자들에게 이런 종류의 것을 만들 때, 예를 들어 스캐폴드나 라우터 같은 것을 만들 때, 이 분야가 매우 빠르게 발전하고 있다는 점을 명심하라고 권하고 싶습니다.

아시다시피, 3개월이면 상황이 바뀔 겁니다.

6개월이면 더 바뀝니다.

그러기 위해서는 이런 것들을 근본적으로 바꿔야 할 수도 있고, 아니면 완전히 없애야 할 수도 있습니다.

그러니 6개월 후에 버려질 만한 것을 6개월 동안 만들어내지 마세요.

하지만 정말 어렵죠.

모두가 이렇게 말하지만, 어떻게 해야 할지에 대한 구체적인 제안은 아무도 하지 않습니다.

강화 미세 조정은 어떻습니까? 이건 한 달 전에 Openai에서 출시한 것인가요? 사람들이 지금 당장 시간을 들여야 할 일인가요, 아니면 다음 점프까지 기다려야 할까요? 저는 강화 미세화는 꽤 멋지다고 생각하고, 데이터에 맞게 모델을 특수화하는 것과 관련이 있기 때문에 살펴볼 가치가 있다고 생각합니다.

개발자라면 누구나 살펴볼 가치가 있는 것인데, 갑자기 원시 모델에 데이터가 포함되는 경우가 많지는 않을 테니까요.

그래서 저는 그것이 일종의 별개의 질문이라고 생각합니다.

응.

그러니 지금 당장 사람들이 할 수 있는 가장 좋은 일은 환경을 조성하고 보상 모델을 만드는 것입니다 .

사람들이 궁금해하는 질문은 RFT를 사용하여 모델을 미세하게 조정해야 하는지, 아니면 모델이 좋아지면 RFT를 사용하여 하네스를 구축해야 하는지입니다.

제 생각에는 강화 미세 조정의 차이점은 모델이 개선됨에 따라 유용한 데이터를 수집한다는 것입니다.

그러니 앞으로 더욱 성능이 뛰어난 모델이 나온다면 데이터에 맞춰 미세하게 조정할 수도 있을 겁니다.

제 생각에는 이건 실제로 모델의 확장성을 보완 하고 더욱 유능해지는 것을 구축하는 좋은 예이며, 반드시 규모에 따라 사라지는 것은 아닙니다.

일리아에 대한 마지막 질문 하나만 더 주세요.

몇 년 전에 일리아와 함께 RL 과 추론, 언어 모델에 대한 대화를 나눈 Sarah and Elad 팟캐스트에서 언급하셨던 것 같은데요.

그가 시도했을 때 왜 효과가 없었는지, 시기가 적절하지 않았던지, 그리고 왜 지금이 적절한 시기인지에 대한 추측이나 생각이 있으면 알려주세요.

저는 이런 식으로 그의 시도가 여러 면에서 성공적이지 못했다고 말할 생각은 없습니다 .

음, 일리아, 저는 포커, 하나비, 외교 등 제가 작업한 모든 분야에서 모델이 행동하기 전에 생각하는 것이 성과에 엄청난 차이를 가져온다는 것을 보았습니다 .

예를 들어 10,000배 정도의 차이가 있었습니다.

응.

아시 다시피, 1,000배에서 100,000배 정도 더 큰 모델이 있는 셈이죠.

그리고 언어 모델에서는 모델이 그저 즉시 반응한다는 것을 실제로 볼 수 없었습니다 .

LLM 분야의 일부 사람들은 ' 좋아요, 사전 학습을 계속 확장하면 초지능에 도달할 수 있을 거예요'라고 확신했습니다.

저는 그런 관점에 회의적이었습니다.

2021년 말, 저는 일리아와 함께 식사를 하고 있었습니다.

그는 내 AGI 타임라인이 어떻게 되는지 물었습니다.

매우 표준적인 SF 질문이에요.

그리고 저는 그에게 이렇게 말했습니다.

"사실, 제 생각에는 꽤 먼 미래일 거예요.

우리는 매우 일반적인 방식 으로 이 추론 패러다임을 파악해야 하거든요 .

" LM과 같은 것들은 매우 일반적이지만, 매우 일반적인 추론 패러다임은 없습니다 .

그러기 전까지는 그들이 할 수 있는 일은 제한될 겁니다.

우리는 그것을 확장할 거예요.

물론, 우리는 이것들을 몇 배 더 확대할 것입니다.

그들은 더 유능해지겠지만, 그것만으로 엄청난 지능을 갖게 될 것은 아닙니다.

그리고, 만약 우리가 이 모델을 훈련시키는 데 천조 달러가 있다면 , 아마 그럴 수 있겠지만, 추론 패러다임이 없다면 초지능에 도달하기 전에 경제적으로 실행 가능한 한계에 도달하게 될 것입니다.

그리고 저는 추론 패러다임을 알아 내는 데 오랜 시간이 걸릴 것이라고 잘못 확신했습니다.

왜냐하면 그것은 마치 답이 없는 거대한 연구 질문과 같기 때문입니다.

그리고 일리아도 제 의견에 동의했고, 그는 "그래요, 저는 우리에게 이런 추가적인 패러다임이 필요하다고 생각합니다.

"라고 말했습니다.

하지만 그의 의견은 " 그렇게 어렵지 않을 수도 있다"는 것이었습니다.

당시에는 몰랐지만 그와 OpenAI의 다른 사람들도 이에 대해 생각하고 있었습니다.

그들은 또한 RL에 대해서도 생각하고 있었습니다.

그들은 그 일을 해왔고 어느 정도 성공했다고 생각 하지만, 대부분의 연구가 그렇듯이 반복 작업을 해야 합니다 .

다양한 아이디어를 시도해보아야 합니다 .

네, 여러 가지를 시도해야 합니다.

그리고 모델이 더 유능해지고 더 빨라지면 실험을 반복하기가 더 쉬워지고 그들이 한 작업은 비록 결과가 마음에 들지 않았더라도 추론 패러다임을 만들어냈고, 모두 이전 작업을 기반으로 구축된 것입니다.

그래서 그들은 시간이 지남에 따라 이 추론 패러다임을 만들어낸 많은 것을 만들었습니다.

청취자 여러분, gnome이 이에 대해 이야기할 수 있지만 소문에 따르면 그 작업은 GPT0로 이름이 바뀌었다고 합니다.

해당 작업 분야를 검색하려면 여기를 클릭하세요.

저는 아로가 기본적으로 어두운 시기를 겪었던 적이 있다고 생각합니다.

모두가 모든 걸 걸었지만 아무 일도 일어나지 않고 포기했던 시기죠.

지금은 다시 황금기를 맞은 것 같습니다.

그래서 저는 그것이 왜 그런지 알아내려고 노력하고 있고, 우리가 더 스마트한 기본 모델과 더 나은 데이터를 가지고 있기 때문일 수도 있습니다.

저는 단순히 우리가 더 똑똑한 기본 모델을 가지고 있다는 것만이 문제가 아니라고 생각합니다 .

네, 저는 추론에서 큰 성공을 거두었다고 생각합니다.

하지만 여러 면에서 점진적인 일이었다고 생각합니다.

점진적인 일 이었습니다.

생명의 징조가 있었고, 우리는 반복하고 더 많은 것을 시도했고, 더 나은 생명의 징조를 얻었습니다.

2023년 11월이나 2023년 10월쯤이었던 것 같습니다.

저는 생명 의 징조가 매우 확실하다고 확신했고, 이것이 패러다임이 될 것이고, 큰 일이 될 것이라고 생각했습니다 .

여러 면에서 점진적인 일이었습니다.

OpenAI가 잘한 점은 생명의 징후가 나타났을 때 그것이 무엇인지 알아차리고 규모를 확장하기 위해 막대한 투자를 했다는 점이라고 생각합니다.

그리고 저는 그것이 결국 추론 모델이 등장하게 된 이유라고 생각합니다.

특히 OpenAI가 선구적인 사전 학습 확장의 일종이라는 점, 컴퓨터가 모든 것을 담당한다는 점, 그리고 그게 목표에 도달하는 방법이 아니라는 점 때문에 내부적으로 의견 불일치가 있었나요? 이게 효과가 있을 거라는 게 모든 사람에게 명확하게 전달되었나요? 아니면 논란의 여지가 있었나요? 이런 것에 대해서는 항상 다양한 의견이 있습니다.

사전 훈련만 하면 된다고 생각하는 사람들이 있었고, 우리는 그것을 무한대로 확장했고, 그 목표를 달성했습니다 .

저는 OpenAI의 많은 리더십이 다른 패러다임이 필요하다는 것을 인식했고, 그래서 RL 같은 것에 모든 연구 노력을 투자하게 되었다고 생각합니다 .

그리고 저는 그것이 또한 눈을 뜨게 한 공로라고 생각합니다.

그들이 사전 훈련 패러다임을 알아냈고 그것을 확장하는 데 매우 집중했다는 것입니다.

실제로 대부분의 리소스는 확장에 집중되었습니다 .

하지만 그들은 또한 뭔가 다른 것이 필요할 것이라는 가치를 인식했고, 그 추가적인 패러다임이 무엇인지 알아내기 위해 연구자의 노력을 다른 방향으로 쏟는 것이 가치 있다는 것을 깨달았습니다 .

우선, 추가 패러다임이 무엇인지에 대한 많은 논쟁이 있었습니다 .

그래서 많은 연구자들이 추론에 주목했고, 강화 학습은 실제로 테스트 시간 컴퓨팅의 확장에 관한 것이 아니었습니다 .

데이터 효율성이 더 중요했습니다.

엄청난 양의 컴퓨팅을 할 수 있지만 실제로는 데이터로 인해 더 많은 제한을 받는다는 느낌이 들었기 때문입니다 .

그래서 데이터 장벽이 존재하고, 컴퓨팅의 한계에 도달하기 전에 이 장벽을 극복하게 될 것입니다 .

그러면 이러한 알고리즘을 데이터 효율성 향상에 어떻게 활용할 수 있을까 ? 데이터 효율성은 더 높지만, 컴퓨팅 능력을 엄청나게 확장하는 것과 마찬가지라고 생각합니다.

흥미로웠어요.

여기서 우리가 정확히 무엇을 하고 있는 걸까? 라는 주제로 많은 논쟁이 있습니다.

그리고 우리가 생명의 징후를 발견했을 때조차도 그 중요성에 대해 많은 논쟁이 있었던 것 같아요.

이 패러다임을 확장하는 데 얼마나 투자해야 할지 말이죠 .

특히 2023년 당시에는 오픈 AI가 지금처럼 크지 않았고 컴퓨팅도 지금보다 더 제한적이었기 때문에 소규모 회사에 근무할 때는 더욱 그렇다고 생각합니다 .

그리고 만약 여러분이 다른 것을 희생하면서까지 어떤 방향에 자원을 투자한다면 , 따라서 추론에서 이러한 생명의 징후를 보고, "좋아, 이건 유망해 보여.

우리는 이걸 엄청나게 확장 하고 훨씬 더 많은 자원을 투자할 거야.

그 자원은 어디서 나오는 거지?"라고 말할 수 있습니다.

어디에서 자원을 끌어올릴 것인지에 대한 어려운 결정을 내려야 합니다 .

그리고 그것은 매우 논란의 여지가 있고, 어떤 사람들을 불행하게 만드는 매우 어려운 결정입니다.

그리고 저는 우리가 이 패러다임에 너무 집중하고 있는지, 그것이 정말 큰 문제인지, 그것이 일반화되어 다양한 영향을 미칠 수 있는지에 대한 논쟁이 있었다고 생각합니다.

그리고 저는 추론 패러다임을 발견했지만 01을 발표하기 전에 OpenAI를 떠난 사람과 이야기를 나눈 것이 흥미로웠던 걸 기억합니다.

그들은 결국 컴퓨팅 연구실로 갔습니다.

um 01을 발표한 후에 그들을 다시 만났는데, 당시에는 O 시리즈나 스트로베리 모델과 같은 이런 추론적인 것들이 그렇게 대단한 일이 아니라고 생각했다고 하더군요.

그들은 우리가 실제로 받을 만한 것 보다 더 큰 문제를 만들고 있다고 생각하는 것 같았습니다 .

그리고 우리가 01을 발표했을 때, 경쟁 연구실의 동료들이 모두 " 맙소사, 이게 대단한 일이야"라는 반응을 보였습니다.

그리고 그들은 전체 연구 일정을 바꾸었습니다.

맙소사.

이것에 집중하다 보니 , "아, 이게 정말 대단한 일일 수도 있겠다"는 생각이 들더군요.

아시다시피, 이런 일들은 돌이켜보면 당연한 것처럼 보이지만, 당시에는 사실 그렇지 않고 무엇인지 알아차리기가 꽤 어려울 수 있습니다.

제가 말하는 건, OpenAI는 항상 올바른 결정을 내리는 훌륭한 역사를 가지고 있다는 겁니다.

GBD 모델도 비슷한 것 같아요, 맞나요? 게임과 RL로 시작했는데, 대신 언어 모델을 확장하면 될 것 같아요.

그리고 저는 리더십과 이러한 통찰력을 지속적으로 내놓는 연구팀에 깊은 인상을 받았습니다.

오늘날 돌이켜보면, 이런 모델은 확장할수록 좋아지는 건 당연하다고 생각할 수도 있겠지만 , 그냥 규모를 크게 키우면 좋아질 거라고 생각합니다.

하지만 그것이 정말 최고의 연구였는지는 회고해보면 명백하고, 당시에는 오늘날 보이는 것만큼 명백하지 않습니다.

데이터 효율성에 대한 질문을 따르세요.

어, 이건 제가 자주 궁금해하는 주제인데요.

우리의 현재 학습 방법은 인간의 존재 증명과 비교해도 여전히 너무 비효율적인 듯합니다 .

우리는 샘플 5개를 채취해서 무엇인가를 배웠습니다.

200대의 기계 라면 필요한 데이터 포인트가 무엇인지 알고 있을 겁니다.

데이터 효율성에 관해 흥미로운 연구를 하는 사람이 있나요? 아니면 머신 러닝에는 인간에 비해 항상 존재하는 근본적인 비효율성이 있다고 생각하시나요? 모델이 훈련되는 데 사용되는 데이터 양을 살펴보고, 동일한 성능을 얻기 위해 사람이 관찰하는 데이터 양과 비교해 보는 게 좋다고 생각합니다 .

사전 훈련이라 사과와 사과를 비교하는 건 좀 어려울 것 같아요.

아기가 발달하는 동안 실제로 얼마나 많은 토큰을 흡수하는지 모르니까요 .

하지만 저는 이러한 모델이 인간보다 데이터 효율성이 떨어진다고 말하는 것이 타당하다고 생각합니다.

저는 그것이 풀리지 않은 연구 문제이고, 아마도 가장 중요한 풀리지 않은 연구 문제 중 하나라고 생각합니다.

어쩌면 알고리즘 개선보다 더 중요할 수도 있습니다.

왜냐하면 우리는 현존하는 세상과 인간으로부터 데이터 공급을 늘릴 수 있기 때문입니다.

괜찮을 것 같아요.

그에 대해 몇 가지 생각을 말씀드리겠습니다.

그 중 하나는 알고리즘 개선이 답이 될 수 있다는 것입니다 .

어쩌면 알고리즘 개선으로 데이터 효율성이 더 높아질 수도 있겠죠.

두 번째로, 인간은 단지 인터넷을 읽는 것만으로는 학습할 수 없다는 것입니다.

그래서 저는 인터넷에 있는 데이터에서 배우는 것이 가장 쉽다고 생각합니다 .

음, 하지만 그게 수집할 수 있는 데이터의 한계라고는 생각하지 않아요 .

주제를 코딩으로 바꾸기 전 마지막 후속 내용입니다.

일리아와 함께 일한 적이 있어서 그와 일한 경험이 있는 사람과 이야기를 나눌 수 있는 사람이 많지 않기 때문에 일리아에 대한 일화나 통찰력이 있나요? 저는 그의 비전에 매우 깊은 인상을 받았습니다.

특히 제가 OpenAI에 합류했을 때, 그가 2021년, 2022년경에 생각했던 것과 같은 내부 문서를 보았을 때, 그가 이 모든 것이 어디로 향하고 무엇이 필요한지에 대한 명확한 비전을 가지고 있다는 사실에 깊은 인상을 받았습니다 .

그가 오픈 AI를 창립했던 2016-17년에 보낸 이메일 중 일부가 공개되었는데, 그때도 그는 하나의 큰 실험이 100개의 작은 실험보다 훨씬 더 가치 있다고 생각한다고 말했습니다.

예를 들어, 그러한 실험은 뇌와 차별화되는 핵심 통찰력과 같습니다.

그는 다른 사람들보다 사물을 훨씬 더 명확하게 보는 것이 매우 통찰력 있는 것 같습니다.

저는 그의 생산 함수가 어떤지, 어떻게 하면 그런 인간을 만들 수 있는지, 그리고 어떻게 하면 자신의 사고방식을 개선하여 더 나은 모델로 만들 수 있는지 궁금합니다.

제 말은, 오픈이 가장 큰 성공을 거둔 것 중 하나가 확장성 패러다임에 베팅한 것이라고 생각합니다.

그게 이상한 일인 이유는 그들이 가장 큰 연구소는 아니었고, 당시에는 규모를 줄이는 게 어려웠기 때문입니다.

많은 소규모 실험을 하는 게 훨씬 일반적이었고, 더 학문적인 스타일의 사람들이 이런 다양한 알고리즘 개선 과 대규모 오픈벳을 일찍부터 알아내려고 노력했습니다 .

GPT1과 2 당시 VPenge였던 데이비드 완이 있었는데, 그는 Brain과 OpenAI의 차이점은 기본적으로 Google이 확장 가능한 모델을 내놓을 수 없는 원인이라고 말했습니다.

구조적으로 모든 사람이 컴퓨팅을 할당했고 베팅을 하기 위해 리소스를 모아야 했지만 그럴 수 없었습니다.

OpenAI가 구조가 달랐던 건 사실이라고 생각하고, 그게 OpenAI에 큰 도움이 되었다고 생각합니다.

OpenAI는 스타트업처럼 기능하는 반면, 다른 곳은 전통적으로 존재했던 대학이나 연구실처럼 기능하는 경향이 있거든요 .

OpenAI가 AGI와 초 지능을 구축한다는 사명을 가진 스타트업처럼 운영되는 방식은 조직, 협업, 리소스 통합, 리소스 할당 방법 등에 대한 어려운 선택을 하는 데 도움이 되었고, 다른 많은 연구소도 이와 비슷한 패러다임을 채택하려고 노력하고 있습니다 .

적어도 제가 생각하는 이 모델의 핵심 사용 사례인 코딩에 대해 이야기해 보겠습니다.

네, 최근에 codeex를 출시했지만, 저는 gnome brown 코딩 스택에 대해 이야기해보고 싶습니다 .

어떤 모델을 사용하는지, 어떻게 상호작용하는지, 커서, 윈드 서핑 등입니다.

음, 최근에는 윈드서프 와 코덱을 많이 사용하고 있어요 .

정말 즐거운 시간을 보냈어요.

그냥 작업을 주면 그냥 실행되고 5 분 후에 풀 리퀘스트 같은 걸 가지고 돌아오는 거죠.

그리고 그것은 핵심 연구 과제인가요, 아니면 별로 신경 쓰지 않는 부수적인 일인가요 ? 저는 그것이 부수적인 것이라고 말하고 싶지 않습니다 .

기본적으로 제가 일반적으로 코딩하려고 하는 모든 것은 먼저 codeex로 작업하려고 노력합니다.

글쎄요, 여러분에게는 무료지만, 그렇죠, 지금은 모든 사람에게 무료예요.

제 생각에는 이것이 제게 가장 효과적인 방법이기 때문이기도 하고, 이 기술을 다루는 경험을 얻는 것도 좋고, 그 기술 의 단점을 보는 것도 좋기 때문이기도 합니다.

이는 제가 이 모델의 한계가 무엇인지, 그리고 앞으로 무엇을 더 발전시켜야 할지 더 잘 이해하는 데 도움이 됩니다.

AGI를 느껴보셨나요? 저는 AJ를 여러 번 느꼈습니다 .

예.

음, 사람들이 Codeex를 당신이 한 것처럼 홍보하려면 어떻게 해야 할까요? 당신은 다른 사람들보다 먼저 그것을 보았던 것 같아요.

당연히 당신은 그것에 더 가까웠으니까요.

저는 누구나 코덱을 사용하여 AGI를 느낄 수 있다고 생각합니다.

AGI를 느끼고 나면 금방 익숙해지는 게 재밌는 일이죠.

그래서 정말 불만족스러운 부분이 있는 셈이죠.

네, 알아요.

그리고 당신은 그것이 어느 날 마법같은 일이라는 것을 압니다.

사실 저는 소라가 발표되었을 때 오래된 영상을 다시 보고 있었어요.

소라가 나왔을 때를 기억하시죠? 역대 최대 뉴스였거든요.

정말 마법같았어요.

이걸 보면, 이게 정말 AGI인 것 같다는 생각이 들죠.

하지만 지금 살펴보면, 사람들이 자연스럽게 움직이지 않고 어떤 면에서는 일관성이 부족한 것 같고, 처음 나왔을 때는 눈치채지 못했던 결함들이 눈에 띄고, 이 기술에 금방 익숙해질 수 있을 것 같아요.

하지만 제 생각에 멋진 점은 너무 빨리 발전하고 있어서 몇 달에 한 번씩 실감 나는 AGI 순간을 느낄 수 있다는 거예요.

그래서 뭔가 다른 것이 나올 텐데, 마치 마법처럼 느껴지고 그러다 보면 금방 익숙해지죠 .

응.

윈드서핑 에 푹 빠진 당신에게, 전문가로서의 팁은 무엇인가요? 제가 놀란 점 중 하나는 제가 말하는 사람이 너무 적다는 것입니다.

아마도 청중은 추론 모델에 더 익숙하고 추론 모델을 더 많이 사용할 것입니다.

하지만 03이 존재한다는 사실 조차 모르는 사람이 얼마나 많은지 놀랍습니다 .

내가 매일 사용하고 있는 것처럼요 .

기본적으로 Google 검색을 대체한 셈이죠 .

저는 항상 그것을 사용합니다 .

코딩 같은 일의 경우에는 추론 모델을 사용하는 경향이 있습니다.

제 제안은 사람들이 아직 추론 모델을 시도하지 않았다면 솔직히 말해서 우리처럼 사람들이 그것을 좋아하고 그것을 사용하는 사람들은 분명히 그것을 좋아할 것이기 때문입니다.

훨씬 더 많은 사람들이 GBD40을 사용하고 있고 기본값과 ChatBT와 그런 종류의 것들을 좋아합니다.

저는 사람들이 추론 모델을 시도해 볼 가치가 있다고 생각합니다.

사람들은 그것이 할 수 있는 일 에 놀랄 것입니다.

저는 Windsurf를 매일 사용하지만 아직 Windsurf 에서 기본값으로 활성화하지 않았습니다 .

저는 항상 03을 입력해야 하고, 그러면 아, 그런 게 있구나 하고 깨닫게 됩니다.

그건, 음, 이상하네요.

제가 겪은 어려움은 추론하고 실제로 흐름에서 벗어나는 데 너무 오랜 시간이 걸린다는 것입니다.

저는 그것이 사실이라고 생각합니다.

예.

그리고 저는 이것이 Codeex의 장점 중 하나라고 생각합니다.

즉, 자체적으로 완결된 작업을 맡기면 Codeex가 알아서 작업을 진행하고 10 분 후에 다시 돌아올 수 있다는 것입니다.

그리고 만약 여러분이 이걸 쌍 프로그래머처럼 사용한다면, GP4.

1이나 그에 비슷한 걸 사용하는 게 좋을 것 같아요 .

AI 개발 주기에서 가장 망가진 부분은 무엇이라고 생각하시나요 ? 제 생각에는, 이건 풀 리퀘스트 검토 같은 거예요.

저는 항상 코덱을 사용하는데, 풀 리퀘스트가 많이 들어오면 모든 것을 살펴보는 게 어렵죠.

이 CVN의 확장성을 높이기 위해 사람들이 구축해야 할 다른 것은 무엇이 있나요? 저는 더 많은 것을 만드는 것은 우리에게 달려 있다고 생각합니다 .

이러한 모델은 어떤 면에서는 매우 제한적입니다.

제가 짜증나는 건, 그들에게 뭔가를 하라고 하면 10분이나 걸리고, 그런 다음 비슷한 것을 하라고 하면 또 10분이나 걸리는 거예요.

저는 그들을 천재라고 표현 하지만, 첫 출근 날은 짜증나는 일이에요.

세상에서 가장 똑똑한 사람조차도 직장에 처음 출근했을 때는 당신이 바라는 만큼 유용하지 않을 수 있습니다 .

그래서 저는 더 많은 경험을 쌓고, 어느 날 갑자기 일을 시작하는 것이 아니라 실제로 6개월 동안 직장에 있었던 사람처럼 행동하는 것이 훨씬 더 유용할 것이라고 생각합니다.

하지만 그런 역량을 키우는 것은 우리에게 달려 있습니다 .

당신은 그것이 GPU 제약과 비슷하다고 생각하시나요 ? codeex에 대해 생각해보면, 왜 제가 직접 환경을 설정하라고 요청하는 걸까요? 모델처럼 제가 code three에 리포에 대한 환경 설정 스크립트를 생성하라고 요청하면 가능할 거라고 확신하지만 오늘 제품에서는 제가 직접 해야 합니다 .

그래서 여러분의 생각에는, 테스트 시간 계산을 더 많이 투입하면 훨씬 더 많은 것이 가능할까요? 아니면 오늘날 기본적인 모델 성능 한계가 있어서 여전히 많은 인간적 제약이 필요하다고 생각하시나요 ? 지금은 어색한 상태에 있다고 생각합니다.

진행 속도가 매우 빠르고, 우리가 이것을 할 수 있고 모델이 더 나을 것이라는 점은 분명합니다.

우리는 그것에 대해 알아볼 것입니다.

그냥 하루가 몇 시간인지 제한을 받는다는 거죠.

그러니 진전은 그렇게 빨리 이루어질 수 없습니다.

저희는 가능한 한 빨리 모든 것을 완성하려고 노력하고 있고, 03의 기술은 6개월 후에도 완성되지 않을 것 같습니다.

저는 전반적으로 그 질문이 마음에 듭니다.

코드 생성뿐만 아니라 문제에서 PR까지 소프트웨어 개발 라이프 사이클이 있는 것 같습니다.

기본적으로 그에 대한 전형적인 해설과 같고, 내부자 ID인 윈드서핑 측면도 있습니다.

풀 리퀘스트 검토는 사람들이 잘 모르는 부분입니다.

풀 리퀘스트를 중심으로 구축된 스타트업도 있고, CodeEx가 하는 일이 아니며, 그럴 수도 있습니다.

그렇다면 반복할 수 있는 소프트웨어의 양을 제한하는 다른 요소가 있는지 궁금합니다.

이는 아직 미해결 질문입니다.

모르겠어요.

답변이 있는지 모르겠어요.

에이스에 대한 다른 정보는 있나요 ? 폼 팩터 측면에서 이것이 어떻게 될 것이라고 생각하시나요? 아니면 내년 이맘때쯤이면 어떤 모델이 오늘날 할 수 없는 것을 할 수 있었는지, 어떤 변화가 있을지 살펴볼까요? ASU에만 국한될 것 같지는 않아요.

저는 그것이 소프트웨어 엔지니어링에만 국한될 것이라고 생각하지 않습니다.

원격으로 많은 작업을 할 수 있을 것 같아요.

응.

프리랜서 유형의 Upwork와 같습니다.

응.

아니면 꼭 소프트웨어 엔지니어링이 아닌 것들도 마찬가지입니다.

좋아요.

그래서 제 생각에는 원격 근무를 하는 사람이라면 누구나 기술 에 익숙해지고 그 기술이 무엇을 할 수 있고, 무엇을 할 수 없으며, 무엇에 능숙하고, 무엇에 능숙하지 않은지 파악하는 것이 중요하다고 생각합니다.

시간이 지남에 따라 기술이 할 수 있는 일의 폭도 넓어질 것이기 때문입니다.

저는 가상 비서가 그 다음이 될 것 같아요.

가상 비서가 가장 쉬운 분야거든요.

필리핀에 있는 사람을 고용해서 이메일 만 보고 일할 수 있는 그런 가상 비서 말이죠.

그러면 모든 입력과 출력을 가로채서 그걸 바탕으로 교육을 시킬 수 있고, 가상 비서 회사를 인수할 수도 있을 거예요 .

네, 제가 기대하는 건 가상 비서 같은 것들에 있어서, 모델이 잘 정렬된다면, 그런 종류의 작업에 정말 더 선호될 수 있을 거라는 거예요 .

아시다시피, 항상 이런 주인-대리인 문제가 있습니다.

누군가에게 작업을 위임했을 때, 그 사람이 정말로 당신이 원하는 대로 작업을 했는지, 그리고 가능한 한 빨리, 가능한 한 저렴하게 했는지가 문제입니다 .

응.

따라서 실제로 사용자와 사용자의 선호도에 맞춰 조정되는 AI 모델이 있다면 인간보다 훨씬 더 나은 성과를 낼 수 있을 것입니다.

글쎄요, 사람보다 더 잘하는 건 아니지만 , 사람보다 더 잘하는 것 같아요 .

그런데 그 단어 정렬은 안전 정렬과 지시에 따른 정렬 사이에 흥미로운 덮어쓰기나 동형사상이 있는 것 같아요.

그리고 나는 그들이 어디에서 갈라지는지 궁금하다 .

좋아요, 제 생각엔 가장 중요한 점은 모델을 무엇에 맞춰 정렬할 것인가입니다.

그건 어려운 질문인 것 같아요.

사용자에 맞춰서 조정하고 싶었던 것 같아요.

좋아요.

그럼, 사용자가 인류의 절반을 멸망시킬 새로운 바이러스를 만들고 싶어한다면 어떻게 될까요 ? 안전 정렬.

그래서 저는 정렬에 대한 질문이 있다고 생각합니다.

저는 그것들이 연관되어 있다고 생각하고 , 가장 큰 질문은 무엇에 정렬할 것인가입니다.

응.

인류의 목표가 있고, 개인적인 목표가 있으며, 그 사이에 있는 모든 것이 있습니다.

음.

그래서 개별 에이전트와 당신이 OpenAI에서 다중 에이전트 팀을 이끌게 되었다고 발표했죠.

저는 별로 공지사항을 보지 못했습니다.

아마 제가 당신이 작업하고 있는 내용을 놓쳤을 수도 있지만, 흥미로운 연구 방향이나 그 외에 다른 것에 대해 공유해 주실 수 있나요? 네, 이에 대한 발표는 아직 없습니다.

저희는 멋진 것들을 개발하고 있다고 생각하고 , 언젠가는 멋진 것들을 발표할 수 있을 거라고 생각해요.

저는 여러 면에서 팀이라는 명칭이 실제로는 부적절하다고 생각합니다.

왜냐하면 우리는 단순히 여러 에이전트로 구성된 팀 그 이상을 위해 일하고 있기 때문입니다.

다중 에이전트는 우리가 작업 중인 것 중 하나입니다.

음, 우리가 작업하고 있는 다른 것들은 테스트 시간 컴퓨팅을 엄청나게 확장할 수 있는 것과 같습니다.

그럼 어떻게 하면 이 모델들이 15분 동안 생각하게 할 수 있을까요? 어떻게 하면 몇 시간 동안 생각하게 할 수 있을까요? 어떻게 하면 며칠, 그보다 더 오랫동안 생각하게 하고 엄청나게 어려운 문제를 해결할 수 있을까요? 이것이 우리가 추구하는 방향 중 하나입니다.

다중 에이전트는 또 다른 방향입니다.

여기에는 여러 가지 동기가 있다고 생각합니다.

다중 에이전트의 협력적 측면과 경쟁적 측면 모두에 관심이 있습니다.

제가 설명하는 방식은 사람들이 AI 분야에서 종종 말하는 것처럼 인간은 매우 좁은 지성 범위를 차지하고 있고 AI는 금방 따라잡아서 이 지성 범위를 넘어설 것입니다.

사실 저는 인간 지능의 폭이 그렇게 좁다고 생각하지 않습니다.

사실 꽤 광범위하다고 생각해요.

원시인 시대의 해부학적 으로 동일한 인간을 비교해보면 , 그들이 오늘날 우리가 지능이라고 생각하는 수준에서 그렇게 멀리까지 발전하지는 못했거든요.

그들은 인간을 달에 보내는 것도 아니고, 반도체나 원자로 같은 것을 만드는 것도 아닙니다.

그리고 우리는 오늘날에도 그런 것들을 가지고 있습니다.

비록 우리 인간이 해부학적으로 다르지 않더라도요.

그러면 차이점은 무엇일까? 글쎄요, 제 생각엔 차이점은 수천 년 동안 수많은 인간, 수십억 명의 인간이 서로 협력하고 경쟁하면서 시간이 지남에 따라 문명을 구축했다는 것입니다.

그리고 우리가 보고 있는 기술은 이 문명의 산물입니다.

저는 비슷하게 생각합니다.

오늘날 우리가 가지고 있는 AI는 AI의 원시인과 같습니다.

그리고 저는 만약 그들이 장기간에 걸쳐 수십억 개의 AI와 협력하고 경쟁하며 문명을 건설할 수 있다면, 본질적으로 그들이 생산하고 대답할 수 있는 것들은 오늘날 우리가 가지고 있는 AS로는 가능한 것보다 훨씬 뛰어날 것이라고 생각합니다 .

짐 팬의 보이저 기술 라이브러리 아이디어와 비슷한 것으로 보시나요? 이런 것들을 다시 저장하는 건가요? 아니면 사람이 성장 하면서 뇌에 많은 양의 지식이 쌓이기 때문에 모델이 이 새로운 지식으로 재교육받는 것일 뿐인가요 ? 여기서는 회피적인 태도를 취할 것 같습니다.

우리는 발표할 것이 있을 때까지는 아무것도 하지 않을 것입니다.

제 생각에는 그리 먼 미래가 아닌 때에 발표할 것 같습니다.

제 생각엔 우리가 정확히 무엇을 하고 있는지에 대해 조금 모호하게 말씀드리겠습니다.

하지만 저는 우리가 다중적 관점에 접근하는 방식과 세부적인 면에서 실제로 접근하는 방식이 다른 곳에서 역사적으로 해왔던 방식이나 오늘날 하고 있는 방식과는 매우 다르다고 말하고 싶습니다.

음, 저는 오랫동안 멀티엔트 분야에 종사해 왔습니다 .

저는 멀티에이션 분야가 어떤 면에서는 약간 잘못된 방향으로 나아가고 있다고 느꼈고, 그 분야가 취한 접근 방식과 접근 방식이 마음에 들었습니다.

그래서 저는 우리가 다중 에이전트에 대해 매우 원칙적인 접근 방식을 취하려고 노력하고 있다고 생각합니다 .

죄송하지만, 제가 물어봐야 할 건데요.

당신이 하는 일에 대해서는 말할 수 없지만, 잘못된 것이 무엇인지는 말할 수 있다는 거예요.

무엇이 잘못된 걸까요? 저는 지금까지 취해진 많은 접근 방식이 매우 이단적이며 확장 및 연구에 대한 쓰라린 교훈적 접근 방식과 같은 것을 실제로 따르지 않았다고 생각합니다.

좋아요, 아마 이곳이 좋은 곳일 것 같아요.

그러니 포커에서 놀라운 업적을 많이 이루셨고 최근 모델이 좋아지면서 예전에 포커를 열심히 했던 친구 한 명과 이야기를 나누었는데, 인터뷰를 하겠다고 하더군요.

그런데 그들의 질문은 테이블에서 작은 표본 크기에서 사람들이 어떻게 플레이하는지에 대한 많은 정보를 얻을 수 있지만 오늘날 GTO가 너무 널리 퍼져서 사람들이 착취적으로 플레이할 수 있다는 사실을 잊어버리는 경우가 있다는 것이었습니다.

다중 에이전트와 일종의 경쟁에 대해 생각할 때 상태가 무엇이라고 생각하십니까? 항상 최적의 것을 찾으려고 하시나요? 아니면 누군가를 어떻게 착취할지와 같이 그 순간에 더 많이 생각하려고 하시나요? 청중분들은 포커 용어에 그다지 익숙하지 않으실 것 같아요.

그럼, 이걸 조금 설명해보겠습니다.

음, 많은 사람들이 포커는 단지 행운의 게임이라고 생각하는데, 사실이 아닙니다.

사실 포커에는 많은 전략이 있습니다.

그러니까, 올바른 전략을 사용한다면 포커에서 꾸준히 이길 수 있는 거예요 .

포커에는 여러 가지 접근 방식이 있습니다.

하나는 게임 이론이 최적이라는 것입니다.

이는 마치 당신이 이길 수 없는 전략과 기대를 가지고 플레이하는 것과 같습니다.

마치 당신이 착취당할 수 없는 존재인 것처럼요.

가위바위보와 비슷하죠.

가위바위보에서 이기려면 가위 바위보와 바위보 중에서 무작위로 동일한 확률로 선택해야 하는데, 상대방이 무엇을 하든 당신을 이용할 수 없고 당신이 이길 수 없기 때문입니다.

당신은 기대를 잃지 않을 것입니다.

많은 사람들이 이 말을 듣고, ' 음, 그러면 무작위로 플레이하고 있어서 기대에 부응할 수 없을 거야'라고 생각합니다.

하지만 포커에서 균형 전략을 사용하면 상대방이 당신을 비기는 방법을 알아내는 것이 실제로 매우 어렵고, 결국 당신이 장기적으로 이길 수 있는 실수를 하게 될 것입니다.

엄청난 승리는 아닐지 몰라도, 승리는 될 겁니다.

충분히 오랜 시간 동안 충분한 핸드를 플레이하면, 기대에 부응해 이길 수 있을 것입니다.

이제 착취형 포커도 있는데, 여기서 핵심은 상대방의 플레이 방식에서 약점을 찾아내는 것입니다.

알다시피, 어쩌면 그들은 블러핑을 충분히 하지 않는 것일 수도 있고, 어쩌면 블러핑에 너무 쉽게 포기하는 것일 수도 있죠 .

그래서 때로는 블러핑을 하고, 때로는 블러핑을 하지 않는 게임 이론의 최적 균형 전략에서 벗어나 , 항상 블러핑을 하면 상대방이 포기하기 때문에 이 사람을 상대로 블러핑을 많이 해야겠다는 매우 불균형적인 전략을 사용하게 됩니다 .

중요한 점은 여기에는 상충관계가 있다는 것입니다.

왜냐하면 착취적인 접근 방식을 취하면 착취의 위험에도 노출되기 때문입니다.

따라서 손실을 보장하지만 잠재적으로 얻을 수 있는 수익은 많지 않을 수 있는 방어적 게임 이론 최적 정책을 플레이하는 것과, 훨씬 더 수익성이 있지만 상대방이 이용하여 속일 수 있는 약점을 만들어내는 착취적 전략을 플레이하는 것 사이에서 균형을 선택해야 합니다 .

그리고 둘을 완벽하게 균형 잡는 방법은 없습니다 .

가위바위보에서 누군가가 5번 연속으로 가위바위보를 던지는 걸 보면, " 아, 저 사람 전략에 약점이 있구나"라고 생각할 수 있는 것과 비슷합니다.

그냥 가위를 던지는 게 나을 텐데, 그걸 이용하려고 합니다.

여섯 번째에는 가위를 던지지만, 사실 그때는 돌을 던지는 때이고, 그래서 결코 알 수 없습니다.

그래서 항상 이런 균형이 필요합니다.

매우 성공적인 포커 AI는 제가 대학원 시절 포커 AI를 연구하고 최초의 초인적인 무제한 포커 AI를 만든 배경과 비슷합니다.

저희가 취한 접근 방식은 게임 이론 최적 접근 방식인데, AI가 이길 수 없는 전략을 구사하고 세계 최고의 플레이어와 경쟁하여 이기는 방식입니다.

이는 그들이 세계 최악의 팀을 이겼다는 것을 의미합니다 .

그들은 누구든 이길 수 있을 것 같아요 .

하지만 상대가 약한 경우 인간 전문가만큼 심하게 이기지 못할 수도 있습니다.

왜냐하면 인간 전문가는 게임의 최적 정책을 적용하여 약한 플레이어를 이용하는 방법을 알고 있기 때문입니다.

그래서 착취적인 포커 AI를 어떻게 만들 것인가와 같은 답이 없는 질문이 있습니다.

그리고 많은 사람들이 이 연구 방향을 추구했습니다 .

저는 대학원 시절에 이 분야에 조금 관심을 가졌습니다 .

저는 근본적으로 AI가 인간만큼 표본을 효율적으로 처리하지 못한다는 게 문제라고 생각합니다.

아시 다시피, 앞서 말했듯이, 사람이 포커를 하면 12판 안에 플레이어의 강점과 약점을 아주 잘 파악할 수 있습니다 .

솔직히 정말 인상적이에요.

그리고 2010년대 중반 에 포커용 AI를 개발할 당시에는 AI가 포커를 10,000판 정도 플레이해서 플레이어가 누구인지, 어떻게 플레이하는지, 약점은 어디인지 등을 파악해야 했습니다.

하지만 최신 기술 덕분에 그런 일은 줄어들었다고 생각합니다.

음, 하지만 여전히 샘플 효율성이 큰 과제였습니다.

흥미로운 점은 포커를 공부한 후 외교를 공부했다는 것입니다 .

우리는 이에 대해 이미 이야기한 적이 있는 것 같아요 .

외교란, 아시 다시피, 7명이 하는 협상 게임이에요.

그리고 우리가 이 문제를 다루기 시작했을 때, 저는 게임 이론에 따른 접근 방식을 취했습니다 .

저는 '좋아, 이건 포커랑 비슷한 거구나'라고 생각했어요.

이 게임 이론 최적 정책을 계산해야 하고, 그냥 이렇게 플레이하면 기대치를 잃지 않을 겁니다.

연습하면 이길 거야.

하지만 실제로 외교에서는 효과가 없습니다.

하지만 효과가 없습니다.

다시 한번, 이 문제에 대해 얼마나 깊이 파고들어야 할지에 대한 질문이지만, 기본적으로 포커와 같은 제로섬 게임을 할 때는 게임 이론 최적이 매우 잘 맞습니다.

Diplomacy와 같이 협력하고 경쟁해야 하는 게임을 할 때, 협력을 위한 공간이 필요하다면 게임 이론 최적은 실제로 잘 작동하지 않으며 플레이어를 이해하고 그들에게 훨씬 더 잘 적응해야 합니다.

따라서 이는 포커에서 상대방에 어떻게 적응하느냐는 문제와 매우 유사합니다.

포커에서는 자신의 약점에 적응 하고 그것을 이용하는 것이 중요합니다.

외교에서는 상대국의 플레이 스타일에 적응하는 게 중요해요.

마치 여러분이 식탁에 앉아 있는데 모두가 프랑스어로 말하고 있다면, 계속해서 영어로만 말하고 싶지 않은 것과 같습니다.

당신은 그들에게 적응하고 프랑스어로도 말하고 싶어합니다 .

외교에 대해 제가 깨달은 점은 게임 이론의 최적 패러다임에서 벗어나 다른 플레이어를 모델링하고, 그들이 누구인지 이해한 다음, 그에 따라 대응하는 방향으로 전환해야 한다는 것입니다.

그래서 여러 면에서 우리가 외교에서 개발한 기술은 착취적이지 않은 것처럼 착취적이기도 합니다.

그들은 실제로, 아시다시피, 테이블에 있는 다른 플레이어들의 상대에 적응하고 있을 뿐입니다.

음, 하지만 저는 같은 기술이 포커의 AI에도 사용되어 착취적인 포커 아이를 만들 수 있다고 생각합니다.

제가 언어 모델에서 놀라운 진전을 이루지 못하고 연구 일정을 일반적인 추론으로 전환하지 못했다면, 아마도 다음으로는 착취적 포커 AI를 만드는 일을 했을 겁니다.

정말 재밌는 연구 방향이 될 것 같아요.

그걸 하고 싶어하는 사람이라면 아직도 그럴 수 있다고 생각해요 .

그리고 제 생각에 가장 중요한 것은 외교에서 사용했던 기술을 포커 같은 것에 적용하는 것입니다 .

제 생각에 핵심은 온라인에서 플레이할 때 HUD가 있어서 다른 플레이어의 모든 통계, 예를 들어 플랍 전에 얼마나 참여했는지 등을 알 수 있다는 것입니다.

제가 아는 한 이러한 모델 중 상당수는 테이블에 있는 다른 플레이어 의 행동을 실제로 활용하지 않고 보드 상태를 보고 거기서부터 작업하는 것 같습니다.

오늘날 포커 아이가 작동하는 방식과 마찬가지로 미리 계산된 GTO GTO 전략에 집착하고 테이블에 있는 다른 플레이어에게 적응하지 못하고 있습니다.

적응시키기 위해 다양한 해킹 방법을 사용할 수 있지만 원칙이 없고 제대로 작동하지 않습니다.

대학원생 여러분, 듣고 계시다면 이 주제에 대해 연구하고 싶으시다면 적어도 여러분 앞에 나서서 주목을 받을 수 있는 매우 합리적인 연구 방향이라고 생각합니다.

이 대화에서 제가 제기한 또 다른 사항은 다음과 같습니다.

네, 테스트 타임 계산 후 다음 단계에 대한 가설 중 하나는 세계 모델입니다.

세계 모델링이 중요한지, 가치 있는 연구 방향인지, 얀 라쿤이 끊임없이 이야기했지만 기본적으로 LLM은 내부 세계 모델을 가지고 있지만 명시적으로 세계 모델을 가지고 있지는 않습니다.

이러한 모델이 커질수록 세계 모델이 생기고 그 세계 모델은 규모가 커질수록 더 좋아진다는 것은 꽤 분명하다고 생각합니다.

따라서 암묵적으로 세계 모델을 개발하고 있고 명시적으로 모델링할 필요는 없다고 생각합니다.

음, 제가 틀렸을 수도 있어요.

아시다시피, 사람이나 여러 개체를 다룰 때 세상이 아닌 개체가 있고, 여러 유형의 개체 중에서 어떤 개체를 다루어야 하는지에 대한 가설을 해결해야 하는 경우가 있습니다 .

아시다시피, 다중 에이전트 AI 커뮤니티에서는 다른 에이전트를 다른 사람과 같이 명시적으로 모델링해야 하는지, 아니면 환경의 이 부분을 암묵적으로 모델링할 수 있는지에 대한 논쟁이 오랫동안 있었고 아직도 진행 중입니다 .

오랫동안 저는 다른 에이전트를 명시적으로 모델링해야 한다는 관점을 취했습니다.

왜냐하면 그들은 환경과 다르게 행동하기 때문입니다.

그들이 행동을 취하는 방식은 예측 불가능하고, 그들에게는 주도권이 있습니다.

하지만 저는 시간이 지나면서 이 모델들이 충분히 똑똑해지면 마음의 이론 같은 것을 개발할 수 있을 거라고 생각하게 됐습니다 .

그들은 행동을 취할 수 있고 동기를 가지고 있는 다른 에이전트가 있다는 것을 이해하게 됩니다 .

그리고 이러한 모델은 암묵적으로 규모를 확장 하고 보다 유능한 행동을 광범위하게 개발합니다.

요즘 저는 그런 관점을 갖고 있습니다 .

그래서 제가 방금 말한 것은 쓰라린 교훈으로 가득 찬 이단주의가 아니라 그냥 사라지는 이단주의의 한 예입니다 .

응.

결국 모든 것은 쓰라린 교훈으로 돌아왔습니다 .

모든 팟캐스트에서 인용해야겠어요.

그래서 가장 흥미롭고 일관된 결과 중 하나는 ICLR에 있었던 것 같은데, 거기서 가장 인기 있는 강연 중 하나는 개방성에 관한 것이었고, 그 강연을 한 팀이라는 사람도 다중 에이전트 시스템에 관해 많은 연구를 했습니다 .

가장 일관된 결과 중 하나는 AIS가 인간이 훈련하고 지도하는 것보다 스스로 경쟁적으로 플레이하고 실력을 향상시키는 것이 더 낫다는 것입니다 .

그리고 여러분은 알파 제로와 R10이 무엇인지 아는 것처럼 그것을 발견하게 됩니다.

셀프플레이와 같은 다중 행동이 인간보다 더 잘 향상될 것이라고 생각하시나요 ? 응.

네, 좋은 질문이에요.

좀 더 자세히 설명해 드리는 게 좋을 것 같아요 .

그래서 저는 오늘날 많은 사람들이 셀프플레이를 초지능에 필요한 다음 단계이자 마지막 단계로 본다고 생각합니다.

그리고 알파 알파 고 와 알파 제로를 살펴보면, 우리가 매우 유사한 추세를 따르고 있는 것 같습니다.

맞나요? 알파고의 첫 번째 단계는 대규모 사전 훈련을 하는 것이었습니다 .

그 경우는 인간의 바둑이었습니다.

LMS를 사용하면 인터넷 데이터와 같은 엄청난 양의 사전 학습을 통해 강력한 모델을 얻을 수 있지만, 매우 강력한 모델이나 초인적인 모델을 얻을 수는 없습니다 .

그리고 알파 고 패러다임의 다음 단계는 대규모 테스트 시간 컴퓨팅이나 대규모 추론 컴퓨팅을 수행하는 것입니다.

이 경우 MCTS를 사용하고, 이제 대규모 추론 컴퓨팅을 수행하는 추론 모델이 있으며, 이를 통해 기능이 엄청나게 향상됩니다.

마지막으로 알파고와 알파제로에서는 모델이 자기 자신과 경쟁하면서 게임을 통해 점점 더 학습하고, 점점 더 나아지며, 인간 수준의 성과에서 인간 능력을 훌쩍 뛰어넘는 성과까지 이룹니다.

요즘의 정책은 너무 강력해서 도저히 이해할 수 없습니다.

그들이 하는 일은 인간이 이해할 수 없는 일이에요.

체스도 마찬가지다.

그리고 우리는 현재 언어 모델을 가지고 있지 않습니다.

그래서 그것을 보고, '이제 AI 모델이 서로 상호작용하고 서로에게서 학습하면 엄청난 지능을 갖게 될 거야'라고 말하고 싶은 유혹이 정말 큽니다.

제가 외교에 대해 이야기할 때 이 문제에 대해 잠깐 언급한 적이 있습니다.

문제는 이 게임이 두 사람이 하는 제로섬 게임이라는 것입니다.

그리고 2인용 제로섬 게임은 셀프 플레이를 할 때 최소최대 평형으로 수렴하는 매우 좋은 특성을 가지고 있습니다.

그리고 한 걸음 물러서서 두 명이 플레이하는 제로 게임에서는 체스, 두 명이 플레이하는 포커 등 모두 두 명이 플레이하는 제로섬 게임이 있다고 말씀드려야 할 것 같습니다.

일반적으로 원하는 것은 미낙스 평형이라고 불리는 것입니다.

이것이 바로 GTO 정책이에요.

이 정책은 당신이 예상하는 어떤 상대에게도 지지 않을 것이라는 것을 보장하면서 플레이하는 것입니다.

체스와 바둑에서는 그게 원하는 바인 것 같아요.

흥미로운 점은 포커에서는 그렇게 명확하지 않다는 것입니다.

2인용 제로 포커에서는 GTO 미니악스 정책을 적용할 수 있으며, 이는 지구상의 어떤 상대에게도 지지 않는다는 것을 보장합니다.

하지만 다시 말하지만, 약한 플레이어를 이길 수는 없다는 걸 말씀드렸습니다.

대신 착취적인 정책을 펼쳤다면 그들로부터 많은 돈을 벌 수 없었을 겁니다.

그래서, 이런 질문이 생깁니다.

" 당신은 무엇을 원하시나요?" 가능한 한 많은 돈을 벌고 싶으신가요? 아니면 살아있는 어떤 사람에게도 지지 않는다는 것을 보장하고 싶으신가요? 모든 봇이 결정한 것은, 이 게임의 모든 AI 개발자가 결정한 것은, 우리는 미니악스 정책을 선택하기로 한 것입니다.

그리고 편리하게도, 셀프플레이는 정확히 그런 것으로 수렴됩니다.

AI들이 서로 경쟁하고, 실수로부터 배우고 , 시간이 지남에 따라 이 미니액스 정책으로 수렴하게 되면, 그것은 보장됩니다.

하지만 2인용 0에서 벗어나 외교와 같은 일부 게임에서는 실제로 더 이상 유용한 정책이 아닙니다.

여러분은 그저 방어적인 정책을 갖고 싶어하지 않을 겁니다.

수학과 같은 분야에서도 똑같은 종류의 자기 주도적 행동을 하기 시작하면 정말 이상한 행동을 하게 될 겁니다.

그럼 예를 들어, 수학에서 자기주도학습을 한다는 것은 무슨 뜻일까요? 여러분은 이런 함정에 빠질 수 있습니다.

" 한 모델은 정말 어려운 질문을 제기하고 다른 모델은 그 질문을 해결해 주기를 바랄 뿐이야.

" 아시다시피, 그건 두 사람이 하는 제로섬 게임과 같아요.

문제는, 글쎄요, 정말 흥미롭지 않은 어려운 질문을 던질 수도 있다는 거예요 .

알다시피, 30자리 곱셈을 하라고 하면 됩니다 .

이는 AI 모델에 있어서 매우 어려운 문제입니다.

그것이 우리가 원하는 차원에서 정말 진전을 이루고 있는 것일까요? 사실은 그렇지 않아요.

따라서 이 두 선수 외에 셀프플레이를 하는 일부 게임은 훨씬 더 어렵고 미묘한 문제처럼 보입니다.

그래서 제 생각에는 팀 팀이 기본적으로 그의 강연에서 말했던 것과 비슷한데, 여기 몇몇 게임에서 두 명의 플레이어가 아닌 셀프 플레이에 대해 이야기하기 시작하면 무엇을 최적화할지 결정하는 데 많은 어려움이 있다는 것입니다.

제가 말하고 싶은 건, 알파고 비유가 무너지는 지점이 여기라는 겁니다.

꼭 무너지는 건 아니지만 알파고의 셀프플레이만큼 쉽지는 않을 겁니다.

그러면 목적 함수는 무엇인가 ? 새로운 목적 함수는 무엇입니까? 네, 좋은 질문이에요.

응.

그리고 저는 그것이 많은 사람들이 생각하고 있는 것이라고 생각합니다.

응.

음, 그럴 거라고 확신해요.

당신이 진행했던 마지막 팟캐스트 중 하나에서 소라에게 매우 감명을 받았다고 언급하셨죠.

당신은 Sora에서 직접 일하지는 않지만, 분명히 Sora는 OpenAI의 일부입니다.

제 생각에 가장 최근의 새로운 업데이트나 그런 종류의 생성적 미디어 공간은 자동 회귀적 이미지 생성입니다.

당신이 논평하고 싶은 흥미롭거나 놀라운 점이 있나요 ? 저는 이미지 생성 작업을 하지 않기 때문에 이에 대해 의견을 제시할 수 있는 능력이 제한적이지만, 제가 이 작업을 정말 좋아한다고 말씀드릴 수 있습니다.

제 생각엔 정말 인상적이에요.

이건 마치 추론 모델을 연구하면서, " 와우, 우리는 첨단 과학이나 에이전트 작업, 소프트웨어 엔지니어링 같은 온갖 미친 짓을 할 수 있을 거야"라고 생각하는 것과 같습니다.

그리고 완전히 다른 차원의 진보가 있는데, 이제는 이미지와 비디오를 만들 수 있다는 거죠.

정말 재밌어요.

솔직히 말해서, 특히 일반 대중 사이에서는 그게 더 많은 관심을 받고 있어요.

그리고 아마도 CHBT에 대한 구독 플랜이 훨씬 더 많아질 것이고, 좋은 일이지만, 제 생각에는 우리가 또한 초지능에 대한 연구를 하고 있다는 게 좀 우스운 일인 것 같아요.

하지만 모든 걸 웅얼거리게 만들 수 있어요.

음, 제 생각에 델타는 사실 자기 회귀적 영상으로 인해 확산이 끝났다는 이론을 품고 있었던 것 같아요 .

작년 말에 이에 대한 소문이 있었는데, 이제야 밝혀졌네요 .

그런 다음 Gemini가 텍스트 확산을 내놓았는데 확산이 너무 나쁘고 이것은 두 방향이며 자기 회귀 대 음 확산의 추론에 매우 관련이 있습니다.

둘 다 있나요? 누가 이기는가? 연구의 장점은 다양한 방향을 추구해야 한다는 점입니다.

항상 유망한 길이 무엇인지 명확하게 알 수는 없지만, 사람들이 다양한 방향을 탐색하고 다양한 것을 시도하는 것은 대단하다고 생각합니다.

저는 그 탐구에 많은 가치가 있다고 생각하고, 무엇이 효과적인지 보는 것이 우리 모두에게 도움이 된다고 생각합니다 .

확산적 추론에 잠재력이 있다면, 예를 들어 여러분의 채널에 대해 답변해 드리겠습니다.

좋아요.

그럼 로봇공학으로 석사학위도 취득하셨군요.

펜을 돌리는 기술에서 시작하여 로봇 팔을 만들고 싶어했던 것에 대한 여러분의 생각을 듣고 싶습니다.

인간형을 좋아하는 것이 옳은 일일까요? 그게 일반적인 AI의 구현이 아닌 잘못된 구현이라고 생각하시나요? 로봇이 나오기까지 얼마나 걸릴지 등등.

로봇공학에서 지금 근본적으로 탐구되지 않은 분야가 있다고 생각하시나요? 저는 몇 년 전에 로봇공학 석사학위를 받았는데, 그 경험에서 제가 얻은 교훈은 우선 제가 로봇을 많이 다루지 않았다는 것입니다.

저는 기술적으로 로봇공학 프로그램에 참여했습니다 .

프로그램 첫 주에는 레고 로봇을 좀 가지고 놀았 지만, 솔직히 포커를 위한 AI 작업으로 빠르게 전환했고, 명목상 로봇 공학 석사 과정에 들어갔습니다.

하지만 로봇 공학자들과 교류하고 그들의 연구를 보면서 제가 얻은 결론은 로봇을 다루는 일은 하고 싶지 않다는 것이었습니다.

왜냐하면 물리적인 하드웨어를 다루는 경우 연구 주기가 훨씬 느리고 훨씬 더 고통스럽기 때문입니다 .

소프트웨어가 훨씬 더 빠르게 발전하고 있고, 그래서 언어 모델과 가상 공동 작업 같은 분야에서 많은 진전을 볼 수 있는 것 같지만, 로봇 공학 에서는 진전이 별로 없습니다.

물리적 하드웨어는 인간형 로봇에 대한 문제를 반복하는 데 훨씬 더 많은 어려움을 겪습니다.

저는 이 분야에서 강한 의견을 가지고 있지 않습니다.

제가 연구하는 분야가 아니기 때문입니다.

하지만 비인간형 로봇에도 많은 가치가 있다고 생각합니다.

드론은 분명히 많은 가치가 있는 완벽한 예라고 생각합니다.

그게 인간형인가요? 아니요.

하지만 여러 면에서는 좋습니다.

그런 기술에는 인간형 로봇이 필요하지 않잖아요 .

저는 매주 비 인간형이 많은 가치를 제공한다고 생각합니다 .

저는 리처드 해밍스의 과학과 공학의 기술을 읽어드렸습니다.

그는 새로운 기술이 도입되면 사람들이 기존 작업 부하를 가져와서 새로운 기술에 그대로 복제하려고 하는 반면, 실제로 작업 방식을 바꿔야 하는 상황에 대해 이야기합니다.

그리고 집에 인간형 로봇이 있는 영상을 보면, 인간의 형태는 실제로 개선될 수 있는 많은 한계가 있다는 것을 알게 됩니다.

사람들이 익숙한 점은 팔이 10개, 다리가 5개인 로봇을 집에 두겠느냐는 것입니다.

아니면 밤에 일어나서 그 로봇이 걸어다니는 것을 볼 때 유리가 되겠습니까? 그래서 인간형 로봇을 사용하는 걸까요? 그래서 저는 인간처럼 보이게 만들어야 한다는 점에서 지역적 최대치와 거의 같다고 생각합니다.

하지만 사내에서 가장 이상적인 형태는 다음과 같습니다.

저는 제품 디자인에 정말 서툴러서 이 문제에 대해 질문할 사람이 아닙니다.

인간형을 만드는 게 우리에게 더 친숙해서 좋은지, 아니면 우리와 더 비슷하지만 나와 똑같지는 않아서 나쁜지 의문입니다.

어느 쪽이 더 소름끼치는지 잘 모르겠습니다.

응.

제가 인간형이라는 것에 약간 거부감을 느낀 건 어차피 세상 대부분이 인간을 위해 만들어졌다는 주장 때문이었습니다.

그러니 인간의 노동력을 대체하고 싶다면 인간형 로봇을 만들어야 합니다.

그것이 설득력이 있는지는 모르겠어요 .

다시 말씀드리지만, 저는 이 분야에 대해 강한 의견을 가지고 있지 않습니다.

왜냐하면 제가 이 분야에서 일하지 않기 때문입니다.

음, 저는 인간형을 매주 선호했습니다.

그리고 제가 비인간형 로봇에 대한 주간 기사를 쓰게 된 진짜 이유는 물리적 지능 CEO의 이야기를 듣고서였습니다.

그가 왜 비인간형 로봇을 추구하지 않고, 왜 비인간형 로봇을 추구하고 있는지에 대해 이야기한 것입니다.

좋아요.

그리고 편리하게도 그들의 사무실은 실제로 여기와 매우 가깝습니다.

그러니 원하신다면 그들이 제가 운영하는 컨퍼런스에서 연설하는 걸 볼 수 있을 거예요.

좋아요.

그의 제안을 들어보면 그게 맞는 길이라는 걸 확신시킬 수 있을 거예요.

엄청난.

제가 사람들에게 추천하고 싶은 또 다른 사례는 짐 팬이 최근에 세쿼이아 컨퍼런스 에서 물리적 찢어짐 테스트에 관해 한 강연입니다.

그는 매우 훌륭한 강연을 했습니다.

음, 그는 정말 훌륭한 교육자 이자 설명가예요.

음, 특히 그 분야는 정말 어렵죠.

음, 멋지네요.

더 이상 당신이 다루지 않는 것에 대해 묻는 건 그만할게요 .

따라서 이러한 것들은 여러분의 경계를 탐험하고 빠른 성과를 얻기 위한 좀 더 빠른 공격입니다.

당신 이나 업계 최고 연구실에서는 어떻게 연구를 계속 진행합니까? 당신의 도구와 관행은 무엇인가요 ? 음, 정말 어렵네요.

많은 사람들이 학문적 연구가 중요하지 않다고 생각하는 것 같은데, 사실은 그렇지 않습니다 .

저는 학술 연구를 살펴보고, 학술 연구의 어려움 중 하나는 많은 논문에서 가능성을 보여주지만 실제로는 규모에 맞게 작동하지 않거나 재현조차 되지 않는다는 것입니다.

흥미로운 논문을 발견하면 우리 내부에서 그것을 재현해보고 그것이 여전히 유효한지, 그리고 확장성이 있는지 확인해 볼 생각입니다.

하지만 그것은 우리에게 큰 영감의 원천이었습니다.

문자 그대로 히트곡을 보관하는 일은 우리와 똑같은 일인가요, 아니면 특별한 과정이 있나요? 특히 우리 회사에는 사람들이 흥미로운 논문을 게시하는 내부 채널이 있어서 추천을 받으면, 이 분야에 익숙한 사람이 이 논문이 흥미롭다고 생각할 테니 읽어보는 게 좋을 것 같아요 .

응.

음, 마찬가지로 제 공간에서 일어나는 일 중에 흥미로운 일이 있으면 기록해두고, 정말 흥미롭다고 생각되면 공유하곤 합니다.

저는 WhatsApp과 Signal을 이용해 연구자들과 그룹 채팅을 하는 게 전부라고 생각합니다.

응.

저는 많은 사람들이 트위터 같은 것을 보고 있다고 생각하고, 소셜 미디어에서 많은 주목을 받지 않으면 주목받지 못하는 지경에 이르렀다는 게 정말 안타까운 일이라고 생각합니다.

음, 대학원생들이 훈련받는 게 바로 그것이에요.

그들은 이를 위해 수업을 듣고 있습니다 .

제가 대학원생들과 함께 일했던 적이 있는데, 지금은 논문을 많이 출판하지 않기 때문에 대학원생들과 일하는 횟수가 줄었습니다.

제가 박람회에서 논문을 출판할 때, 제가 함께 일하는 대학원생들에게 이렇게 말하곤 했습니다.

트위터에 논문을 올려야 하고, 트위터 스레드에서 논문을 어떻게 발표할지 등을 논의했죠.

거기에는 진정한 예술이 필요하고, 그것이 중요하며, 슬픈 진실이기도 합니다.

ACPC와 같은 AI 포커 대회를 했을 때, 사람들이 추론 시 두 개의 CPU로 제한되어서 검색을 하지 않는다고 언급했던 걸 기억합니다 .

오늘날에도 흥미로운 연구가 이루어지지 못하게 하는 비슷한 일이 일어나는 것을 보십니까 ? 인기가 없을 수도 있겠네요.

최고의 컨퍼런스에 진출할 수 없게 만드는 환경적 제한 요소가 있나요? 전적으로.

그리고 제 생각에 벤치마크의 한 예는 인류의 마지막 시험과 같은 것들을 살펴보는 것입니다.

이런 엄청나게 어려운 문제들은 여전히 매우 쉽게 등급을 매길 수 있고, 실제로 이런 모델을 평가할 수 있는 범위가 제한된다고 생각합니다 .

만약 당신이 그 패러다임을 고수한다면, 모델에 점수를 매기는 것이 매우 쉽기 때문에 매우 편리합니다 .

하지만 실제로 우리가 이 모델을 평가하고자 하는 많은 것들은 객관식 문제가 아닌 모호한 작업과 같은 종류이고, 그런 종류의 것에 대한 벤치마크를 만드는 것은 훨씬 더 어렵고 아마도 평가하는 데 훨씬 더 많은 비용이 들 것입니다.

하지만 저는 그런 것들이 정말 가치 있는 작업이라고 생각하고, 그것이 세그먼트 GBD 4.

5에 적합하다고 생각합니다.

어떤 면에서는 고급스러운 모델이죠.

모델에는 측정할 수 없는 것들이 있는데, 정말 좋은데 사람들이 잘 모르는 것 같아요.

측정 가능한 것들도 있지만, 그런 것들은 측정하기가 훨씬 더 어렵고, 많은 벤치마크가 측정하기 정말 쉬운 정말 어려운 문제를 제기하는 패러다임에 갇혀 있는 것 같아요.

예를 들어 사전 학습 확장 패러다임이 GPT를 발견해서 GPT4로 확장하는 데 약 5년이 걸렸다고 가정해 보죠.

그리고 테스트 시간 계산에도 5년이 걸린다고 가정해 봅시다.

그렇다면 2030년까지 테스트 시간 계산이 벽이 된다면, 그럴 만한 원인은 무엇일까요? 이는 사전 훈련과 매우 유사합니다.

사전 훈련을 더욱 강화할 수 있지만 반복할수록 비용이 더 많이 들 뿐입니다.

테스트 시간 컴퓨팅에서도 비슷한 현상이 나타날 것으로 생각합니다.

우리는 이렇게 말했습니다.

" 좋아요, 3분 대신 생각하게 만들자.

3 시간, 3일, 3주 동안 생각하게 만들자.

" 음, 인간의 수명이 다한 거예요.

음, 우려사항이 두 가지가 있네요.

그 중 하나는 모델을 그렇게 오랫동안 생각하게 하거나 테스트 시간을 확장하여 계산하는 데 드는 비용이 훨씬 더 많이 든다는 것입니다.

테스트 시간 컴퓨팅을 확장할수록 테스트 시간 컴퓨팅에 더 많은 비용이 소모되는데, 이는 사용할 수 있는 금액에 제한이 있다는 것을 의미합니다 .

그것은 잠재적인 한계 중 하나입니다 .

물론이죠, 글쎄요, 당연하지 않지만, 제가 말씀드리고 싶은 건 우리가 점점 더 효율적이 되어가고 있다는 겁니다.

이러한 모델은 동일한 양의 테스트 시간 계산으로 더 많은 작업을 수행할 수 있다는 생각에 점점 더 효율적이 되고 있습니다 .

그리고 저는 이 점이 과소평가된 점이라고 생각합니다.

단순히 이 모델들이 더 오랫동안 생각하도록 하는 것만이 문제가 아닙니다.

사실 03을 보면 01 미리보기보다 몇몇 질문에 대한 생각이 길어지지만, 엄청난 차이는 아니지만 훨씬 나아졌습니다.

왜? 생각하는 능력이 향상되는 것과 마찬가지이거든요.

어쨌든, 이 모델들은 컴퓨터에서 확장 테스트를 하게 되는데, 확장 가능한 범위는 정해져 있죠.

이는 사전 학습이 점점 더 비용이 많이 들고 더 나은 사전 학습 모델이나 더 큰 사전 학습 모델을 학습시키는 것과 같은 방식으로 부드러운 장벽이 됩니다.

두 번째 요점은 이 모델들이 생각하는 시간이 길어질수록 걷는 시간으로 인해 병목 현상이 생긴다는 것입니다.

실험을 반복하고 싶다면, 이 모델이 즉각적으로 반응할 때 실험을 반복하는 것이 정말 쉽습니다.

실제로 답변을 하기까지 3시간이 걸리고, 답변 시간이 3주라면 어떻게 될지 훨씬 더 어렵습니다.

평가를 하고 이를 반복하는 데 최소 3주가 걸리고, 이 과정에서 어느 정도 실험이 마비될 수도 있지만, 대부분의 경우 실험을 실행하고 완료한 후 결과를 보고 다음 실험 세트를 결정해야 합니다.

제 생각에는 이것이 실제로 긴 타임라인에 대한 가장 강력한 사례라고 생각합니다.

모델은 직렬 시간으로 많은 작업을 수행해야 하기 때문에 반복 속도가 제한적입니다 .

어떻게 이를 극복할 것인가? 글쎄요, 그건 어려운 일이에요.

도메인에 따라 다르다고 생각해요.

그래서 제 생각에 약물 발견은 실제로 병목 현상이 될 수 있는 분야 중 하나입니다.

제 말은, 인간의 수명을 연장할 수 있는지 알고 싶다면, 당신이 개발한 새로운 약이 실제로 인간의 수명을 연장하는지, 그리고 그 과정에서 끔찍한 부작용이 없는지 알아내는 데 오랜 시간이 걸릴 것입니다 .

덧붙여, 우리는 지금 인간의 화학과 생물학에 대한 완벽한 모델을 가지고 있지 않은가 ? 음, 제 생각에는 이게 중요한 것 같아요.

그리고 다시 한번 말씀드리지만 저는 생물학자도 아니고 화학자도 아니기 때문에 조심하고 싶습니다.

저는 이 분야에 대해 아는 게 거의 없습니다 .

제가 마지막으로 생물학 수업을 들은 건 고등학교 10학년 때였어요.

지금 당장 인간 생물학을 완벽하게 시뮬레이션할 수 있는 것은 없다고 생각합니다.

저는 그것이 잠재적으로 이 문제를 해결하는 데 도움이 될 수 있다고 생각합니다 .

그게 우리 모두가 가장 먼저 해야 할 일이에요.

글쎄요, 그게 바로 우리가 이 레이싱 모델을 통해 도움을 받고 싶어하는 부분 중 하나예요.

응.

오늘날 훈련 중간과 훈련 후를 어떻게 분류하시겠습니까? 모든 정의가 너무 모호해요.

그래서 저는 그에 대한 좋은 대답을 가지고 있지 않습니다 .

사람들이 궁금해하는 질문인데, 눈을 뜨고 지금 당장 중간 교육생을 모집한다고 하니까 다들 중간 교육이 뭔데?라고 묻더라고요.

저는 중간 훈련이란 훈련 전과 훈련 후 사이를 말한다고 생각합니다.

그건, 음, 그건 훈련 후가 아닌 것 같아요.

사전 훈련이 아닙니다.

모델에 더 많은 것을 추가하는 것과 같지만 사전 학습 후에는 흥미로운 방법을 모르겠습니다.

응.

좋아요.

괜찮은.

글쎄요, 제가 좀 더 명확하게 설명하려고 노력하는 걸 알죠.

사전 훈련된 모델은 이제 기본적으로 다른 모델을 생성하는 아티팩트와 같고 핵심 사전 훈련 모델은 더 이상 실제로 노출되지 않고 중간 훈련에서 새로운 사전 훈련이 있고 모델이 확장된 후에는 사후 훈련이 있습니다.

실제로 미리 훈련된 원시 모델과 상호 작용할 일은 없습니다.

모델과 상호 작용하려면 훈련 중간과 훈련 후에 상호작용이 일어나야 합니다.

그러니까, 음, 최종 제품을 보시는 거죠.

글쎄요, 당신은 우리가 그러는 걸 허락하지 않지만, 아시다시피, 우리는 그러곤 했어요.

음, 그렇죠.

제 말은, 오픈소스 모델이 있어서 원시 사전 훈련 모델과 상호작용할 수 있다는 거예요.

음, 하지만 OpenAI 모델의 경우 중간 학습 단계를 거치고, 학습 후 단계를 거친 다음 릴리스됩니다.

그리고 그들은 훨씬 더 유용합니다.

솔직히 말해서, 사전 훈련된 모델만 가지고 상호 작용한다면 작업하기가 엄청나게 어려울 겁니다 .

그건 어리석은 짓인 것 같아요.

응.

하지만 이상한 방식으로 유용할 수도 있을 거예요.

채팅처럼 간단하게 게시할 때 모드가 축소되거든요.

응.

어떤 면에서는, 그 모드 붕괴가 유용하기를 바라는 것처럼 붕괴되기를 원할 겁니다.

알겠습니다.

다음 인터뷰는 그렉 브록먼입니다.

어, 그 사람하고 많이 이야기를 나누셨죠.

그에게 무엇을 물어보시겠어요? 그레그에게 무엇을 물어봐야 할까? 제 말은, 저는 항상 그레그에게 물어볼 수 있다는 거예요 .

그레그에게 무엇을 물어봐야 할까요? 흥미로운 반응을 이끌어내고 싶어요.

예를 들어, 그가 충분히 질문받지 못하는 것 같지만, 그가 열정을 갖고 있는 것 같거나 그냥 그의 생각을 알고 싶을 때요.

저는 일반적으로 이 질문이 어디로 향하는지 묻는 것이 가치 있다고 생각합니다.

예를 들어, 5년 후의 세상은 실제로 어떤 모습일까요? 10년 후의 세상은 어떤 모습일까? 결과의 분포는 어떻게 보일까요? 그러면 세상이나 개인은 부정적인 결과 대신 좋은 결과를 향해 일을 이끌기 위해 무엇을 할 수 있을까 ? 좋아요, 정렬 질문 같은 거요.

사람들은 1~2년 후에 무슨 일이 일어날지에 매우 집중하는 것 같아요.

그리고 5년이나 10년 후에 무슨 일이 일어날지, 그리고 그 세상이 어떤 모습일지에 대해서도 생각해 보는 시간을 갖는 것도 가치 있다고 생각합니다.

음, 그가 수정 구슬을 가지고 있지는 않지만, 그는 분명히 가지고 있고, 확실히 생각은 가지고 있습니다.

응.

그러니 탐구해 볼 만한 가치가 있다고 생각합니다.

응.

좋아요.

사람들에게 추천하는 게임은 무엇인가요? 음, 특히 사회적으로요.

음, 제가 사람들에게 추천하는 게임은 뭐예요? 어, 요즘 Blood on the Clock Tower라는 게임을 많이 하고 있어요.

음, 그게 뭔데요? 마피아나 늑대인간과 비슷하죠.

샌프란시스코에서 매우 인기를 끌었는데, 오, 그게 당신 집에서 연주했던 곡이군요.

응.

좋아요.

알았어요.

재밌는 건, 지금 몇몇 사람들과 이야기를 나누었는데, 포커는 벤처 캐피털과 기술 창업자들이 서로 어울리는 방식이었다는 거예요.

그리고 실제로 지금은 시계탑에 피가 더 많이 흐르는 쪽으로 바뀌고 있습니다 .

베이 지역에서 사람들이 서로 교류하는 걸 좋아하는 거죠 .

그리고 실제로 어떤 스타트업이 시계탑에 피를 뿌리는 게임 같은 채용 행사를 열었다고 들었습니다.

우와.

응.

그래서, 음, 요즘 정말 유행하는 것 같아요.

재밌는 게임이고 포커를 하는 것보다 돈을 덜 잃는 것 같아요.

그러니까, 이런 일에 별로 능숙하지 않은 사람들에게는 더 나은 것 같아요.

U I 저는 이게 일종의 이상한 모집 이벤트 같다고 생각 하지만, 분명 재밌는 게임이라고 생각해요.

여기서 채용할 때 관심을 가질 만한 승자의 자질은 무엇입니까? 문제는, 거짓말과 속임수를 할 수 있는 능력이 생기고, 속임수를 알아차리는 게 최고의 직원인가 하는 거예요.

잘 모르겠어요.

그럼 제가 마지막으로 소개할 주제는 매직 더 개더링입니다.

그래서 우리는 체스코 게임 중 일부에 대해 이야기했고, 그들은 완벽한 정보를 가지고 있었습니다.

그리고 포커는 매우 제한된 우주 속에서 불완전한 정보를 가지고 있습니다 .

당신은 52장의 카드 덱만 가지고 있습니다.

그리고 가능한 옵션의 거대한 풀과 같은 불완전한 정보를 가진 다른 게임도 있습니다 .

얼마나 더 어려울지 아시나요 ? 이 문제의 난이도는 어느 정도인가요 ? 그런 질문을 해주셔서 감사합니다.

저는 AI 프레임 정보 게임에 대한 엄청난 지식을 가지고 있고, 오랫동안 이 분야를 연구해 왔고, 이 모든 것을 알고 있지만, 이에 대해 자주 이야기할 기회가 없습니다.

우리는 무제한 텍사스 홀덤을 위한 초인적인 포커 AI를 만들었습니다 .

흥미로운 점 중 하나는 텍사스 홀덤을 할 때 숨겨진 카드가 두 장뿐이기 때문에 숨겨진 정보의 양이 실제로는 꽤 제한적이라는 것입니다.

따라서 적어도 1대 1 대전을 할 때 가능한 상태의 수는 1,326개입니다 .

그리고 여러분은 그것이 테이블에 있는 다른 플레이어의 수에 곱해진다는 것을 알고 있지만, 그래도 여전히 엄청난 수는 아닙니다.

따라서 이러한 AI 모델의 작동 방식은 플레이어가 처할 수 있는 모든 상태를 열거하는 것입니다 .

즉, 6명이 포커를 치는 경우 다른 플레이어는 5명입니다.

1,326의 5배.

그게 당신이 있어야 할 주의 수입니다.

그리고 각각에 확률을 할당합니다.

그리고 그 확률을 신경망에 입력합니다 .

그리고 각 상태에 대한 액션이 반환됩니다 .

문제는 가능한 상태의 수와 같이 숨겨진 가능성의 수를 확장할 때 이 접근 방식이 무너지고 숨겨진 상태의 수가 엄청나게 많아졌을 때 어떻게 해야 하는지에 대한 매우 흥미로운 답이 없는 질문이 여전히 남는다는 것입니다.

음.

아시다시피, 오마하 포커에 가면 4장의 히든 카드가 있는데, 일종의 헤리티지적인 방법으로 상태 수를 줄일 수 있지만, 실제로는 여전히 매우 어려운 질문입니다.

그리고 스트라테고와 같이 40개의 말이 있는 게임을 한다면, 40개의 팩토리얼에 가까운 다른 상태에 있을 수 있는데, 그러면 포커에서 사용하던 기존 접근 방식이 모두 무너지고 다른 접근 방식이 필요하게 됩니다.

이에 대처하는 방법에 대한 활발한 연구가 많이 진행되고 있습니다.

따라서 매직 더 개더링 같은 게임에서는 포커에서 사용하는 기술이 아무런 제약 없이 작동하지 않습니다.

그리고 그것은 여전히 흥미로운 연구 질문입니다.

'당신은 무엇을 하나요 ?' 이제 포커에서 사용하는 종류의 검색 기술을 사용할 때 이것이 문제가 된다고 말씀드려야겠습니다.

모델 없는 RL만 수행한다면 문제가 없습니다.

그리고 제 추측으로는 누군가가 노력한다면 매직 더 개더링에서 초인적인 봇을 만들 수 있을 겁니다.

글쎄요, 그 분야 에는 아직도 답이 나오지 않은 연구 질문이 몇 가지 있습니다 .

그렇다면 이것이 가장 중요한 답이 없는 연구 질문일까요? 글쎄요, 저는 아니라고 말하고 싶어요.

제 생각엔 문제는 포커에서 이런 종류의 검색을 위해 사용하는 기술이 매우 제한적이라는 겁니다.

그리고 그런 기술을 확장한다면, 전략적 모임과 같은 일을 하게 할 수도 있겠지만, 여전히 제한적일 겁니다.

그들은 언어 모델을 이용한 초인적인 코드 강제력으로 당신을 잡을 수 없을 겁니다 .

그러니 저는 아주 일반적인 추론 기술에만 집중하는 게 더 가치 있다고 생각합니다 .

그리고 언젠가 우리가 이런 것들을 개선해 나가면, 언젠가는 바로 매직 더 개더링을 초인적인 수준으로 플레이할 수 있는 모델이 나올 거라고 생각합니다.

저는 그것이 더 중요하고 더 인상적인 연구 방향이라고 생각합니다.

시원한.

놀라운.

응.

N, 와주셔서 정말 고맙습니다.

그렇죠.

시간 내주셔서 감사합니다.

응.

감사해요.

초대해 주셔서 감사합니다.

[음악]

영상 정리

1. 이 팟캐스트에 오신 걸 환영합니다.

2. 저는 Deible의 알레시오입니다.

3. 공동 진행자는 Small AI 창립자 스푹스입니다.

4. 오늘은 OpenAI의 낸 브라운과 함께합니다.

5. 많은 사람들이 그의 말을 들어봤어요.

6. 최근 TED 강연도 인상적이었죠.

7. 그는 세계 외교 챔피언십에서 우승했어요.

8. 2022년엔 상위 10% 인간 플레이어였어요.

9. 외교 게임 후 플레이 방식이 바뀌었어요.

10. 게임 이해와 디버깅이 중요하다고 생각했어요.

11. 연구하며 토너먼트에 참가했고 실력도 늘었어요.

12. 게임을 계속 즐기며 2025년 우승했어요.

13. 봇 행동을 관찰하며 배운 것도 많았어요.

14. 게임에서 봇이 인간처럼 행동하는 게 도전입니다.

15. 언어 모델도 2022년 이후 많이 좋아졌어요.

16. GPT4와 같은 모델이 투어링 테스트를 통과했어요.

17. 안전성과 조종 가능성에 대해 이야기합니다.

18. 시세로는 제어 가능한 시스템이었어요.

19. 외교와 AI 모델 업데이트에 대해선 별로 하지 않았어요.

20. 앞으로 더 발전할 가능성은 크다고 봅니다.

21. O 시리즈 모델도 계속 개선되고 있어요.

22. 대규모 모델은 점점 더 유용해지고 있습니다.

23. 심층 연구와 검증이 중요한 과제입니다.

24. 수학, 코딩, 추론 성공은 성공의 일부입니다.

25. 결과 차이를 사람들이 알아차릴 수 있어요.

26. 성공은 주관적일 수도 있지만, 차이는 분명히 있어요.

27. 빠른 사고와 느린 사고, 두 시스템의 역할입니다.

28. 사전 훈련된 모델은 특정 기능이 필요합니다.

29. 추론 패러다임이 등장한 이유입니다.

30. 큰 모델이 더 좋은 세계 모델을 갖게 돼요.

31. 명시적 세계 모델과 암묵적 모델이 논의됩니다.

32. 다중 에이전트는 명시적 모델링이 필요하다고 봤어요.

33. 시간이 지나며 암묵적 이해도 가능하다고 생각합니다.

34. AI는 협력과 경쟁을 통해 발전하고 있어요.

35. 셀프플레이는 초지능의 핵심입니다.

36. 알파고와 유사한 자기 경쟁 방식이죠.

37. 포커 AI는 기대 기대 기대의 전략을 따릅니다.

38. 균형 전략과 착취 전략의 균형이 중요합니다.

39. 포커 AI는 기대 기대 기대를 목표로 합니다.

40. 외교도 비슷하게 상대에 적응하는 게 핵심입니다.

41. 협력과 착취의 균형이 필요하죠.

42. 제로섬 게임에선 미낙스 평형이 목표입니다.

43. GTO 정책은 기대 기대 기대를 보장합니다.

44. 착취적 전략은 위험도 있지만 수익도 높습니다.

45. 포커 AI는 기대 기대 기대를 따르며 발전했어요.

46. 셀프플레이는 기대 기대 기대의 마지막 단계입니다.

47. 전략적 자기 행동이 매우 중요합니다.

48. 수학 문제도 기대 기대 기대와 비슷합니다.

49. 30자리 곱셈은 어려운 문제입니다.

50. 긴 자기 플레이는 복잡하고 미묘한 문제입니다.

51. 목표 함수와 새로운 목적이 필요합니다.

52. 셀프플레이는 어려운 연구 과제입니다.

53. 포커와 다른 전략적 도전이 많습니다.

54. 언어 모델도 다양한 연구가 진행 중입니다.

55. 이미지와 비디오 생성도 빠르게 발전하고 있어요.

56. 확산적 추론도 흥미로운 연구 방향입니다.

57. 로봇공학은 물리적 하드웨어 문제입니다.

58. 인간형보다 비인간형이 더 실용적입니다.

59. 물리적 로봇은 느리고 어려운 점이 많아요.

60. AI는 물리적 하드웨어보다 소프트웨어가 더 빠릅니다.

61. 인간형 로봇은 필요 없거나 한계가 있어요.

62. 비인간형 로봇, 예를 들어 드론이 유용합니다.

63. 기술 발전은 기존 작업 방식을 바꿉니다.

64. 연구와 실험은 계속 진행 중입니다.

65. 학술 연구는 여전히 중요한 역할을 합니다.

66. 논문 재현과 내부 공유도 활발히 이루어집니다.

67. 소셜 미디어와 논문 발표가 중요합니다.

68. 대학원생들은 트위터를 활용하세요.

69. 연구 환경의 제한이 연구 발전을 막기도 합니다.

70. 벤치마크는 어려운 문제를 평가하는 도구입니다.

71. 평가의 객관성과 비용이 문제입니다.

72. 측정하기 어려운 것들도 많습니다.

73. 비용과 한계는 계속 커지고 있습니다.

74. 테스트 시간 확장도 비용이 많이 듭니다.

75. 효율성과 성능 향상이 계속되고 있어요.

76. 긴 생각 시간은 병목이 될 수 있습니다.

77. 실험 반복과 평가가 어려워집니다.

78. 약물 발견 등은 시간과 비용이 많이 듭니다.

79. 생물학적 모델링도 중요한 연구입니다.

80. 중간 훈련과 사후 훈련도 연구 대상입니다.

81. 오픈소스와 내부 연구도 활발히 진행됩니다.

82. 연구 논문과 소셜 미디어를 활용하세요.

83. 연구의 한계와 도전 과제는 계속됩니다.

84. 다양한 방향 탐색과 시도는 중요합니다.

85. 미래는 더 많은 가능성과 도전이 기다립니다.

새로운 영상 분석하기

멀티 에이전트 문명 도전! OpenAI 노암 브라운의 스케일링 비밀

Scaling Test Time Compute to Multi-Agent Civilizations — Noam Brown, OpenAI

설명

자막

영상 정리

최근 검색 기록