OpenMythos : 엄청나다는 걸 구현해본 프로젝트를 리뷰해보자

~ 반복형 트랜스포머, 그리고 그 너머의 진짜 경쟁 축

들어가며

최근 카이 고메스(Kye Gomez) 스웜즈(swarms.ai) CEO가 앤트로픽의 비공개 모델 ‘클로드 미소스(Claude Mythos)’ 구조를 이론적으로 재구성한 오픈소스 프로젝트 OpenMythosGitHub에 공개했다. AI타임스 기사를 통해 접했고, 첫인상은 “흥미로운 시도”였다. 그러니 내용을 조사해보고 뜯어보며, 결과에 대해 검토 해 보았다.

핵심 아이디어는 Mythos 에 대한 정보 공개, 논문을 기반으로해서 Mythos 를 복사해내는 것이고, 기본 원칙은 매우 단순하다. 동일한 가중치 블록을 여러 번 반복 적용해서, 적은 파라미터로 큰 모델 수준의 성능을 내자는 것이다. 약 7.7억(7.7B) 파라미터 RDT 모델이 13억(13B) 파라미터 일반 트랜스포머와 유사한 성능을 낸다는 결과까지 제시되었으니, 표면적으로는 매력적이고 성능과, 가성비 모두를 만족시키는 듯 보였다.

그러나 내용을 읽고, 내가 던지고 싶은 질문은 그 한 겹 아래에 있다.

이 구조가 정말로 “큰 모델 하나로 한방에 추론하는 것”보다 효율적인가? 그리고 지금 업계가 진짜로 경쟁하고 있는 축은 이 질문이 맞는가?

결론부터 말하자면, 반복형 트랜스포머는 “모델 자체를 복잡하게 만드는 효율화 시도” 중 하나이고, 이런 접근은 역사적으로, 맥락적으로 거의 살아남지 못했다. 대신 실제 승부는 모델 바깥에서, 가성비와 리소스 가용성을 어디까지 끌어올릴 수 있는가에서 벌어지고 있다. 그리고 그 경쟁의 최종 목적지는 엣지 디바이스 플랫폼 선점이라는 인사이트, 그 욕구가 이렇게 구현되어 간다는 생각을 하게 되었다.


1. OpenMythos / 파르카에(Parcae) 구조 요약

본격적인 분석에 앞서, 핵심 구조를 간단히 짚는다.

  • 루프형 트랜스포머(Looped Transformer): 동일한 가중치 블록을 반복 적용하는 구조이다.
  • 재귀적 깊이 트랜스포머(RDT, Recurrent-Depth Transformer): 추론 능력이 “파라미터 수”가 아니라 “추론 시 반복 횟수”에 의해 결정된다고 주장한다.
  • 파르카에(Parcae) 3단계: Prelude → Recurrent(최대 16회) → Coda. 핵심은 가운데 Recurrent 단계의 반복이다.
  • 전문가 혼합(MoE) 결합: 토큰별로 일부 전문가만 선택적으로 활성화하는 희소 연산을 도입했다.
  • 잠재 공간(latent space) 내 추론: 사고 사슬(CoT)처럼 중간 결과를 토큰으로 외부화하지 않고, 내부 벡터 연산만으로 다단계 추론을 수행한다.

학습 안정성 문제(반복 시 hidden state 폭발, 손실값 급등)는 비선형 시간 불변(NTI) 동적 시스템, 토큰별 연산량 자동 조절, 깊이별 LoRA(Depth-Wise LoRA) 같은 기법으로 보완했다고 한다.

확실히 잘 설계된 효율화 시도다.


2. 첫 번째 의문: “7.7B = 13B 성능”은 진짜 가성비인가

하지만 가장 먼저 의심해야 할 부분은 “파라미터 수 = 비용”이라는 무의식적 등식이다.

반복 구조에서 7.7B 모델은 메모리 점유 측면에서만 7.7B다. 실제 계산량(FLOPs)은 다음과 같이 잡힌다.

|항목|7.7B 반복 모델 (16회)|13B 일반 트랜스포머| |—|—|—| |VRAM 점유|약 15GB (fp16)|약 26GB (fp16)| |토큰당 FLOPs|7.7B × 16 ≈ 120B급|13B × 1 ≈ 13B| |단일 토큰 지연시간|길다 (순차 반복)|짧다 (한 번 통과)| |배치 효율|낮다 (토큰별 반복 수 가변)|높다|

다소 정확한 비교는 아님. 단순 연산량 근사치로 계산한 것이다.

즉, VRAM은 줄어드는 대신 연산은 약 10배 가까이 늘어나는 구조다. 작은 GPU에 모델을 욱여넣을 수는 있지만, 토큰을 뽑는 속도는 훨씬 느리다.

특히 온프레미스나 자체 서빙 환경에서 “TPS(Tokens Per Second)”가 제품 경쟁력의 핵심이라면, 이 트레이드오프는 명확히 손해 쪽이다. 여기서 첫 번째 결론이 나온다.

“파라미터가 적다”는 말은 “싸다”와 동의어가 아니다. 반복 구조는 메모리 효율을 위해 시간 효율을 희생한 구조에 가깝다.


3. 두 번째 분석: 큰 모델 + 병렬 인프라가 더 강한 이유

같은 자원을 전제로 하고 큰 단일 모델 + 병렬 인프라에 투입하면 어떤가?

이 비교에서 구조적으로 거의 항상 단일 큰 모델이 이긴다. 이유는 세 가지다.

3.1 병렬화의 비대칭성

  • 단일 큰 모델은 한 번의 forward pass로 끝난다. 텐서 병렬·파이프라인 병렬·시퀀스 병렬 모두 잘 적용된다.
  • 반복 구조는 본질적으로 순차적이다. t단계의 출력이 t+1단계의 입력이 되므로, 같은 FLOPs를 써도 wall-clock time이 길어진다.

3.2 운영 단순성

  • 큰 모델 N개 인스턴스를 병렬 호출하는 방식은 SLA 예측이 쉽고, 실패 격리가 단순하며, 스케일 아웃이 선형적이다.
  • 반복 구조 모델은 하나의 요청 안에 동기 의존성이 있어 이런 운영적 이점을 얻기 어렵다.

3.3 과거의 기록에서 볼 수 있는 패턴

비슷한 시도들의 결과들도 참고할 만하다.

  • Universal Transformer(2018): 같은 가중치 반복 아이디어. 연구는 인용되지만 실서비스에서는 거의 쓰이지 않는다.
  • Mixture of Depths(2024): 토큰별 동적 깊이. 흥미로운 결과지만 메인스트림은 못 됐다.
  • Speculative Decoding: 작은 모델 + 큰 모델 조합. 이건 살아남았는데, 이유는 “큰 모델 자체를 바꾸지 않고” 가속만 하기 때문이다.

패턴은 분명하다. 모델 구조 자체를 복잡하게 만드는 시도는 잘 살아남지 못하고, 큰 모델은 그대로 두고 주변 인프라를 최적화하는 접근이 살아남는다. 과거에는 나 역시 CoT 를 비롯해서 여러 방법론의 도전적 결합이 방향성이 아닐까 하는 생각은 했다. 하지만 결론적으로 그건 본질을 바꿀 수는 없고, 결국 대형모델을 기반으로 하는게 맞단 생각은 확실히 변하진 않는 것으로 보인다.


4. 세 번째 통찰: 본질은 “확률 곱 구조의 로그 saturation”

왜 반복 연산을 늘려도 성능 상승이 점점 둔화되는가? 이는 단순한 엔지니어링 문제가 아니라 확률 모델 자체의 본질적 한계에서 나온다고 생각한다.

LLM의 추론은 본질적으로 조건부 확률의 곱이다.

P(정답) = P(t1) × P(t2|t1) × P(t3|t1,t2) × ... × P(tn|t1...tn-1)

추론 시 연산을 늘리는 행위는 각 단계의 확률 분포를 더 잘 짜내는 것에 해당한다. 그런데 여기엔 두 가지 본질적 한계가 있다.

4.1 한계 효용 체감

  • 50% → 80%로 끌어올리는 것은 비교적 쉽다. 모델이 가진 정보를 제대로 꺼내기만 하면 된다.
  • 95% → 99%는 본질적 모호성 영역이라 어렵다.
  • 99% → 99.9%는 사실상 데이터 자체가 답을 못 주는 영역이다. (Bayes error 영역)

4.2 √N 수렴 (중심극한정리) self-consistency, best-of-N 같은 가장 단순한 추론 시 스케일링도 샘플 N개를 평균낸 신뢰도 상승은 √N에 비례한다. 100배 연산을 써도 신뢰도는 10배 정도 오를 뿐이다.

이는 OpenAI o1, DeepSeek R1, Qwen QwQ 같은 추론 강화 모델들의 공개 벤치마크 곡선에서 일관되게 관찰된다. test-time compute를 log scale로 잡았을 때 성능은 거의 log-linear하게 상승한다. 즉 연산을 10배 늘려야 같은 폭의 성능 상승을 얻는다.

처음엔 수직으로 오르다가 90%대 후반부터는 거의 평탄해지는 로그 곡선. 결정론적 시스템이라면 한 번 맞으면 끝이지만, 확률적 시스템은 본질적으로 √N 수렴 구조에 갇혀 있다.

반복 구조는 이 한계 효용 곡선을 따라 올라갈 뿐, 이 곡선 자체를 깨지는 못한다.


5. 네 번째 관점: 실제로 살아남는 최적화는 어디를 건드리는가

여기서 흐름을 뒤집어 생각해볼 필요가 있다. 메인스트림에서 살아남은 효율화 기법들은 공통적으로 무엇을 건드리지 않는가?

답은 분명하다. 모델 자체를 건드리지 않는다.

최근 가장 상징적인 사례가 구글이 발표한 TurboQuant다. 이 기법은 모델 가중치가 아니라 KV 캐시(Key-Value Cache)를 3비트 수준으로 벡터 양자화(VQ)한다. 최대 6배 압축, 정확도 손실은 1% 이내, 별도 학습이나 파인튜닝도 필요 없다. Gemma와 Mistral에서 원본보다 오히려 빠른 런타임을 보이면서도 모델 정확도는 희생하지 않았다고 한다.

TurboQuant가 의미하는 바는 단순하게 성능 향상이란 키워드로 표현하기엔 다소 차이가 있다.

  • 건드린 곳: 모델 구조 X, 가중치 X → 추론 시 누적되는 캐시(주변 자원) O
  • 얻은 것: 같은 모델을 같은 품질로, 더 적은 메모리에, 더 빠르게
  • 의미: 모델 자체의 경쟁력은 그대로 두고, 서빙 비용 구조만 바꿔치기

이 계보에 속하는 기법들은 이미 여럿이다. FlashAttention(어텐션 연산 메모리 최적화), PagedAttention(KV 캐시 관리), Speculative Decoding(작은 모델 + 큰 모델 협업 가속), Continuous Batching(서빙 스케줄링 최적화) 등이 같은 철학 위에 있다.

공통점은 하나다. 모델의 “확률 곱 구조”는 건드리지 않는다. 대신 그 확률 곱을 더 싸게, 더 빠르게, 더 많이 돌릴 수 있는 주변 환경을 만든다. OpenMythos 같은 반복형 아키텍처가 모델 안에서 문제를 풀려 했다면, TurboQuant 계열은 모델 바깥에서 같은 문제를 푸는 쪽을 선택한 셈이다.

그리고 지금까지의 추세로 보면, 결과적으로는 후자가 승자의 편에 서 있다.


6. 다섯 번째 관점: 경쟁의 축이 움직이고 있다 — 성능에서 가성비·가용성으로

지금 대형 AI 모델 경쟁의 축은 이미 “누가 더 똑똑한가”에서 “누가 더 싸고, 더 많이, 더 가까이서 돌릴 수 있는가”로 옮겨가고 있거나, 그렇게 해야할 당위성에 부딪히고 있다. 몇 가지 정황을 정리하면 다음과 같다.

  • 소비자 요구의 실체화: AI는 이제 “해볼 만한 데모”가 아니라, 실생활 제품에 들어가야 하는 구현체를 요구하고 있다. 챗봇을 넘어 어시스턴트, 에이전트, 디바이스 UX까지 AI가 직접 반응하는 순간 응답 지연과 비용 구조는 더 이상 타협 대상이 아니다. 기업들의 마케팅, 기업들의 AI 에 대한 여러 반응들은 결국 거대한 흐름을 만들었고, 그 흐름의 진짜를 보여줘야할 시기는 다가오고 있다.
  • 하드웨어 매력도 정체: 스마트폰·PC 시장의 폼팩터 혁신이 대체로 한계에 도달한 상태에서, AI가 다음 판의 차별화 축이 되고 있다. 이건 곧 “AI를 어디서 돌리느냐”가 제품의 경쟁력이자 기업들의 장기적 수익성에 의미를 둔다는 뜻이다. 기업이 서버를 통해 서빙하는 것은 지금 당장 구현 가능한 방법론이지만, GPU도, 서빙에 필요한 리소스도, 그리고 생기는 오류도 통제하는데 매우 어렵고 비용도 과도하다.
  • 대형 모델 서빙 비용의 구조적 문제: 프론티어 모델을 모든 쿼리에 풀로 돌리는 방식은, 사용자 수가 한 단계 늘어날 때마다 비용이 거의 선형적으로 늘어난다. 이 구조는 B2C 스케일에서 유지 불가능하다는 인식이 업계 전반에 퍼지고 있다.
  • 기업의 선택지 압박: 고비용의 풀 클라우드 LLM만 쓰자니 마진이 남지 않고, 저품질의 온디바이스 모델만 쓰자니 제품성이 안 나온다. 결국 기업들이 이 제로섬 경쟁에서 이길 방향성으론, 사이의 어딘가에 답을 찾아야 한다.

이 모든 조건이 한 방향을 가리킨다. 엣지 디바이스 위의 작은 모델그 엣지들을 오케스트레이션하는 중추 모델, 둘을 연결한 하이브리드 구조다.

학계와 현장에서도 이 방향은 이미 형성되고 있다고 보여진다. 협업 추론 연구에서는 신뢰도가 높은 토큰은 온디바이스에서 처리하고, 신뢰도가 낮은 토큰이나 잔여 계산만 클라우드의 더 큰 모델로 오프로드하는 협업 모드가 이미 구체화되고 있다. 산업 쪽에서도 대부분의 기업이 하이브리드 아키텍처를 채택해 SLM이 일상 작업을 로컬에서 처리하고, 복잡한 추론이나 드문 엣지 케이스만 클라우드 LLM으로 에스컬레이션한다. 약 95%의 쿼리가 최소 비용으로 로컬에서 처리되는 구조로 재편되는 중이다.

즉, 엣지-중추 하이브리드는 더 이상 비전이 아니라 기업이 생존하기 위해 반드시 선택해야 하는 구조에 가까워지고 있다.


7. 그래서 진짜 경쟁 축: 엣지 디바이스 플랫폼 선점

이 흐름이 정확히 맞다면, 다음 판의 승자를 가르는 기준은 분명해진다.

누가 엣지 디바이스 위에서 “AI가 당연히 돌아가는 레이어”를 먼저 깔아두는가.

현재 이 지점은 여전히 실험 단계에 가깝다. Apple Intelligence, Qualcomm Hybrid AI, Google의 Gemini Nano 같은 시도가 있지만, 개발자·일반 사용자 관점에서 “엣지 AI가 당연한 것” 이 된 상황은 아직 아니다. 오히려 지금은 다음과 같은 공백이 남아 있다. 다만 Gemma 4의 E4B, E2B 는 드디어 이러한 관점에서 꽤 그럴듯한 구동이 되는 엣지 AI에 가깝다. 다만 여전한 현실은 다음과 같다.

  • 엣지용 런타임·배포 플랫폼의 표준 부재: 어떤 SLM을 어떤 포맷으로 어떻게 배포할지에 대한 사실상의 표준이 아직 없다.
  • 라우팅 레이어의 미성숙: 어떤 쿼리를 로컬에서 처리하고, 어떤 쿼리를 중추 모델로 올릴지 결정하는 게이트 로직은 아직 애플리케이션마다 제각각이다.
  • 엣지-중추 간 세션 상태 공유 문제: 사용자 컨텍스트를 엣지와 클라우드 사이에서 어떻게 일관되게 유지할지에 대한 해법이 정립되어 있지 않다.

이 공백을 누가 먼저 메우느냐에 따라, 향후 5~10년의 AI 시장 구도가 결정될 가능성이 크다. PC에서의 OS, 모바일에서의 앱 스토어가 그랬듯, 엣지 AI에서도 “플랫폼 레이어”를 먼저 장악한 쪽이 장기적인 가격 결정권을 가져갈 가능성이 높다.

OpenMythos 같은 아키텍처 실험은 이 거대한 판의 한 부분, 즉 “더 작은 모델로 더 많은 일을 하는” 방향에서 의미를 가진다. 다만 그 자체가 판의 중심은 아니다. 판의 중심은 점점 더 분명히 엣지 디바이스 플랫폼으로 이동하고 있다는 확신을 더욱 강화시킨다.


8. 결론

OpenMythos에서 출발한 이 글은, 결과적으로 한 가지 구조적 명제로 수렴한다.

지금 AI 업계의 진짜 경쟁은 “모델이 얼마나 똑똑한가”가 아니라, “가성비와 가용성을 어디까지 밀어붙일 수 있는가”로 이동하는 중이다.

반복형 트랜스포머처럼 모델 안에서 구조적 묘수를 찾는 시도는 연구적 의미는 있지만, 확률 곱 구조의 한계 효용 곡선 위를 기어 오르는 시도에 가깝다. 대신 살아남은 최적화들(TurboQuant, FlashAttention, Speculative Decoding 등)은 모두 모델 바깥을 건드렸다. 같은 모델을 더 싸게, 더 빠르게, 더 많이 돌릴 수 있게 만드는 방향이다.

그리고 이 흐름의 종착지는 결국 엣지다. 소비자 요구의 실체화, 하드웨어 매력도 정체, 대형 모델 서빙 비용의 구조적 한계 — 모든 조건이 엣지-중추 하이브리드 구조를 선택이 아닌 필수로 만들고 있다. 다음 판의 승자는 더 큰 모델을 가진 쪽이 아니라, 엣지 디바이스 위에 “AI가 당연히 돌아가는 레이어”를 먼저 까는 쪽일 가능성이 높다.

OpenMythos는 그 거대한 변화의 한 조각으로 읽는 것이 적절하다고 본다. 구조적 혁신 자체의 의미보다, 지금 업계가 어디를 경쟁 축으로 삼고 있는지를 비추는 거울에 가까운 프로젝트다. 이런 점에서 더더욱 피지컬 AI 까지 이어지는 꽤나 그럴듯한 방향성으로 찾아가고 있단 생각이 든다. 어디까지 날 놀라게 해주는 걸까? 놀랍기 그지 없다. 😂