영상 보기
요약
다음은 ‘AI Breakfast | Episode 3 - Agent로 일하는 시대가 이미 와버렸다 (Part 1)’ 영상 내용에 대한 요약이다.
AI 에이전트 시대의 도래와 구글의 접근 방식
‘AI Breakfast’ 3화에서는 AI 에이전트로 일하는 시대가 이미 시작되었음을 강조하며, 에이전트의 정의, LLM과의 차이점, 그리고 에이전트의 발전 과정 및 구글의 관련 전략을 다루고 있다. 구글 클라우드 팀의 한지은 AI 비즈니스 담당자와 심대열 엔지니어가 에이전트 시대에 대한 구글의 시각을 설명한다. 한지은은 AI 고 투 마켓 전략 수립 및 엔터프라이즈 기업 지원을 담당하며, 심대열은 고객들이 아이디어를 빠르게 구현할 수 있도록 MVP 프로덕트 프로토타이핑을 지원한다.
1. 에이전트의 정의와 특징
- 에이전트란 특정 목표 달성을 위해 스스로 판단하고 행동하는 똑똑한 비서이다. 예를 들어, 날씨 확인, 회의 일정 잡기, 관심 뉴스 제공 등 사용자를 대신하여 스스로 검색하고 학습하여 정보를 제공하는 역할을 한다.
- 기술적으로는 툴을 활용하고, 검색 결과를 평가하여 필요시 다른 툴을 사용하는 등 복합적인 요소를 포함한다.
- 에이전트는 자율성 수준에 따라 등급이 나뉘며, 완전 자동화된 에이전트부터 초보적인 에이전트까지 다양하다.
- 구글은 에이전트를 어떤 목표를 달성하기 위해 세상을 관찰하고, 주어진 툴을 활용하여 액션을 취하는 시스템으로 정의한다. 이는 인간이 해오던 업무를 인공지능이 수행할 수 있게 되었음을 의미한다.
2. LLM과 에이전트의 차별점
- 기존 LLM의 사용성은 사용자의 질문에 LLM이 알고 있는 선에서 즉각적으로 답변하는 방식이다. 예를 들어, “세종대왕이 맥북을 던졌나”라는 질문에 LLM은 그럴듯한 시나리오를 제시할 수 있지만, 사실 여부 확인은 전적으로 사용자의 몫이었다. 이러한 한계는 “환각(hallucination)” 효과를 유발하기도 한다.
- 에이전트는 다르다. 하나의 목적을 받았을 때, 스스로 검색을 수행하여 관련 정보를 찾고, LLM이 그 정보를 분석하여 중요 포인트를 파악한다. 필요한 경우 추가 질문을 생성하여 정보를 수집하고, 최종적으로 정확하고 심층적인 답변을 제공한다.
- 에이전트는 단순히 답변을 찾는 것을 넘어, 기억하고, 도구를 활용하며, 그 결과에 대해 스스로 자아성찰하여 올바른 방향으로 나아가는 과정을 포함한다.
- LLM은 에이전트의 두뇌 역할을 하지만, 에이전트는 LLM을 활용하여 특정 작업을 효과적으로 수행하고, 사고 과정을 거쳐 전문성을 발휘하는 시스템 자체를 의미한다.
3. 에이전트 개념의 발전 과정
- 초기 LLM은 학습된 시점 이후의 정보를 알지 못하는 한계가 있었다 (예: 2021년 4월까지 학습된 모델은 그 이후 정보를 모름).
- 이러한 한계를 극복하기 위해 RAG(검색 증강 생성) 기법이 등장했다. 이는 자동화된 툴이나 사람이 최신 정보를 검색하여 LLM에 제공함으로써 답변의 정확도를 높이는 방식이다.
- RAG의 유용성이 확인되면서, LLM의 한계를 돌파하기 위해 다양한 외부 툴(예: 인터넷 검색)을 활용하는 개념으로 확장되었다.
- 이러한 툴 활용을 위한 워크플로우는 초기에는 사람이 직접 설정했지만, LLM의 추론 능력과 계획 수립 능력이 발전하면서, 특정 태스크 요청 시 최적의 답변을 생성하기 위해 스스로 추론하고 계획을 세워 도구를 활용(예: 검색 증강)하는 에이전트 역할이 가능해졌다.
- 결과적으로 AI 자체가 LLM부터 시작하여 필요한 기능들을 계속 보완하고 발전하면서 ‘에이전트’라고 부를 수 있는 단계에 이른 것이다.
4. 자율적 수행과 통합의 중요성
- 에이전트에 ‘자율적 수행(Autonomous Execution)’과 ‘통합(Integration)’이라는 단어가 붙는 것은 LLM의 능력이 크게 향상되었기 때문이다.
- 자율적 수행은 LLM이 스스로 계획을 세우고 도구를 자율적으로 활용할 수 있게 되었음을 의미한다.
- 통합은 LLM이 도구를 활용하기 위해 해당 도구와 통합되어 있어야 하며, 다른 에이전트나 툴과의 협업을 통해서도 LLM의 능력이 대폭 향상될 수 있음을 나타낸다.
- 이 두 가지 특성(자율적 수행과 통합)은 에이전트의 가장 큰 장점을 표현하는 핵심 개념으로, 항상 함께 움직인다고 볼 수 있다.
- 구글은 에이전트를 연결하는 ‘오케스트레이션 모델’ 또는 ‘통합 에이전트’ 개념을 제시하며, 이는 에이전트들이 사람처럼 다양한 업무를 통합적으로 수행할 수 있도록 돕는 역할을 한다.
- 멀티 에이전트 시스템은 하나의 에이전트가 모든 일을 처리하는 것이 아니라, HR 에이전트, 개발 에이전트, 리뷰 에이전트와 같이 특정 목적과 전문성으로 역할을 분리하여 구성한 다음, 이를 통합하거나 관리하는 방식이다. 이는 마치 신입사원이 어떤 부서에 배치되어도 전문가가 될 수 있는 잠재력을 가진 것과 유사하다.
5. 구글의 5가지 에이전트 범주와 Creative Agent
- 구글은 이미 작년에 에이전트를 다섯 가지 범주로 정의한 바 있다:
- Employee Agent: 임직원 지원.
- Customer Agent: 고객 인터랙션 지원.
- Data Agent: 데이터 분석 지원.
- Creative Agent: 미디어 생성 지원 (예: 비디오, 이미지, 오디오).
- Security Agent: 보안 영역 지원.
6. 저작권 및 안전성 문제에 대한 구글의 접근
- 구글은 생성형 AI 모델 출시를 서두르지 않고, 엔터프라이즈 기업들이 믿고 신뢰할 수 있도록 오랜 기간 정책을 준비했다.
- 구글은 자사의 Gen AI 미디어 모델(Veo 2, Imagen 3, Lyria 등)을 통해 생성된 결과물에 대해 면책 조항(Indemnification)을 제공한다. 이는 사용자가 고의적으로 저작권을 침해하는 프롬프트를 입력하지 않는 한, 문제가 발생할 경우 구글이 책임지겠다는 약속이다.
- 구글은 다양한 안전 필터(Safety Filter) 계층을 통해 문제가 될 수 있는 콘텐츠 생성을 최대한 막고 있다. 엔터프라이즈 고객의 특정 요구사항이 있을 경우, 구글의 7가지 AI 원칙에 따라 안전 필터를 완화하는 조치를 취하기도 한다.
- 또한, AI가 생성한 콘텐츠에는 워터마크를 제공하여 AI 생성 여부를 확인할 수 있도록 하는 장치를 마련했다.
- 구글은 ‘책임감 있는 AI(Responsible AI)’ 구축을 목표로 하며, 이는 AI 시대에 구글이 차별점을 가져갈 수 있는 중요한 부분으로 강조된다. 기존 창작자들의 거부감을 해소하고 AI 생태계를 건강하게 구축하는 것이 목표이다.
내 생각 정리
나는 소비자와 기업이라는 관점에서 AI 의 고객을 생각했었다. 개발자니까, 그렇다면 거기서 필요한게 뭘까 하는 생각을 하기위해서였다. 하지만, 역시나 일까. 단순히 엔드 소비자와 기업이라는 관점만으론 부족했다는게 이번 내용에서 깨닫는 부분이다.
기업 내부에서도 결국 필요시 되는 건 결정권자들, 그리고 실무진이 다르며, 그들의 핵심이 어디서 어떤 것드을 제공해 주어야 하는지를 구글은 너무나 잘, 아주 함축적으로 파악하고 있다고 생각한다. 이게 역시 안목이라는 걸까.
에이전트 구축에 있어 어떤 방향성으로 좀더 명확해 져야 할지, 스스로 생각해 볼 수 있는 영역이었다.