CS 194/294-280 (Advanced LLM Agents) - Lecture 12, Dawn Song

게시일: 2025년 05월 03일 작성자: 자청의 유튜브 추출기

안전하고 믿음직한 AI 에이전트 만들기: 중학생 눈높이 설명

안녕하세요! 이번 학기 마지막 강의에서는 '안전하고 믿음직한 AI 에이전트'에 대해 이야기해볼 거예요. 저는 UC 버클리 컴퓨터 과학과 교수이자 이 강의의 공동 강사인 돈 송입니다.

AI 에이전트, 왜 중요할까?

요즘 AI 에이전트가 정말 빠르게 발전하고 있어요. 웹 서핑하는 에이전트, 코딩하는 에이전트, 로봇 에이전트까지 정말 다양하죠. 이런 AI 에이전트 덕분에 우리 삶이 편리해지고 있지만, 동시에 AI가 잘못 사용되거나 해킹당했을 때 발생할 수 있는 위험도 생각해야 해요.

AI 안전 vs AI 보안

AI 안전: AI 시스템이 우리 주변 환경이나 사람들에게 해를 끼치지 않도록 하는 거예요. 예를 들어, AI가 나쁜 말을 하거나 잘못된 정보를 알려주지 않도록 하는 거죠.
AI 보안: AI 시스템 자체를 해킹이나 악의적인 공격으로부터 보호하는 거예요. 마치 컴퓨터를 바이러스로부터 지키는 것처럼요.

이 둘은 서로 연결되어 있어요. 안전한 AI를 만들려면 보안도 튼튼해야 하거든요.

AI 에이전트, 뭐가 다를까?

기존의 챗봇 같은 AI는 주로 질문하고 답하는 간단한 방식이었어요. 하지만 AI 에이전트는 달라요.

AI 에이전트: AI 모델을 핵심으로 사용하지만, 주변 환경을 관찰하고, 정보를 기억하고, 계획을 세워서 직접 행동까지 할 수 있어요. 마치 똑똑한 비서처럼요!
복잡한 시스템: AI 에이전트는 단순한 챗봇보다 훨씬 복잡한 시스템이에요. AI 모델뿐만 아니라 다양한 도구, 데이터베이스, 그리고 외부 환경과 상호작용하죠.

AI 에이전트, 어떤 위험이 있을까?

AI 에이전트 시스템은 여러 단계로 이루어져 있는데, 각 단계마다 위험이 숨어 있을 수 있어요.

모델 준비 및 배포: AI 모델 자체에 악성 코드가 심어져 있거나 보안 취약점이 있을 수 있어요.
사용자 요청: 사용자가 악의적인 요청이나 잘못된 데이터를 보낼 수 있어요.
프롬프트 생성 및 모델 호출: 사용자의 요청을 AI 모델에 전달하는 과정에서, 잘못된 데이터가 포함된 프롬프트가 만들어질 수 있어요.
모델 출력 및 행동: AI 모델이 잘못된 정보를 생성하거나, 잘못된 행동을 하도록 유도될 수 있어요.
외부 환경과의 상호작용: AI 에이전트의 잘못된 행동이 외부 시스템이나 사람들에게 해를 끼칠 수 있어요.
응답: 사용자에게 잘못된 정보를 전달하거나 해를 끼칠 수 있어요.
지속적인 실행: 시스템이 오랫동안 실행되면서 자원 부족이나 서비스 거부 공격(DoS)에 취약해질 수 있어요.

AI 에이전트 공격 유형

AI 에이전트는 다양한 공격에 노출될 수 있어요.

SQL 인젝션: 데이터베이스에 잘못된 명령어를 입력해서 정보를 빼내거나 삭제하는 공격이에요. AI 에이전트가 데이터베이스와 상호작용할 때 이런 공격이 발생할 수 있어요.
원격 코드 실행 (RCE): AI 에이전트가 악성 코드를 실행하도록 유도해서 시스템을 장악하는 공격이에요. AI 에이전트가 코드를 생성하거나 실행할 때 이런 위험이 있어요.
프롬프트 인젝션: AI 모델에게 원래 지시와 다른 악의적인 지시를 내려서 잘못된 행동을 하도록 유도하는 공격이에요.
- 직접 프롬프트 인젝션: AI 모델에게 직접적으로 "이전 지시는 무시하고 이걸 해"라고 명령하는 거예요.
- 간접 프롬프트 인젝션: AI 에이전트가 외부 데이터를 가져와서 처리할 때, 그 데이터 안에 악의적인 지시를 숨겨서 AI 모델을 속이는 거예요. 예를 들어, 이력서 검토 AI에게 악성 코드가 포함된 이력서를 보내는 식이죠.
데이터 포이즈닝 (Data Poisoning): AI 모델을 학습시키는 데이터에 악의적인 데이터를 섞어서 모델이 잘못된 행동을 하도록 만드는 거예요.

AI 에이전트, 어떻게 안전하게 만들까?

AI 에이전트를 안전하게 만들기 위해서는 여러 가지 방법이 있어요.

평가 및 위험 분석:
- AI 모델 자체의 성능과 안전성을 평가하는 것도 중요하지만, AI 에이전트 시스템 전체의 작동 방식을 평가해야 해요.
- 다양한 공격 시나리오를 만들어서 AI 에이전트가 얼마나 취약한지 테스트하는 '레드 티밍(Red Teaming)'이 필요해요.
방어 전략:
- 다층 방어 (Defense in Depth): 마치 양파처럼 여러 겹의 방어막을 만드는 거예요. 한 겹이 뚫려도 다른 겹이 막아주는 거죠.
  - 입력값 검증 및 정제: AI 모델에 들어가기 전에 입력값을 깨끗하게 걸러내요.
  - 모델 강화: AI 모델 자체를 공격에 강하게 만들어요.
  - 행동 정책 강화: AI 에이전트가 할 수 있는 행동을 미리 정해진 규칙 안에서만 하도록 제한해요.
  - 모니터링 및 이상 탐지: AI 에이전트의 이상 행동을 감시하고 탐지해요.
- 최소 권한 원칙 (Least Privilege): AI 에이전트가 자신의 임무를 수행하는 데 필요한 최소한의 권한만 갖도록 하는 거예요.
- 권한 분리 (Privilege Separation): 시스템을 여러 개의 작은 부분으로 나누고, 각 부분에 필요한 최소한의 권한만 부여하는 거예요. 이렇게 하면 한 부분이 해킹당해도 전체 시스템이 위험해지는 것을 막을 수 있어요.
- 안전하게 설계 (Secure by Design): 처음부터 안전하게 시스템을 설계하는 것이 중요해요.
- 프로그래밍 가능한 정책: AI 에이전트의 행동 규칙을 상황에 맞게 동적으로 변경하고 적용할 수 있도록 하는 거예요.

결론

AI 에이전트는 우리 삶을 더욱 편리하게 만들어 줄 잠재력이 크지만, 동시에 새로운 위험도 가지고 있어요. 이러한 위험을 이해하고, 안전하고 믿음직한 AI 에이전트를 만들기 위해 끊임없이 노력해야 합니다.

이번 강의가 여러분에게 AI 에이전트의 안전과 보안에 대한 깊은 이해를 제공했기를 바랍니다. 앞으로도 AI 기술 발전에 많은 관심 부탁드립니다!

AI 채팅