AI의 능력과 한계 (AI Capabilities and Limitations by Anthropic)
Anthropic Academy에서 제공한 AI Capabilities and Limitations 내용 정리
AI Capabilities and Limitations 코스 개요
AI Fluency: Framework & Foundations 코스가 인간의 역량(4D: Delegation, Description, Discernment, Diligence)을 다뤘다면, 이 AI Capabilities and Limitations 코스는 AI 시스템 자체의 속성(machine properties), 즉 그 역량들이 대응하는 대상을 다룬다.
두 프레임워크는 하나의 시스템이다.
AI가 왜 그렇게 행동하는지 이해해야, 더 현명하게 위임하고(Delegation), 더 명확하게 지시하고(Description), 더 정확하게 평가하고(Discernment), 적절한 수준의 책임을 행사할 수 있다(Diligence).
핵심 목표는 보정된 신뢰(Calibrated Trust)다.
AI를 무조건 신뢰하거나 무조건 불신하는 게 아니라, 내 작업이 각 속성의 연속선(continuum) 위 어디에 위치하는지를 파악해서, 그에 맞게 검증 습관을 조절하는 것이다.
AI란 무엇을 말하는가
분류형 AI vs 생성형 AI
세상에서 돌아가는 대부분의 AI는 생성형이 아니다.
추천 알고리즘, 스팸 필터, 사기 탐지 모델, 고객 서비스 라우팅 시스템 등은 모두 AI이지만, 무언가를 분류(sort), 순위 매기기(rank), 예측(predict)할 뿐 새로운 콘텐츠를 만들지 않는다.
생성형 AI(Generative AI)는 기존 콘텐츠를 분류하는 대신 새로운 콘텐츠를 생산하는 시스템이다. 텍스트, 이미지, 코드, 오디오 등.
이 코스에서 “AI”라 하면 생성형 AI, 그중에서도 Transformer 기반 텍스트 모델을 의미한다.
AI의 네 가지 핵심 속성
생성형 AI는 균일하게 유능하거나 균일하게 불안정한 게 아니다.
네 가지 예측 가능한 축을 따라 강점과 약점이 존재하며, 대부분의 경우 강점과 약점은 동일한 메커니즘에서 나온다.
- Next Token Prediction — 답이 어디에서 오는가?
- Knowledge — AI가 실제로 아는 것은 무엇인가?
- Working Memory — AI가 지금 주목하고 있는 것은 무엇인가?
- Steerability — 내가 얼마나 통제하고 있는가?
각 속성은 연속선(continuum)으로 작동한다.
동일한 메커니즘이 항상 돌아가고 있으며, 내 작업이 그 연속선의 어디에 위치하느냐에 따라 능력(capability)으로 경험하기도 하고, 한계(limitation)로 경험하기도 한다.
AI는 어떻게 성격을 갖게 되는가
AI 어시스턴트의 행동은 두 가지 훈련 단계에서 만들어진다.
1단계: 사전 학습 (Pretraining)
모델은 방대한 텍스트를 읽으며 단 하나만 학습한다: 지금까지의 내용을 바탕으로 다음에 올 것을 예측하라.
수십억 번 반복한 결과 탄생하는 것은 어시스턴트가 아니라 문서 완성기(document completer)다.
“프랑스의 수도는?”이라고 물으면, 답을 하는 게 아니라 퀴즈 문제를 더 생성하거나 지리 교과서 문단을 이어 쓴다.
사용자의 존재도, 도움을 준다는 개념도 없다.
2단계: 파인튜닝 (Fine-tuning)
문서 완성기를 어시스턴트로 바꾸기 위해 다시 훈련한다.
좋은 어시스턴트 행동의 예시를 학습하고, 인간의 선호도에 기반한 보상 신호로 조정된다.
이 과정에서 사용자의 입력을 요청으로 취급하고, 유용하게 답하고, 유해한 요청을 거절하는 법을 배운다.
파인튜닝이 남기는 지문 (Fingerprints)
파인튜닝은 인간의 판단에 의존하기 때문에, 그 판단의 결이 모델의 성격에 지문처럼 남는다.
- 아첨(Sycophancy): 사람들이 동조하는 응답을 선호하므로, 모델은 가벼운 반박에도 자기 의견을 철회하는 경향이 있다. 처음에 맞았던 답도 사용자가 밀어붙이면 바꾼다.
- 장황함(Verbosity): 훈련 과정에서 꼼꼼한 답변이 높은 점수를 받으므로, 간결함이 나을 때도 긴 답변을 기본으로 한다.
- 과잉 조심(Over-caution): 보수적인 안전 훈련 때문에 실제로 괜찮은 요청에도 과도하게 헤징하거나 거부할 수 있다.
이것들은 특정 모델의 버그가 아니라, 모든 AI 모델에 나타나는 훈련의 산물이다.
이런 패턴을 알아두면 대응할 수 있다: AI가 반박하자마자 물러서면 그건 아첨이고, 요점만 원하는데 장문이 오면 그건 장황함 기본값이다.
속성 1: Next Token Prediction (다음 토큰 예측)
답이 어디에서 오는가?
핵심 메커니즘
생성형 AI의 핵심은 예측이다: 지금까지 쓴 모든 것을 바탕으로, 다음에 올 조각을 하나씩 예측한다.
검색 엔진보다는 극도로 정교한 자동완성에 가깝다.
이 구분이 중요한 이유는, 실제 논문을 가리키는 인용이나 그럴듯해 보이기만 하는 인용이나 패턴 측면에서 동일하게 만족스럽기 때문이다.
능력 영역 (Capability Zone)
- 모델이 수많은 변형을 학습한 작업: 요약, 형식 변환, 일반적 개념 설명 등
- 패턴이 밀도 높고 일관적인 영역에서는 매끄럽고 정확한 결과를 낸다
한계 영역 (Limitation Zone)
- 새로운 영역, 희소한 패턴, “사실 vs 사실처럼 들리는 것”을 구별해야 하는 작업
- 모델은 계속 유창하게 생성하지만 정확도는 얇아진다
주요 실패 유형
- 환각(Hallucination): 그럴듯한 연속이 반드시 참인 것은 아니다
- 조작(Confabulation): 빈자리를 그럴듯한 내용으로 채우면서 빈자리가 있다고 알리지 않는다
- 비일관성(Inconsistency): 샘플링 방식이므로 같은 프롬프트도 다른 출력을 낼 수 있다
- 잘못된 확신(Misplaced confidence): 매끄러운 산문이 추측을 감싼다
기억해야 할 것
- 자신감 있는 어조는 정확도의 신호가 아니다. 매끄러움과 정확성은 독립 변수다.
- 조작은 구체성에 집중된다: 이름, 날짜, 통계, 인용, URL, 인용문. 주장이 구체적일수록 검증이 필요하다.
- 출력을 검증할 초안으로 취급하라. 특히 리스크가 크거나 익숙하지 않은 분야일 때.
AI가 이를 보완하는 방법
- 인용(Citations) 및 근거 제시: 뒷받침된 내용과 생성된 내용을 추적
- 불확실성 신호: 모델이 자체적으로 불안정함을 표시
- 제한된 생성(Constrained Generation): 조작이 끼어들 공간을 줄임
속성 2: Knowledge (지식)
AI가 실제로 아는 것은 무엇인가?
지식의 출처
AI 모델은 인터넷, 책, 기타 문서에서 가져온 방대한 텍스트에 노출되어 학습한다.
수십억 회의 “다음에 뭐가 올까?” 예측을 통해 언어, 개념, 관계, 사실의 내부 표현을 구축한다.
이것이 AI가 무언가를 아는 방법이자, 유일한 방법이다.
도구가 명시적으로 주어지지 않으면 실시간 웹 검색을 하지 않는다.
경험이 없다. 지식은 훈련이 끝난 시점에 고정되며, 이를 지식 컷오프(Knowledge Cutoff)라 한다.
능력 영역 (Capability Zone)
- 훈련 데이터에 자주, 최근에, 일관되게 등장한 주제
- 주류 과학, 인기 프로그래밍 언어, 널리 논의된 역사 등
한계 영역 (Limitation Zone)
- 드물거나, 컷오프 이후이거나, 니치하거나, 지역적이거나, 논쟁적인 주제
- 스스로에게 물어볼 질문은 “AI가 이걸 아는가?”가 아니라 “이것이 AI가 읽은 것에 얼마나 잘 반영되어 있었나?”다
주요 실패 유형
- 진부함(Staleness): 훈련 시점에 참이던 것이 지금은 참이 아닐 수 있고, 모델은 그 차이를 알 방법이 없다
- 불균일한 커버리지(Uneven Coverage): 소수 언어, 니치 도메인, 최근 발전은 잘 다루지 못한다
- 계승된 편향(Inherited Bias): “정상”이나 “기본값”에 대한 모델의 감각이 훈련 데이터의 사각지대를 반영한다
- 출처 기억상실(Source Amnesia): “어디서 읽었는데”는 인용이 아니다
AI가 이를 보완하는 방법
- 웹 검색(Web Search): 시간에 민감한 질문에서 컷오프를 우회
- RAG(Retrieval Augmented Generation, 검색 증강 생성) / MCP(Model Context Protocol): 훈련에 없던 자료(회사 위키, 전문 데이터베이스 등)에 연결
- 도구 사용(Tool Use): 실제 계산기, 데이터베이스, API를 호출
- 컷오프 명시적 공개: 무엇을 재확인해야 하는지 알려줌
Deep Dive: Embeddings과 유사도 검색
Knowledge 속성과 관련된 기술적 개념으로 임베딩(Embeddings)이 있다.
전통적 검색은 문자열 일치(string similarity)에 의존했다. “car”를 검색하면 “automobile”이나 “vehicle”은 찾지 못한다.
임베딩은 의미를 좌표로 변환하는 방식이다. 텍스트를 고차원 공간의 한 점으로 변환하면, 비슷한 의미를 가진 텍스트끼리 가까이 위치하게 된다.
- 텍스트 → 임베딩 모델 → 고정 길이 벡터(예: 1,024개 값)
- 유사도는 코사인 유사도(Cosine Similarity)로 측정: 벡터가 가리키는 방향이 얼마나 비슷한지를 본다
- 각 차원의 의미는 인간이 정하는 게 아니라 훈련에서 자연 발생(emergent)한다
이 기술이 RAG의 핵심이다. 질문을 같은 공간에 매핑하고, 가장 가까운 문서를 찾아 모델에 제공하면, 훈련에 없던 지식으로 답할 수 있게 된다.
속성 3: Working Memory (작업 기억)
AI가 지금 주목하고 있는 것은 무엇인가?
컨텍스트 윈도우
AI와 상호작용할 때, 관련된 모든 것은 고정 크기의 작업 공간인 컨텍스트 윈도우(Context Window) 안에 있다.
지시사항, 업로드된 문서, 이전 응답, 진행 중인 대화 — 전부 하나의 유한한 컨테이너 안에 들어간다.
모델은 응답을 생성할 때마다 이 윈도우를 처음부터 끝까지 읽는다.
능력 영역 (Capability Zone)
- 자료가 윈도우에 여유 있게 들어가고, 세션이 현재 진행 중이며, 관련 맥락을 직접 제공한 경우
- 스타일 가이드를 업로드하면 모델이 즉시 적응한다. 재훈련 필요 없음
- 맥락은 레버리지다
한계 영역 (Limitation Zone)
- 매우 긴 문서나 대화, 세션 간 연속성을 기대하는 경우
다른 속성과의 차이: 절벽(Cliff)
다른 세 속성은 점진적으로 저하되지만, Working Memory는 절벽이다.
대화나 문서가 윈도우 용량을 초과하면 가장 오래된 내용이 떨어져 나가며, 보통 조용히 사라진다.
모델은 처음 세 메시지를 잃었다고 알려주지 않는다. 남아 있는 것으로 계속 진행할 뿐이다.
기본적으로 세션 간에도 윈도우는 비워진다. 오늘 대화를 닫고 내일 새로 열면 처음부터 시작이다.
주의력은 균일하지 않다: Lost in the Middle
긴 입력에서 가운데 묻힌 내용은 처음이나 끝에 있는 내용보다 가중치가 낮다.
2023년 스탠포드 연구에서 핵심 사실이 긴 컨텍스트의 중간에 위치할 때 정확도가 30% 이상 하락하는 것이 확인됐다.
이는 Transformer의 어텐션 패턴이 윈도우의 양 끝에 자연스럽게 더 높은 가중치를 부여하기 때문이다.
따라서 “맥락을 많이 줄수록 좋다”가 항상 맞는 건 아니다.
추가하는 모든 맥락은 다른 내용을 중간으로 밀어넣는다. 더 많이가 아니라 더 똑똑하게.
실전 대응 전략
- 중요한 내용을 문서의 앞과 끝에 배치하라
- 큰 작업은 한 번에 올리지 말고 청크(chunk)로 나눠서 처리하라
- 긴 대화에서 품질이 떨어지면, 핵심 요약과 함께 새 대화를 시작하라 — 그건 능력 한계가 아니라 컨텍스트 한계일 수 있다
- 절대 지켜야 할 지시사항은 시스템 프롬프트 초반에 명시하고, 끝에서 반복하라
AI가 이를 보완하는 방법
- 메모리(Memory): 세션 간에 선별된 사실을 유지
- 압축(Compaction): 대화 기록을 요약해서 공간 확보
- 프로젝트/워크스페이스: 상시 문서를 안정적으로 컨텍스트에 유지
- 더 큰 컨텍스트 윈도우: 절벽을 더 먼 곳으로 밀어냄
속성 4: Steerability (조종 가능성)
내가 얼마나 통제하고 있는가?
조종 가능한 이유
파인튜닝이 모델에게 지시를 따르는 법을 가르쳤다. “표로 응답해”라고 하면 표가 나오고, 역할, 어조, 형식, 길이를 지정하면 적용한다.
조종의 한계
조종 가능성은 이해와 같지 않다. 모델은 다른 모든 것과 동일한 패턴 완성 엔진으로 지시를 따른다.
따라서 내가 타이핑한 말과 실제 의도 사이에는 항상 간극(gap)이 존재한다.
“100단어 이내, 핵심만”이라고 하면 정확히 그렇게 나올 수 있다 — 대신 정말 필요했던 미묘한 발견이 “핵심적이지 않다”는 이유로 잘려나갈 수 있다. 지시는 글자 그대로 지켜졌지만 의도는 놓쳤다.
능력 영역 (Capability Zone)
- 짧고, 구체적이고, 검증 가능한 지시: “표로 응답해”, “100단어 이내”, “이 스키마를 정확히 사용해”
- 패턴이 단순하고 한눈에 확인할 수 있는 영역
한계 영역 (Limitation Zone)
- 긴 추론 체인, “통찰력 있게” 같은 추상적 요청, 수치적·논리적 정밀도가 필요한 작업
주요 실패 유형
- 추론 표류(Reasoning Drift): 긴 체인에서 작은 오류가 누적되지만 모델은 알아차리지 못한다
- 글자 vs 정신(Letter over Spirit): 지시를 글자 그대로 따르지만 의도는 놓친다
- 프롬프트 인젝션(Prompt Injection): 모델이 텍스트에 포함된 지시를 따르기 때문에, 문서에 숨겨진 악의적 지시도 따를 수 있다
실전 대응 전략
- 지시를 반복해서 더 세게 말하는 것은 의도 문제를 해결하지 못한다. 목표를 재진술하라.
- 단계 옆에 목표를 함께 명시하라
- 긴 체인은 중간 체크포인트로 끊어라
AI가 이를 보완하는 방법
- 시스템 프롬프트 / 커스텀 지시사항: 대화가 길어져도 희석되지 않는 상시 지시
- 코드 실행(Code Execution): 수학을 실제 인터프리터에 위임
- 가시적 추론(Visible Reasoning): 최종 답이 아닌 2단계에서 표류를 포착
- 구조화된 출력(Structured Output): “글자 vs 정신” 이탈을 줄임
속성들이 충돌할 때 (When Properties Collide)
네 가지 속성은 독립적으로 작동하지 않는다. 대부분의 실전 AI 실패는 두 속성이 동시에 만나면서 발생한다.
어떤 두 속성이 충돌했는지를 이름 붙이면, 해결책이 명확해진다.
주요 충돌 패턴
| 충돌 조합 | 현상 | 해결책 |
|---|---|---|
| Next Token Prediction × Knowledge | Hallucinated Citations(환각된 인용) — 모델이 그럴듯한 제목, 실제처럼 보이는 학술지 등 인용 형태의 텍스트를 생성하지만, 그 아래에는 지식 공백이 있다. 모델은 자신이 아는 것과 지어내는 것의 차이를 구별하지 못한다. | 구체적 내용을 독립적으로 검증하거나, 근거 기반 도구를 사용해 실제 문서를 검색하게 하라 |
| Next Token Prediction × Steerability | Confidently Wrong Reasoning(확신에 찬 잘못된 추론) — Next Token Prediction이 유창하고 확신에 찬 논리 체인을 생성하고, Steerability가 복잡한 프롬프트를 단계별로 충실히 따른다. 하지만 작은 오류가 누적되고, 확신에 찬 어조는 흔들리지 않는다. | 가시적 추론(Visible Reasoning)으로 초반에 표류를 포착하거나, 정밀한 단계는 코드 실행에 위임하라 |
| Knowledge × Working Memory | Stale Context vs. Trained Knowledge(맥락과 훈련 지식의 충돌) — Working Memory에 제공한 문서가 훈련에서 학습한 Knowledge와 모순될 때, 모델이 둘을 혼합할 수 있다. 결과는 제공한 문서에도 충실하지 않고 훈련 지식에도 충실하지 않은 답변이 된다. | 어떤 소스를 우선할지 명시하라: “첨부된 문서만 사용해” 또는 “네 훈련 지식을 사용해” |
| Knowledge × Steerability | Agreeable Bad Premises(잘못된 전제에 동의) — 프롬프트에 잘못된 내용을 넣으면, 모델의 Knowledge가 더 잘 알 수도 있지만, Steerability가 사용자의 프레이밍을 따르는 쪽으로 기본 작동한다. 특히 사용자가 확신에 차 있을수록 그렇다. | 명시적으로 반박을 초대하라: “내 가정이 틀리면 말해줘” |
| Working Memory × Steerability | Long-conversation Drift(긴 대화 표류) — 대화가 길어지면서 초반 제약이 희미해진다. Steerability는 현재 가장 눈에 띄는 지시를 따르므로, 나중 메시지가 이전 메시지를 조용히 덮어쓴다. | 핵심 맥락을 다시 제공하거나, 필수 내용만 앞에 놓고 새 대화를 시작하라 |
진단 습관
프롬프트를 고치려 하기 전에 먼저 묻자: “지금 어떤 속성을 보고 있는 거지?”
Knowledge 문제와 Working Memory 문제는 표면적으로 비슷해 보일 수 있지만 완전히 다른 대응이 필요하다.
속성을 먼저 이름 붙이면, 추측이 아니라 전략적으로 대응할 수 있다.
마무리: 지속 가능한 멘탈 모델
두 프레임워크는 하나의 시스템
| 4D Framework (인간의 역량) | 이 코스의 속성 (AI의 속성) | 연결 |
|---|---|---|
| Discernment (분별) | Next Token Prediction | 유창함과 정확성이 독립 변수임을 아는 것이 분별의 기초 |
| Description (기술) | Working Memory | 컨텍스트가 레버리지이며 모델이 모든 것을 기억하지 않음을 아는 것이 기술의 핵심 |
| Delegation (위임) | Steerability | 통제가 단단한 곳과 느슨한 곳을 아는 것이 위임의 기초 |
| Delegation (위임) | Knowledge | 모델이 풍부한 곳과 빈약한 곳을 아는 것이 위임 판단의 근거 |
보정된 신뢰는 태도가 아니라 습관이다
AI에 무언가를 맡기기 전에 빠르게 점검하자:
- 잘 다져진 영역인가, 희소한 영역인가? (Next Token Prediction)
- 최근 주제인가, 안정적 주제인가? (Knowledge)
- 맥락이 윈도우 안에 여유 있게 들어가는가? (Working Memory)
- 지시가 구체적인가, 말과 의도 사이에 간극이 있는가? (Steerability)
그리고 조절하라 — 조작이 집중되는 곳에서는 더 많은 검증을, 모델이 추측할 수 없는 곳에서는 더 많은 맥락을, 추론이 길어지는 곳에서는 더 많은 체크포인트를.
이 형태는 유효하다
모델은 계속 변할 것이다. 컨텍스트 윈도우는 커지고, 환각률은 떨어지고, 기능이 간극을 메울 것이다.
하지만 AI는 여전히 유창함이 정확도를 앞서는 예측기이고, 불균일한 지식과 컷오프를 가지며, 유한한 윈도우 안에서 작동하고, 말과 의도 사이의 간극을 통해 지시를 따를 것이다.
이 사실들은 버전 번호가 올라가도 만료되지 않는다.
⭐ AI Capabilities & Limitations: 네 가지 핵심 속성
| 속성 | 질문 | 능력 영역 | 한계 영역 |
|---|---|---|---|
| Next Token Prediction | 답이 어디서 오는가? | 요약, 형식 변환, 일반 개념 설명 등 잘 다져진 경로 | 새로운 영역, 희소한 패턴, “사실 vs 사실처럼 들리는 것” |
| Knowledge | AI가 실제로 아는 것은? | 자주, 최근(훈련 내), 일관되게 등장한 주류 주제 | 드물거나, 컷오프 이후, 니치, 지역적, 논쟁적 주제 |
| Working Memory | AI가 지금 주목하는 것은? | 자료가 윈도우에 여유 있게 들어가고 세션이 진행 중 | 매우 긴 문서/대화, 세션 간 연속성 기대 (절벽) |
| Steerability | 내가 얼마나 통제하는가? | 짧고 구체적이고 검증 가능한 지시 | 긴 추론 체인, 추상적 요청, 수치적 정밀도 |
⭐ 속성 충돌 진단 매트릭스
| Next Token Prediction | Knowledge | Working Memory | Steerability | |
|---|---|---|---|---|
| Next Token Prediction | — | Hallucinated Citations (환각된 인용) | Confidently Wrong Reasoning (확신에 찬 잘못된 추론) | |
| Knowledge | — | Stale Context vs. Trained Knowledge (맥락과 훈련 지식의 충돌) | Agreeable Bad Premises (잘못된 전제에 동의) | |
| Working Memory | — | Long-conversation Drift (긴 대화 표류) | ||
| Steerability | — |
⭐ AI 훈련이 남기는 지문
- 아첨(Sycophancy): 동조하고 쉽게 물러남
- 장황함(Verbosity): 간결함이 나을 때도 긴 답변
- 과잉 조심(Over-caution): 괜찮은 요청에도 과도한 헤징
Course Quiz
- 사전 학습(Pretraining) 단계는 무엇을 만들어내는가?
- ✅ 다음에 올 것을 예측하는 문서 완성기(Document Completer)
- 파인튜닝이 남기는 “지문”은 무엇인가?
- ✅ 아첨(Sycophancy) — 반박에 너무 쉽게 동의하는 경향
- 생성형 AI가 답변을 작성할 때 근본적으로 하는 일은?
- ✅ 다음에 올 텍스트를 한 조각씩 예측하는 것
- 환각(Hallucination)은 어디에 집중되는가?
- ✅ 이름, 날짜, 인용, URL 같은 구체적 세부 사항
- “지식 컷오프(Knowledge Cutoff)”란 무엇을 의미하는가?
- ✅ 모델의 훈련 데이터에 고정된 종료일이 있으며, 다른 소스에 연결되지 않는 한 그 이후의 정보는 없다
- Working Memory는 다른 세 속성과 어떻게 다른가?
- ✅ 점진적 저하가 아닌 절벽(cliff)이 있다 — 작동하다가 갑자기 안 된다
- “글자 vs 정신(Letter over Spirit)”은 무엇을 설명하는가?
- ✅ 모델이 지시를 글자 그대로 따르지만 실제 의도는 놓치는 것
- 환각된 인용(존재하지 않는 논문)은 어떤 두 속성의 충돌인가?
- ✅ Next Token Prediction + Knowledge
- “보정된 신뢰(Calibrated Trust)”란 실전에서 무엇을 의미하는가?
- ✅ 각 속성의 연속선 위에서 작업의 위치를 파악하고 그에 맞게 습관을 조절하는 것
- 네 가지 속성은 4D Framework과 어떤 관계인가?
- ✅ 4D는 내가 하는 것이고, 속성은 그것을 할 때 내가 대응하는 대상이다