GPT, Claude, Gemini. 이름은 익숙하지만, 실제로 써보면 이해 방식도 반응 방식도 제각각입니다. 이 글은 세 모델이 사용자의 의도를 어떻게 파악하고, 어떤 식으로 반응·구현하는지를 실제 사용 경험을 바탕으로 비교한 기록입니다.
세간의 평가
아래는 실제 사용자들의 리뷰, 문서/미디어 입력 성능 테스트, 실사용 코드 흐름 등 다양한 평가 항목을 정리한 요약입니다. 단순 응답 품질을 넘어서 실행력과 맥락 대응, 자료 처리 성향까지 함께 포함합니다.
- GPT: 전체 대화 흐름을 비교적 자연스럽게 유지하며, 설정한 문맥을 중심으로 정리하는 능력이 뛰어남. 문서 응답, PDF 처리 등에서 정보 밀도와 응답 흐름이 안정적이라는 평이 많음.
- Claude: 실행 중심 대화에 강하며, 코드 응답에서 부가적 처리까지 챙겨주는 경우가 많음. 다만 텍스트 응답은 간결하고 중립적이라 감정 맥락 전달은 약하다는 의견이 있음.
- Gemini: 요점 추출과 정리는 빠르지만, 이미지·PDF·표 등 미디어 입력에 대해 설명 중심으로 반응하며 흐름 재구성은 부족하다는 의견. 긴 문서 요약은 강하지만 대화 확장은 제한적이라는 평가.
AI의 이해력과 맥락 반응력
세 모델이 사용자의 말을 어떻게 해석하고 대화 흐름을 얼마나 자연스럽게 이어가는지에 대한 체감 비교입니다. 각 항목은 실제 사용자가 경험한 내용을 중심으로 정리했습니다.
GPT-4 (Plus)
- 사용자의 의도를 짚으려는 태도가 분명히 보입니다. 단순한 요청에도 '혹시 이런 걸 원한 건가요?' 같은 반응이 따라오기도 하죠.
- 하지만 그걸 넘어서 자발적으로 확장해주는 능력은 부족합니다. 기본 요청 범위에서 벗어나는 행동은 적습니다.
- 초기에 입력한 조건이나 예시 톤에 고착되는 경향도 강합니다.
Claude
- Claude는 사용자의 의도를 충분히 반영해 구현하며, 필요한 주변 요소들도 알아서 챙겨주는 인상입니다.
코드 작업에서는 특히, 요청하지 않아도 예외 처리나 경로 검사 같은 부수 요소들을 포함해주는 경우가 많았습니다. - 응답 텍스트는 건조한 편이지만, 코드에는 생각이 들어간 느낌이 있습니다.
Gemini 2.5 Pro
- Gemini는 사용자의 말을 정리하고 요약하는 데는 정확했지만,
그 요약을 바탕으로 다시 흐름을 이어가거나, 의도를 깊이 파고들지는 않았습니다. - “핵심만 뽑아낸다”는 강점이 있지만, “맥락을 엮어낸다”는 쪽에서는 아쉬움이 있었습니다.
- 게다가 Pro 는 심층 연구(deep research) 기능을 사용하면 느으으립니다. 뭐 이건 gpt 도 마찬가지긴 합니다만..
코드 작성력 비교
코드를 단순히 만들어주는 수준을 넘어, 실제로 실행 가능한 흐름을 얼마나 충실하게 구성하는지 기준으로 비교합니다. 아래는 SWE-Bench 기준 정량 평가 결과와, 각 모델 사용 경험에 기반한 정성 평가입니다. Claude는 부가적인 처리까지 챙기는 경향이 있었고, GPT는 구성은 단정하지만 추가 요청 없이는 빠지는 요소가 많았고, Gemini는 설명 위주의 코드가 많아 실사용과의 간극이 느껴졌습니다.
SWE-Bench 기준 정확도
- Claude 3 Opus (Anthropic 기준, 2024년 측정): 약 71%
- GPT-4 (Original, 2023년 OpenAI 기준): 약 67%
- Gemini 2.5 Pro (Google DeepMind, 2024년 공개 수치): 약 63.8% ※ 참고 수치이며 실제 체감과 다를 수 있음
※ 위 내용은 gpt 가 검색해서 찾은 내용이고 최근의 평가는 https://www.swebench.com/?utm_source=chatgpt.com를 참고하시기 바랍니다.
GPT
- 깔끔한 코드 스타일이 장점입니다.
- Claude가 토큰 제한으로 작업하다 이어서 작업을 GPT로 넘기는 경우가 많습니다. GPT는 긴 문맥을 안정적으로 이어받지만, 보조 함수나 예외 처리는 기본 구현에 포함되지 않는 경우가 많습니다.
- excel 파일 작업 등을 진행할 때, 언급한 요청은 구현하지만 excel 파싱 코드가 빠진다던지, 헤더 파싱이 나사가 빠진 경우가 잦았습니다.
- 결론은... 초등학생에게 상세하게 방향을 지도해주듯이 보모 모드로 지시(프롬프트)를 자알 노오력해서 작성해야 좋은 결과를 스트레스 줄이고 얻습니다. 버벅일 때는 직접 수정하고 캔버스에 붙여넣어서 그걸 기준으로 작업하라고 지시하는게 효율적일 수도 있습니다.
Claude
- 완성도 높은 흐름을 먼저 짜주는 경향이 강합니다. 대략적인 기능 단위로 요청해도 전체 흐름을 먼저 설계해주는 편이며, 세부 분기나 예외 처리까지 포함된 경우도 많았습니다.
- 입력/출력 제한(클로드에서 토큰으로 인용됨)이 너무 짧습니다. 수정 요청 몇 번 하다 보면 사용량 제한 때문에 3시간 이상 기다려야 합니다. 성능은 만족스러운데 서비스가 짜다고 생각하시면 됩니다. 제일 비싼 버전은 안써봐서 모르겠지만, 가장 싼 유료 버전을 써도 별차이가 없었습니다.
쓰시다 보면 '계속' 이나 'continue' 연타를 누르고 있는 자신을 보게 될 수 있습니다. 너무 번거롭습니다. 그래서 한동안 열심히 쓰다가 지금은 구독을 취소한 상태입니다.
Gemini
- 코드는 아직 직접 사용해보지 못했지만, SWE-Bench 수치상으로는 준수하고, 설명 위주 출력 특성상 문서 구조화 요청에 적합해 보입니다. 벤치마크 상으로는 준수하나, 설명 중심 출력 경향상 실사용과 차이가 있을 가능성이 있습니다.
마무리하며
GPT를 비롯한 여러 AI를 만지작거리다 보니,
어느새 이런 얘기까지 꺼내게 됐네요.
누군가는 "오 이거 나도 느꼈는데"할 수 있고,
누군가는 그냥 조용히 창을 닫았을지도 모르죠.
저는 이렇게 써봤습니다.
여러분은 어떻게 쓰시나요?