퀘이사존
성능비교
퀘이사플레이
컴퓨텍스 이벤트
이벤트
필드테스트
특가/예판
행사판매
퀘플래플
퀘플이벤트
리뷰
벤치마크
기획기사
게임기사
비디오
리포트
컴퓨텍스 2024
하드웨어 성능비교 •
시네벤치(CPU)
3DMark(GPU)
하드웨어
게임
모바일
파트너뉴스
사용기/필테
팁/노하우
PC조립/견적
스팀/PC게임
플스/엑박/스위치
모바일/스마트폰
노트북/태블릿PC
가전제품/TV
CPU/메인보드/램
그래픽카드
오버클록/언더볼팅
케이스
커스텀수랭/튜닝
공랭/수랭쿨러
SSD/HDD/USB
파워서플라이
키보드/마우스
하이파이 •
게이밍오디오
모니터
네트워크/인터넷
OS/소프트웨어
기타/주변기기
자유게시판
애니/피규어
유머게시판
자동차
반려동물
음식/여행
영화/TV
데스크셋업
IT/하드웨어
박물관
나눔게시판
핫딜
타세요
장터
라이브스트리밍
:
퀘이사존 컴퓨텍스 2024 특집 기사 바로가기 + Point
안녕하세요. QM크크리입니다. RTX 40 제품군이 기반하고 있는 Ada GPU 아키텍처의 세부 정보를 보면서 이번 세대 그래픽카드가 내세우는 장점을 살펴보는 자리를 가져보고자 합니다.
RTX 30 제품군을 최상위 제품의 위치에서 떠나보내고 새 세대의 출발을 알리는 RTX 4090이 이제 막 출시되었습니다. 그보다 조금 아래 위치를 차지할 RTX 4080 제품들은 다음 달인 2022년 11월에 출시할 예정입니다. 이미 지난달 발표로 확정된 일정이며, 성능 향상 양상이나 DLSS 3 같은 신기술도 이때 알려졌습니다.
▲ NVIDIA의 공식 발표 자료는 역대급 성능 향상을 과시하고 있습니다.
이번에 출시된 RTX 4090은 기존 게임 기준으로 RTX 3090 Ti와 비교해도 1.5 ~ 2배가량 높은 프레임레이트를 보이는 막강한 성능을 자랑하며, RTX ON에 DLSS 3를 사용한 기준으로는 2~4배라는 역대급 성능 향상을 뽐내고 있습니다. DLSS 3를 위한 Optical Flow 가속 유닛의 다양한 활용 가능성을 가늠하고 계실 사용자도 있을 터이고, 영상 콘텐츠에 유용할 AV1 인코더도 이번 세대를 기대할 이유 중의 하나입니다.
그러나 RTX 40 제품군이 기대와 찬사만을 받는 상황은 아닙니다. 불만을 표하는 분들은 소위 '최상위 풀칩 구성'과 비교했을 때의 비율 문제나 칩세트 구성 대비 가격 문제를 거론하기도 합니다. 전력 소모와 이를 뒷받침하기 위한 각종 소요도 문제가 됩니다. 새로운 전력 공급 케이블 규격, 사용 중인 파워 서플라이가 감당할 수 있을지에 대한 염려, 더욱 커진 쿨러의 부피와 무게 모두 사용자로선 골치 아픈 요소가 늘어난 셈입니다.
그렇기에 RTX 40 제품군이 내세우는 장점을 더욱 자세히 알고 싶어 하는 사용자도 있을 터입니다. 대체 얼마나 좋아졌길래 이 정도 가격과 크기를 합당하다 할 수 있겠냐는 얘기겠죠. RTX 40 제품군이 기반하고 있는 Ada GPU 아키텍처의 기술 백서Architecture Whitepaper에 명시된 세부 정보를 통해 그 좋아진 점을 한 번 살펴보도록 하겠습니다.
Ada GPU 아키텍처는 인류 최초의 프로그래머로 공인된 "에이다 러브레이스"(어거스터 에이다 킹 러브레이스 백작 부인: Augusta Ada King, Countess of Lovelace)에서 따온 이름입니다. 그래서 공식 표기에도 "Ada GPU Architecture" 또는 "Ada Lovelace Architecture"로 표기하고 있습니다. 영문 위키백과 표제어도 "Ada Lovelace (microarchitecture)"입니다.
NVIDIA는 10여 년 전부터 자사 아키텍처에 저명한 과학자의 이름을 쓰고 있습니다. 거의 알려지진 않았지만, 그 이전 아키텍처에도 1998년 출시 제품군까지 거슬러 올라가서 소급 적용했다고 합니다. 비교적 최근의 게이밍 제품만 해도 블레즈 파스칼Pascal, 앨런 튜링Turing, 앙드레마리 앙페르Ampere가 있습니다. Ada GPU 아키텍처는 그 연장선에 있는 이름입니다.
▲ 스파이더맨 리마스터 PC 버전의 RTX 효과 집중 비교 영상, 출처: 유튜브 DubStepZz(바로 가기)
제품 구성이나 아키텍처 소개에서나 드러나는 특징 중 하나는 레이 트레이싱 비중이 커졌다는 점입니다. 지난 2018년 RTX 20 제품군을 출시하던 때에야 NVIDIA 혼자 총대 메고 실시간 레이 트레이싱 도입을 추진하던 상황이었지만, 4년여의 세월이 지난 지금은 상황이 달라졌기 때문입니다.
거치형 콘솔 게임기인 Xbox Series X와 PlayStation 5에서도, 경쟁사 그래픽카드도 레이 트레이싱을 지원한 지 2년가량의 세월이 지난 현재 굳이 NVIDIA의 제작 지원을 받은 게임이 아니더라도 레이 트레이싱을 지원하는 게임이 늘어나고 있으며, 앞으로도 더 늘어날 터입니다.
▲ Racer RTX, NVIDIA(바로 가기)
이러한 변화를 선도하기 위해 내놓은 데모가 Racer RTX입니다. 현재 게임의 레이 트레이싱은 일종의 추가 옵션입니다. 래스터 그래픽스Raster graphics방식으로 게임 그래픽 전체를 만든 후 Ambient Occlusion이나 그림자, 반사 등 조명 관련 그래픽 효과 일부를 레이 트레이싱으로 대체하는 설정을 추가하는 방식입니다.
반면 Racer RTX는 관련 그래픽 구현을 온전히 레이 트레이싱으로 구현했다고 합니다. 이렇게 하면 개발자가 할 일은 줄어들면서도 사용자가 보는 최종 결과물의 화질은 훨씬 좋아진다고 합니다. 게임 개발자가 Ambient Occlusion이나 그림자, 반사 효과 각각에 대해 최적화용 맵을 굽고 조절할 필요 없이 레이 트레이싱 연산에 대한 하드웨어 최적화에 맡길 수 있기 때문입니다. 이러한 이점을 통합 개발 플랫폼인 NVIDIA Omniverse로 극대화하겠다는 게 NVIDIA가 추진하는 주요 비전 중 하나입니다.
▲ RTX 4090 다이어그램, 클릭하면 커집니다(원본 크기로 보실 수 있습니다).
소위 '깡성능'만 쓰는 상황에 대한 성능은 이미 충분히 높여놨다는 점도 이유가 됩니다. RTX 4090만 봐도 16,384개 CUDA 코어, TSMC 4N 공정에 힘입어 2.5 GHz를 넘어선 부스트 클록 등 RTX 3090 Ti 대비 60~70%를 넘는 향상이 나와야 할 구성이고 실제로 그런 성능을 보이는 게임도 여럿 있습니다. 하지만 깡성능 위주로 여러 게임을 테스트하다 보면 그보다 작은 성능 차이에 그치는 게임도 보입니다. 해당 게임은 이미 RTX 3090 Ti로도 충분하기에 더 높은 깡성능을 줘도 다 받아먹지를 못한다는 얘기입니다.
반면 레이 트레이싱은 영화나 현실 같은 그래픽을 보여주려면 반드시 거쳐 가야 할 기술입니다. 최적화에 충분한 투자 없이 그저 넣어놓기만 하거나, 최적화가 잘 되었다고 그래픽 구현에 조금 더 욕심을 내기만 해도 RTX 3090 Ti에서 평균 FPS 60에도 훨씬 못 미치는 성능이 나올 수 있을 만큼 연산 요구도 높습니다. 앞으로의 대작 게임을 받쳐줄 상급 그래픽카드라면 레이 트레이싱 성능에 더 많이 투자함이 충분히 합리적인 결정입니다.
레이 트레이싱 성능에 대한 집중적인 투자는 새로운 세대의 RT 코어 구조로 구현됩니다. RTX 30 제품군의 2세대 RT 코어도 경쟁사 제품 등에 비해 매우 강력한 레이 트레이싱 성능으로 알려져 있습니다만, 여기에 두 가지 전용 가속 유닛을 추가하여 최대 10배 더 강력한 가속 성능을 달성했다고 합니다.
레이 트레이싱 연산의 핵심은 빛이 지나가다 물체와 부딪힐 때 그 부딪힌 위치를 정확히 찾는 것입니다.(정확히는 광원부터 추적하는 대신 시선에서 역추적하는 방식입니다만, 여기서는 중요하지 않아 생략합니다.) 이를 효율적으로 실현하면서도 움직이는 물체에도 대응할 수 있는 BVH 알고리듬(Bounding Volume Hierarchy Algorithm)을 가장 많이 사용하고 있습니다.
문제는 각 물체를 구현하는 데이터를 정밀하게 하면 BVH를 수행할 데이터 구조도 비례해서 늘어난다는 사실입니다. Ada 기술 백서에서도 100배의 지오메트리는 BVH 빌드에 걸리는 시간도 100배, BVH를 담을 메모리 용량도 100배임을 의미한다고 말합니다.
3세대 RT 코어에 추가된 Displaced Micro-Mesh Engine은 훨씬 간단한 BVH 구조로도 같은 레이 트레이싱을 수행할 수 있기에 BVH 빌드에 걸리는 시간은 10배, 메모리 용량은 20배까지 절약할 수 있다고 합니다.
또 다른 개선은 투명 텍스처에 관한 개선입니다. 나뭇잎이나 철조망, 화염 효과같이 작고 복잡한 구조는 모두 실제 구조로 구현하면 지나치게 비효율적이기에 하나 또는 몇 개의 텍스처에 그려 넣고 비어있어야 할 부분은 투명 배경으로 처리하는 방법을 많이 사용합니다. 레이 트레이싱이 투명한 부분에 빛이 통과하는 걸 계산하는 과정을 개선하여 성능을 향상했습니다.
3세대 RT 코어에 추가된 Opacity Micromap Engine은 투명 배경을 포함한 텍스처를 더 작은 단위로 나누어 완전히 투명한 영역(흰색), 완전히 불투명한 영역(진한 녹색), 혼합된 곳(적색 및 청색)으로 빠르게 구별할 수 있습니다.
작은 단위에서 완전히 투명하거나 불투명하다고 표시된 영역은 비교적 간단한 연산으로도 같은 레이 트레이싱을 수행할 수 있습니다. 결과적으로 해당 연산 전반의 수행 성능을 RTX 30 제품군의 2세대 RT 코어와 비교하면 2배 정도 빠르다고 합니다.
▲ 위 그래프는 퀘이사존 지포스 RTX 4090 벤치마크에서 가져온 것입니다.(바로 가기)
이런 RT 코어의 개선은 강력한 레이 트레이싱 성능으로 나타납니다. 일례로 RTX 4080 12GB를 RTX 3090 Ti와 비교하면 CUDA 코어 수는 훨씬 적고, 깡성능 척도 중 하나인 FP32 TFLOPS는 거의 같은 수준이며, RT 코어 개수도 84개에서 60개로 줄었습니다. 그러나 RT TFLOPS는 78.1에서 92.7로 19%가량 빨라졌습니다. RTX 4090은 거기서 다시 2배 이상 더 빠른 191 RT TFLOPS를 보입니다.
레이 트레이싱 개선에 RT 코어가 가장 큰 핵심이긴 하지만, 셰이더 연산의 중요성도 커지고 있습니다. 패스 트레이싱(광원에서부터 완전한 추적을 수행하여 레이 트레이싱 다음 세대의 그래픽 기술로 간주됩니다)에 가까운 복잡한 레이 트레이싱을 수행할수록 셰이더 코드의 세부 실행 순서를 적절히 뒤바꾸어 효율적으로 처리하는 비순차 실행(Reordering, out-of-order execution: OoOE)의 중요성도 커집니다. RT 코어가 아무리 강력해도 셰이더 처리 성능까지 받쳐주지 못하면 레이 트레이싱 수준을 높일 수 없다는 이야기입니다.
▲ 사이버펑크 2077의 RT 오버드라이브 모드 시연 중 한 장면, 출처: 유튜브 NVIDIA GeForce 채널(바로 가기)
RTX 40 제품군의 SER(Shader Execution Reordering)은 게임 개발자가 해당 과정에 손쉽게 관여할 수 있게 하고 최적화에 유용한 프로파일러를 제공하여 관련 연산의 성능을 최대 2배까지 개선하게 도와줍니다. 최대 수치는 영화 수준의 패스 트레이싱에서나 볼 수 있는 모양입니다만, 사이버펑크 2077의 RT 오버드라이브 모드에서 성능을 비교해본 결과는 전반적인 성능이 최대 44%까지 향상되었다고 합니다.
▲ 딥 러닝 인공지능을 이용한 일러스트 확대 예시, 출처: waifu2x - Snowshell(바로 가기)
알파고 이후로 유명해진 딥 러닝 방식의 인공지능은 막대한 텐서 연산을 처리할 필요가 있지만, 이를 잘 활용하면 그 전 세대의 인공지능으로는 꿈꿀 수도 없었던 결과를 이루어낼 수 있습니다. 퀘이사존에서도 Waifu2x 등을 이용한 이미지 확대(바로 가기), RIFE-AI를 이용한 모션 보간(바로 가기)를 통해 소개해 드린 바 있습니다.
때문에 NVIDIA GPU에서는 RT 코어보다도 먼저 텐서 코어를 도입하여 빠른 텐서 연산을 지원하고 있습니다. 이는 인공지능을 이용한 고품질 이미지/영상 확대나 노이즈 제거 등의 각종 필터, 모션 보간 등 딥 러닝 인공지능이 활약할 수 있는 모든 처리를 빠르게 수행하는데 도움이 됩니다. 게임에서는 DLSS로 활용하고 있습니다.
▲ 3세대 텐서 코어(왼쪽)과 4세대 텐서 코어(오른쪽) 구조 비교, 출처: NVIDIA(바로 가기)
* RTX 30 제품군부터 도입한 인공지능 희소성(AI sparsity) 최적화 사용 시 성능입니다.
RTX 40 제품군은 산업용 H100 제품부터 도입한 4세대 텐서 코어를 사용합니다. 이전 세대보다 더 강력해졌을 뿐만 아니라 FP8 데이터 포맷을 지원하여 이를 활용할 수 있는 상황에서는 2배 더 빠른 처리 능력을 보입니다. 그 결과 RTX 3090 Ti의 336개 텐서 코어보다 훨씬 적은 240개의 텐서 코어를 가진 RTX 4080 12GB를 같은 FP16 텐서 연산으로 비교해도 같은 성능을 보입니다. 이는 FP8을 활용할 때는 RTX 4080 12GB가 2배 더 빠르다는 얘기도 됩니다. RTX 4090은 거기서 다시 2배 이상 더 빠른 성능을 보여 FP8 기준으로는 1.3 PetaFLOPS라는 가공할 수치를 뽐내고 있습니다.
▲ 모션 보간의 원리, 출처: SmoothVideo Project(바로 가기)
▲ DLSS 프레임 생성도 모션 보간입니다
RTX 40 발표와 함께 공개된 신기술인 DLSS 3는 DLSS 2에 모션 보간을 이용한 프레임 생성을 더해 훨씬 더 높은 프레임레이트를 제공합니다. 프레임 생성은 GPU에서 연속한 두 프레임의 연관성을 분석하여 수행하기에 CPU 병목을 극복하는 효과도 노리고 있습니다.
결과적으로 DLSS 3는 (성능 모드 기준) 게임이 실제로 렌더링한 픽셀인 Traditional Render의 8배를 보여주기에 그만큼 막대한 프레임레이트 상승을 기대할 수 있습니다. 설명을 쉽게 하기 위해 단순화하여 예를 들자면 4K 해상도 DLSS 3 성능 모드로 180 FPS가 나온다면 게임 자체는 FHD 90 FPS로 구동하고 있는 셈입니다.
우선 각각의 1920x1080 프레임을 가로세로 각각 2배로 확대합니다. 이건 DLSS 2 성능 모드는 물론 경쟁사의 FSR 성능 모드도 결과물의 품질 차이를 제외하면 같습니다만, DLSS 3는 보간으로 생성한 프레임을 하나 더 보여줍니다. 결국 '각 화면 4배 확대' x '프레임 보간으로 2배' = 8배라는 얘기입니다.
실제로는 각 단계에서 추가적인 처리가 필요하기에 프레임레이트가 8배가 되지는 않습니다. 4K 해상도의 DLSS 2 성능 모드가 FHD 해상도보다는 대체로 낮은 성능이 나오는 것처럼 말이죠. 그래도 픽셀 수 기준 8배라는 수치는 프레임레이트가 고픈 상황에서 큰 도움이 될 수 있습니다.
▲ DLSS 3의 보간이 생성한 프레임의 화질을 영상 보간 전문 AI와 비교, 출처: Digital Foundry(바로 가기)
Digital Foundry에서 화질을 비교한 결과도 긍정적인 전망에 힘을 실어주고 있습니다. 고품질 영상 보간으로 알려진 Adobe After Effects(Pixel Motion) 및 Topaz Video Enhance AI(Chronos)와 비교했는데, DLSS 3가 훨씬 정확하고 원본에 가까운 결과를 보입니다.
특히 Topaz Video Enhance AI는 딥 러닝 인공지능을 이용한 고품질 영상 확대 및 보간으로 입지를 다지고 있는 프로그램이라 퀘이사존에도 사용하시는 분들의 글이 올라오기도 합니다. 이런 프로그램으로 오랜 시간을 거쳐 영상 보간을 적용한 결과보다 DLSS 3가 훨씬 더 좋은 화질을 보입니다. 단순히 화질을 희생해서 프레임레이트를 올리는 기술과는 거리가 있다 할 수 있겠습니다. 아마도 영상의 화면만을 분석해서 보간해야 하는 영상 보간과 달리 게임 엔진의 지오메트리 정보 등을 사용하기에 생기는 차이로 보입니다.
물론 어떠한 보간도 완벽할 순 없기에 게임을 즐기기에 충분한 화질을 보장할 수 있을지는 실제 게임 플레이에서 검증할 필요가 있습니다. 게임이나 플레이어 개인의 차이에 따라서 만족도가 달라질 가능성도 있습니다.
다만 이 DLSS 3를 RTX 40 제품군부터 지원하겠다고 하여 여론을 악화시키는 원인 중 하나가 되기도 하였습니다. RTX 20 및 30 시리즈의 DLSS 2.x를 통해 만족도나 기대감을 높여온 사용자가 보기에는 기술적인 사안이 어쨌든 간에 기존 제품에 대한 토사구팽으로 보일 수 있기 때문입니다. 이에 대한 NVIDIA의 대답은 DLSS에 유효한 활용을 위해서는 RTX 40에 탑재한 수준의 Optical Flow 가속기 성능이 필수적이라는 얘기입니다.
▲ 게임 엔진을 통한 분석만으로 보간하면 그림자는 정확히 처리하지 못해 이상한 결과를 보입니다
▲ Optical Flow 분석을 더하면 그림자까지 정확한 보간 결과를 보입니다
게임 엔진을 통한 분석만으로 모션 보간을 수행하면 그림자 같은 일부 데이터를 정확히 처리하지 못하기에 반드시 Optical Flow 분석을 병행해야 DLSS로 쓸만한 모션 보간 결과가 나온다고 합니다. 거기에 이 모든 처리를 게임 성능에 의미 있을 정도로 빠르게 수행해야만 합니다.
사실 Optical Flow 분석 자체는 GTX 10 제품군부터 지원해왔으며 세대를 거듭할수록 조금씩 개선해왔습니다. 일례로 개인 영상 감상용 모션 보간 프로그램인 SVP에서는 GTX 16 제품군부터 Optical Flow 분석을 사용할 수 있습니다. 2021년 7월 이를 소개하는 칼럼에서도 RTX 2080을 사용한 결과가 만족스러움을 보여드린 바 있습니다.
하지만 이는 영상 감상이 주목적이기에 가능한 지원입니다. 지연 시간에 훨씬 더 민감한 게임에서도 만족스러운 결과를 보장할 수는 없습니다. 단적으로 현재 공개된 모든 RTX 40 제품군은 RTX 3090 Ti보다도 2.4배가량 강력한 Optical Flow 가속기 성능을 보입니다. 이를 갖추지 못한 기존 하드웨어에 DLSS 3를 지원하는 것은 RT 코어 없는 그래픽카드에 레이 트레이싱을 지원하는 것과 같은 결과를 불러올 가능성이 높습니다.
▲ 레이 트레이싱 앞에서 초라해진 타이탄 V의 위상, 2021년 3DMark Port Royal 벤치마크에서 가져왔습니다(바로 가기)
자기 세대에선 그 위상을 뽐내던 GTX 1080 Ti든 타이탄 V든 간에 RT 코어가 없기에 레이 트레이싱 성능으로 비교하면 상당히 초라한 모습을 보여, 사실상 'RT 코어 없이는 이렇게 느려집니다!'를 보여주는 대조군으로밖에 쓸 수 없었습니다. NVIDIA는 RTX 20/30 제품군의 DLSS 3 지원도 마찬가지로 보고 있다고 생각됩니다.
여러 사용자가 염려하는 지연 시간 문제 역시 과하게 걱정할 필요는 없어 보이지만, 무조건 괜찮다고 할 수 있는 수준도 아닙니다. Digital Foundry가 공개한 비교 결과를 보면 강력한 텐서 코어와 Optical Flow 가속기 성능을 등에 업고 NVIDIA Reflex도 통합한 보람이 있는지 관련 기술을 하나도 쓰지 않은 결과(Native 4K의 Reflex Off)보다는 항상 빠른 모습을 보입니다. NVIDIA Reflex만 쓴 결과인 Reflex On과 비교해도 나쁘지 않은 수준입니다. 이 정도면 비교적 지연 시간에 민감하지 않은 싱글플레이 게임에서는 DLSS 3로 높아진 프레임레이트를 부드러운 게임에 활용할 수 있겠습니다.
그래도 모션 보간의 지연 자체를 없앨 수는 없기에 DLSS 2에 NVIDIA Reflex를 쓴 결과와 비교하면 게임에 따라 상당히 느려진 지연 시간을 기록합니다. 지연 시간에 민감한 경쟁 게임에서는 DLSS 2를 쓰는 편이 더 나을 것입니다.
다행인 소식은 DLSS 3 그 자체로 DLSS 2 지원을 포함한다는 점입니다. DLSS 2에 모션 보간을 통한 프레임 생성 기능을 추가하고 NVIDIA Reflex 지원을 통합한 기술이 DLSS 3이기에 프레임 생성 기능만 끄면 DLSS 2(DLSS Super Rez)가 되며, 개발자가 특별히 신경 쓰지 않아도 DLSS 3 지원 게임은 모두 DLSS 2를 사용할 수 있습니다. 설정 메뉴에 DLSS 프레임 생성을 켜고 끄는 옵션을 빼먹지만 않으면 됩니다.
이미 35개 이상의 게임과 앱이 DLSS 3(이미 DLSS 2를 지원하고 있지 않다면 포함된 DLSS 2도)를 지원할 예정입니다. 여기에는 대규모 자본이 투입된 유명 게임 엔진이나 대작 게임도 있지만 Bright Memory: Infinite같이 호평받는 인디 게임도 보입니다. DLSS 2.2쯤부터 언리얼 엔진 플러그인을 배포하는 등 개발자 접근성을 개선해온 행보가 점점 더 좋은 결실을 보는 것으로 보입니다.
▲ 하드웨어 가속을 통한 QHD 해상도 60 FPS 8 Mbps 스트리밍 예시, 왼쪽은 H.264 코덱/오른쪽은 AV1 코덱을 사용한 결과입니다
고화질 영상을 효율적으로 다룰 공개 규격으로 만들어진 AV1은 유튜브 등을 중심으로 점점 활용처를 늘려나가고 있습니다. 2020년 9월에는 소위 '아이유 8K 챌린지'로 이슈화 되기도 하였고, 최근에는 인텔 ARC 그래픽 카드가 최초의 AV1 인코딩 지원을 내세우기도 하였습니다.
RTX 40 제품군은 이에 질세라 2개의 AV1 인코더 지원을 내세우고 있습니다. 이는 라이브 스트리밍, 영상 통화, 영상 편집, 게임 플레이를 영상으로 녹화하는 상황 등에서 AV1을 활용할 때 상당한 성능 향상을 기대할 수 있다는 뜻입니다. QHD 해상도에 8 Mbps라는 제한된 비트레이트로 스트리밍 영상을 송출할 때 H.264 코덱보다 얼마나 더 좋은 화질을 보여줄 수 있는지 비교하는 자료도 공개하였습니다.
AV1 지원 추가 외에도 인코더 자체를 2개로 늘렸기에 이를 활용할 수 있는 소프트웨어에서는 다른 코덱도 이전 세대보다 더 빠르게 인코딩할 수 있다고 합니다.
▲ AD102 풀칩 다이어그램, 클릭하면 커집니다(원본 크기로 보실 수 있습니다).
AD102 풀칩은 12개의 Graphics Processing Cluster(GPC), 72개의 Texture Processing Cluster(TPC), 144개의 Streaming Multiprocessor(SM), 12개의 32-bit 메모리 컨트롤러로 이루어진 384-bit 메모리 인터페이스를 가집니다.
RTX 4090(다이어그램 바로 가기)과 비교해도 엄청난 사양입니다. 참고로 RTX 4090은 11 GPC, 64 TPC, 128 SM, 384-bit 메모리 인터페이스를 가집니다. 풀칩 사양이 게이머용 지포스로 출시될지 안 될지는 아직 알 수 없습니다. 그래도 이전 세대의 사례를 생각해보면 풀칩 그대로까진 아니더라도 커팅을 최소화한 사양의 RTX 4090 Ti를 생각해볼 수 있겠습니다.
RTX 40 제품군의 기반 설계인 Ada GPU 아키텍처를 살펴보니 깡성능도 강력하지만 그보다 레이 트레이싱과 인공지능 연산을 훨씬 더 강화한 구조입니다. 3세대 RT 코어로 강화한 레이 트레이싱 성능은 RTX 4090 기준 191 RT TFLOPS로 RTX 3090 Ti가 가진 78.1 RT TFLOPS의 2.4배가 넘는 성능을 보입니다. 사이버펑크 2077의 RT 오버드라이브나 앞으로 나올 대작 게임의 강력한 레이 트레이싱 효과를 누리는데 중점을 둔 구성입니다.
4세대 텐서 코어로 강화된 인공지능 연산 성능은 RTX 4090 기준 최대 1.3 PetaFLOPS라는 가공할 수치를 뽐내며, 딥 러닝 인공지능을 활용한 이미지 확대, 노이즈 제거 등의 필터 등을 더 빠르게 처리할 수 있습니다. 게임에서는 DLSS로 활용할 수 있습니다. 자세한 성능 비교가 궁금하시면 벤치마크 기사를 참고해 주시기 바랍니다.
DLSS 3가 처음 알려졌을 때 모션 보간의 부작용에 대한 우려 등으로 부정적인 반응도 나왔습니다. 하지만 DLSS 2에 모션 보간을 추가한 기술로 DLSS 2를 포함한 기술이기에 사용자의 선택지를 늘려주는 측면으로 받아들일 수 있습니다. 비교적 지연 시간에 자유로운 싱글플레이 게임에서는 DLSS 3로 높아진 프레임레이트가 부드러운 게임 경험에 도움이 될 수 있습니다.
우려의 근거 중 하나인 지연 시간도 관련 기술을 전혀 쓰지 않는 상황보다는 좋은 결과를 보입니다. 물론 DLSS 2에 NVIDIA Reflex를 쓴 결과보다는 나쁜 지연 시간을 보입니다만, 그 차이에 민감한 게임에서는 DLSS 3의 추가 기술인 프레임 생성 옵션을 끄고 DLSS 2로 사용하면 됩니다. DLSS 3 지원 자체로 DLSS 2 지원도 포함하고 있기에 사용자의 선택지를 제한받을 우려를 하지 않아도 됩니다.
DLSS 3를 위해 성능을 대폭 강화한 Optical Flow 가속기도 SVP를 통한 모션 보간 영상 감상같이 따로 활용할 수 있는 여지가 있습니다. 상술로 생각할 수 있는 기존 세대 미지원 문제 역시 2.4배가 넘는 Optical Flow 가속기 성능 차이를 생각하면 기술적인 근거가 전혀 없는 결정은 아닙니다. RT 코어가 없는 그래픽카드에서의 레이 트레이싱 성능이나, 과거 경쟁사가 하드웨어 테셀레이션에서 보였던 비슷한 시연이 전혀 화제가 되지 못했던 사례 등을 생각하면 '이전 세대는 이렇게 느려집니다!'를 보여주는 대조군으로만 쓸 수 있는 지원의 가치가 크다고 하긴 어렵습니다.
유튜브 등을 중심으로 점점 활용처를 늘려나가고 있는 AV1 코덱은 영상 스트리밍같이 비트레이트가 제한된 상황에서 고화질 영상을 제공하는 데 유리합니다. RTX 40 제품군은 AV1 인코딩 가속을 지원할 뿐만 아니라 인코더 자체를 2개로 늘렸습니다. 이는 고화질 규격의 영상을 빠르게 인코딩해야 하는 상황에서 큰 매력이 될 수 있습니다.
퀘이사존 저작물은 크리에이티브 커먼즈 저작자표시-비영리-변경금지 4.0 국제 라이선스에 따라 이용할 수 있습니다.
RTX40구조 지포스구조 RTX40아키텍처 지포스아키텍처 에이다아키텍처 DLSS3지원 DLSS2지원 RTX40살펴보기 에이다살펴보기
RTX 40 뭐가 좋아졌지? Ada GPU 아키텍처 살펴보기
댓글: 28개
국가 권력급 96코어 192스레드에 커세어 256 GB 메모리, 최강 시스템
96코어 CPU + 커세어 256 GB 오버클록 RDIMM 메모리
퀘이사존 단독 입수! (정발이라곤 안했음)
1080 PRO 4TB 출시! (삼성이라곤 안했음)
역사적 대결, 팔병장 vs. 샌디
AMD FX-8300 팔병장 vs. 2500K/2600K 샌디브릿지
14700K 공랭으로 호라이즌 포비든 웨스트 가능?
14700K로 호라이즌 포비든 웨스트 100% 즐기기
충전은 빠른데, 파일 복사 속도는 왜이래?
USB PD 100W 충전 케이블, 너의 복사 속도는?
RTX 5090은 1.7배 성능 향상???
차세대 RTX 50 시리즈? 엔비디아 블랙웰 루머 정리
코어 i5-14400 기쿨로 헬다이버즈 2 가능?
코어 i5-14400으로 '딥' 하게 들어가보는 헬다이버즈 2
USB-C 케이블.. 꼭 비싼 걸 사야될까?
10,000원 이하 USB-C 케이블 벤치마크!
SSD 가격인상 실화냐?
SSD 이제 그만 올라도 되지 않을까?
마더보드 3사, CPU 오버 수율값 비교!
마더보드 3사, 인텔 CPU 'SP' 점수 비교
14700K 공랭으로 TL 가능? 메모리는? 용량은!?
코어 i7-14700K로 파헤치는 쓰론 앤 리버티 TL
게임 성능을 14% 올리는 최적화 기술?
인텔 APO 최적화 기술로 게임 성능 올리기
지포스: 너네 AFMF 기능 좋더라? 나도 좀 쓰자
세계 최초 발견! 지포스에서 AFMF 사용하기
대한민국 치약 최강자전!
자랑스러운 한국 치약 총출동!
게임 성능 2배 뻥튀기! AFMF 제대로 쓰는 방법
AFMF 프레임 생성 기능 파헤치기
퀘이사존-전 우주급 커뮤니티: 우주의 시작부터 끝까지
퀘이사존 로그인
아이디·비밀번호 찾기 회원가입
공식기사
리포트/취재
그동안의 어항 케이스는 가짜다
컴덕들에게 커세어가 근본인 이유
살벌한 마우스 장비빨! (근손실 방지 OK)
실물 깡패는 이럴 때 쓰는 거지!!
남자들의 추억의 브랜드(공감하면 개추~)
퀘이사존을 다양한 미디어에서 만나보세요
신고하기
투표 참여자 보기