상세 컨텐츠

본문 제목

정보 - 개발자 컨퍼런스에서 공개한 엑시엑 시스템 아키텍쳐 PPT 내용

게임 정보

by 뱀선생게임 2020. 8. 19. 08:34

본문

반응형

정보 - 개발자 컨퍼런스에서 공개한 엑시엑 시스템 아키텍쳐 PPT 내용

 

2020년 11월 출시 예정인 MS 마이크로소프트의 차세대 콘솔 게임기 엑스박스 시리즈 엑스 XBOX SERIES X.

개발 중인 프로젝트명은 프로젝트 스칼렛.

국내 게임 커뮤니티에서 주로 불리는 명칭은 엑시엑 or xsx.

발매 전 광고 홍보 문구로는 

Power Your Dreams
당신의 꿈을 실현하세요

The World's Most Powerful Console.
세상에서 가장 강력한 콘솔.

 

브랜드 파워가 닌텐도 스위치와 소니의 플레이스테이션5에 많이 밀리지만 과연 이번 세대는 어떤 점유율 결과를 보여줄지....

마소는 아예 콘솔 기종 싸움보다는 게임계의 넷플릭스가 되겠다며 PC, 콘솔, 모바일 통합하는 게임패스 플랫폼 서비스에 집중하는 모습.

기존의 엑스박스 콘솔 팬에게는 독점작을 PC, 모바일 게임패스로도 다 풀어버려서 아쉽겠지만 PC 게이머로서는 완전  땡큐.

 

youtu.be/Je7k3tkrpqw

Xbox Series X - 월드 프리미어 - 4K 트레일러

새로운 Xbox Series X*를 소개합니다. 꿈을 실현하세요. 
2020년 연휴 출시 예정. 


01 : 엑스박스 시리즈 X(XSX) 시스템 아키텍처 프레젠테이션

Jeff Andrews & Mark Grossman(제프 앤드류 & 마크 그로스맨)

Microsoft AZURE 실리콘 아키텍쳐 팀

 

02 : 차세대 콘솔 APU(SOC) H/W의 혁신

- 3.8Ghz AMD Zen 2 아키텍쳐 기반 라이젠 3세대 서버 클래스 CPU 코어

- Sampler Feedback Streaming(SFS, 샘플러 피드백 스트리밍)

- DirectX Ray-Tracing(다이렉트X 레이 트레이싱)

- Variable Rate Shading(VRS, 가변 레이트 쉐이딩)

- Machine Learning Acceleration(머신 러닝 가속 기능)

- DirectX 3D(D3D) Mesh Shading(다이렉트X 3D 메쉬 쉐이딩)

- GDDR 14Gbps, 320-BIT 메모리 버스 => Bandwidth(대역폭) 560GB/s

 

- XBOX Velocity Architecture(엑스박스 벨로시티 아키텍쳐)

☞ MSP Crypto/Decompression @ NVMe SSD BandWidth

- OPUS Audio Decode(OPUS 오디오 디코드)

- High Quality Sample Rate Converter(고품질 샘플 레이트 컨버터)

- Project Acoustics Acceleration(프로젝트 어쿠스틱스 가속 기능, 오디오 레이 트레이싱)

☞ Convolution / FFT FP Audio Engine

- 8K Capable(8K 해상도 호환), HDMI 2.1 & DSC(HDMI 2.1 기반 Display Stream Compression(디스플레이 무손실 압축 전송 기술), 10Gbps FRL, ALLM(Automatic Low Latency Mode, 자동 저속 지연 모드)

- Variable Refresh Rate(VRR, 가변 화면 주사율), 120Hz Support

- Linear Light Display Processing

- HSP/Pluton ROT, SHACK

 

03 : XSX SOC 스펙 : 다이 레이아웃

- 공정 : TSMC 7nm 인핸스드 공종 제조

- 다이 크기 : 360.4 mm2

- 탑재 트랜지스터 : 15,300,000,000개(153억개)

- 패키지 : 52.5mm & 52.5mm 크기 기반 2963개 볼 BGA(Ball Grid Array, 볼 그리드 어레이)

- 회로 선폭 : 0.80mm Min Pitch

- 제조사 : AMD(라이젠 CPU, 라데온 GPU 제조사)

 

04. XSX SOC 스펙 : 블록 다이어그램 

 

① CPU : 8 Core & 16 Thread(옥타 코어 & 헥사데카 스레드) ZEN 2 아키텍처 기반 라이젠 3세대 커스텀 CPU 코어

☞ 작동 속도 : AMD SMT(멀티 스레딩 모드 활성화) ☞ 비활성화 모드(3.8Ghz) & 활성화 모드(3.6Ghz)

- CPU 코어 캐쉬

☞ 코어 당 L1[32KB(Instruction, 명령어 & 데이터) = 토탈 : 64KB], L2(512KB), 4 코어 CCX 기반 L3 공유 캐시 4MB

- CPU 클러스터 : 4C & 8T(쿼드 코어 & 옥타 스레드), L3 4MB 공유 캐시 → L2 + L3 Cache LLC(Last Level Cache, 최종 레벨 캐쉬) 유효 캐시 메모리 용량 12MB

☞ 2x SMID FP 파이프라인 / 코어 : 2 MUL & 2 ADD AVX 256 Per Clock →  32x SPFP Ops/CLK

- XBOX SPLEAP : HW To Prevent Escalation Of Privilege Attacks(하드웨어 권한 상승 공격 방지 기법)

 

② GPU : 1.825Ghz, 52 CU[컴퓨팅 유닛, 64개 단위 1CU 구성 공식 ☞ 64 * 52 : 3328 스트리밍 프로세서(SP)]

 

③ RAM

- 메모리 종류 : GDDR5

- 메모리 용량 : 16G

- 메모리 분배 : 16G → 10G(High Memory Interleave, 높은 메모리 동시 접근방식) / 6G(Low Memory Interleave, 낮은 메모리 동시 접근 방식)

- 메모리 데이터 전송폭 : 20채널 * 16G GDDR6 14Gbps → 560GB/s

- 메모리 뱅크 : 총 320비트 메모리 뱅크

- 메모리 보안 : Full BandWidth Cryptography(전체 대역폭 암호화), Integrity Check Regions(무결성 검사 영역)

 

① GPU 비디오 인코딩 / 디코딩

- 구형 480p / 1080p 인코더 + 4K & 8K AVC & HEVC / VP9 HDR 디코딩

- AVC & HEVC HDR 인코딩

 

② GPU 디스플레이 프로세서

- 전체적 퀄리티 HDR(High Dynamic Rage) & WCG(Wid Color Gamut), 리니어 라이트 HDR 디스플레이 프로세싱과 3D 룩업테이블 실행

- HDMI 2.1[ALLM(Automatic Low Latency Mode, 자동 저속 지연 모드), Variable Refresh Rate(VRR, 가변 화면 주사율), 10Gbps FRL 기능 및 Display Stream Compression(디스플레이 무손실 압축 전송 기술) 등 탑재]

- HDMI 2.1[10Gbps FRL 기능 및 Display Stream Compression(디스플레이 무손실 압축 전송 기술) 등 탑재 및 활성화 HDR 444 YUV & RGB 8K UHD & 60FPS]

 

③ SERDES I/O 통신

- PCI-E 4.0 기반 8x5

- HDMI 2.1 Gbps FRL

 

 

④ 시스템 스토리지

- 내장 커스텀 NVMe SSD(1TB), PCI-E 4.0 x2

- 외장 삽입형 스토리지(시게이트 XSX 전용 확장 카드) → 2nd NVMe SSD, PCI-E 4.0 x2

- 4K UHD Blu-Ray ODD

- 사우스브릿지(PCH, FCH) : PCI-E, USB 3.0, SATA 시스템 컨트롤러, SPI, I2C 기타 등등

- 네트워크 : 1Gbps 유선 이더넷, 무선 Wi-Fi, MS 와이어리스 프로토콜 컨트롤러 Wi-Fi

 

07. 무어의 법칙 가격 상승 문제 이슈 - H/W 전용 엔진 추가

- 무어의 법칙 곡선 그래프는 효과적인 논리적 밀도 확장에 적합하지만 비용이 상승되는 문제가 존재함.

☞ 참고 자료 : 오른쪽 아래 다이어그램 참조(세부내용 : 2019 HC31, TSMC Keynote 세션 2.7 페이지 4(https://www.hotchips.org/hc31)

- 기존 XBOX ONE(S 기종 및 X 기종)의 16nm Finfet SoC 제조공정보다 XBOX Series X의 7nm TSMC 인핸스드 제조공정을 채택했을 때는 엄청난 노드를 절약할 수 있는 효과를 가져온다고 함.

- 더 높은 웨이퍼 가격 및 낮은 수율은 웨이퍼 단가가 더 높아지기 때문임.

☞ 개선된 H/W, 새로운 H/W 가속기 추가 및 전원 공급으로 SoC 다이 제조공정 비용을 절약하기 위한 것이라고 함. 

 

08. XSX SOC 스펙 : MS에서 디자인하여 탑재한 새로운 H/W 엔진 가속기능

- 오디오 : XOX의 CPU보다 8배 뛰어난 H/W기반 SPFP 연산

☞ CFPU2 : 2x 4-Way FP SIMD DSPs, 4x FP 엔진

[프로그래밍 가능, 고성능 합성연산 대역폭 처리량, FFT(Fast Fourier Transform, 고속 퓨리에 알고리즘 변환기술), Reverberation(음향 반사 기능), 주파수 영역 오디오]

☞ MOVAD : OPUS 실시간 디코더, 샘플링 속도 변환기

① 300배의 H/W 기반 OPUS 실시간 디코딩 채널

② 100db SNR SRC/피칭의 H/W기반 OPUS 실시간 성능 디코딩

☞ LOGAN : 4x DSP 코어, SRC, 오디오 FX, XMA 디코딩

- 300배의 H/W 기반 실시간 채널 디코딩

 

- 보안 및 압축해제

☞ HSP/플루톤 : 루트 신뢰성, 암호화, emCPUS, SHACK

※ SHACK : Secure HArdware Crypto Keys(H/W 기반 보안 암호화 키)

☞ MSP : NVMe SSD 대역폭에서 'Crypto/Hash/Decomp'의 2개 이상 Zen 2 CPU 코어 워크로드 절감

① H/W 기반 4대의 고성능 대역폭 암호화 엔진 → 총 대역폭 : 5GB/s, 추가 해쉬 엔진 : 5GB/s

② 2대 범용 + 텍스처 압축 해제 엔진 가속 → 총 : 6GB/s 대역폭

 

09. 엑스박스 벨로시티 아키텍쳐 도입 동기

- 적은 DRAM 비용 절감

① 전년 동기 대비 증감율 -30%

② 최근에 지난 8.5년 만에 전년 동기 대비 증감율 -5%

 

- 플래시 메모리 비용 절감 효과

☞ 지난 8.5년 동안 전년 동기 대비 증감율이 ~23%

 

- DRAM, 플래시 메모리의 $/GB 비율

☞ 현재는 1GB 당 33달러의 가격비율을 보이고 있음.

 

〓> DRAM의 게임 아트 컨텐츠 S/W 캐시를 위한 백업 저장소로 사용되는 고성능 대역폭 NVMe SSD

☞ HDD 용량 및 면적 밀도 대비 대용량 게임 로드 시간의 선형 비트 전송률 스케일링 이슈되는 문제를 해결함

☞ XBOX 게이밍사업부서는 2007년부터 DRAM 공간을 절약하기 위한 고성능 대역폭 플래시 메모리의 전환을 계획함.

 

10. 엑스박스 벨로시티 아키텍쳐 / 샘플러 피드백 시스템 - 쉐이더 피드백 스트리밍

- 쉐이더 피드백 스트리밍(SFS)

① GPU SFS은 H/W 기반으로 활성 텍스처 부분을 기록함

② 게임은 Fetch / Free 등 우선 순위로 로딩함.

③ 다이렉트 스토리지는 SSD, MSP의 Cryptography/Decompression을 관리함

 

- DRAM 혜택 : 게임 아트 용량 대비 평균 2.5배 공간 확보

 

- MSP 지원 NVMe SSD 스토리지 공간 절감방법

① 무손실 MS XVA ~ BCN 텍스처에서 2:1 비율로 압축함(MS의 XVA 압축해제는 더 높은 RDO + 손실 비율을 지원함)

② OPUS 오디오 압축

③ 감압 / Zlib 일반 감압 

 

11. GPU

 

※ "우리는 기술이 길을 방해가 되는 지점에 도달해 있습니다." - 엑스박스 게임 스튜디오 총괄 스튜디오 헤드 매튜 부티 수석 부사장

 

★ GPU의 설계 목표 : 증가된 현실감, 화면 해상도 및 프레임 속도 충족

- BANK를 깨버리는 실리콘 W/O에 새로운 알고리즘을 구현

- 분리된 GPU 코어보다 효율적인 개선 

 

12. GPU 다이어그램

- 28개 중 26개 듀얼 CU이 탑재(2CU 비활성화)

- 통합 지오메트릭 엔진

- 메쉬 쉐이딩 지오메트릭 엔진

- 분산된 Primitives & Rasterization

- 스크린 기울기 색상 / 깊이 단위

- 멀티 코어 커맨드 프로세서

 

13. 듀얼 컴퓨팅 유닛

- 4개 SIMD 프로세서 + 4 Scalar ALU 유닛

- 듀얼 CU당 데이터 공유 기능 포함하여 128개 유닛 처리, SIMD당 32 스칼라 FP32 FMAD 처리

- CU당 7개 명령 및 실행

- 2개의 벡터 ALU, 1개의 벡터 데이터, 2개의 스칼라, 2개의 컨트롤

- 클럭 단위로 4개의 텍스처 또는 레이-옵스 작업 처리

- 클럭 단위 총합 : FP 32비트(256), FP 16비트(512) 

 

 

 

 

 

14 ~ 16. GPU의 진화

- XBOX ONE : 2013년 출시, Full-HD(1080p) 해상도 디스플레이

(1.3 테라플롭스, DDR3 대역폭(68.3 GB/s) + ESRAM 대역폭(204GB/s), 1.6 Gtris/Sec, 13 Gpix/Sec)

(DX 11.1 API 플랫폼, 메가 텍스처, 하위 호환, 스칼라 쉐이더 유닛)

- XBOX ONE X : 2017년 출시, 4K UHD(2160p) 해상도 디스플레이

(6 테라플롭, GDDR6 대역폭(325GB/s), 4.4 Gtris/Sec, 35Gpix/Sec)

- XBOX Series X : 2020 홀리데이 출시 예정, 4K UHD & 120Hz, 8K UHD 해상도 디스플레이 호환

(12 테라플롭, GDDR6 대역폭(560GB/s), 7.3 Gtris/Sec, 116 Gpix/Sec)

 

★ 어떻게 10배 더 많은 픽셀와 4배에서 6배 성능 차이가 있는 GPU로 1x 전력을 소비하는 비결이 무엇일까요?

답 : 특허받은 혁신기술

 

17. 가변 레이트 쉐이딩

- 미세하게 제어된 밀도 바이어스를 통한 음영 파편화

① 8x8 타일당 X축, Y축 비율

② 낮은 비율 : 색상 별로 1x2, 2x1 또는 2x2 픽셀

③ 미세 비율 : 1xAA에서 최대 8xAA

 

- 드로우 버텍스, 원시 화면, 스크린 타일 및 AA Level의 조합에 따라서 수정

- 전체 가장자리 세부 정보. 일시적 안티 앨리어싱 기법과 호환되는 구멍 없음, 뒤틀림 또는 체커보드 아티팩트 없음

- 10% ~ 30%의 작업 성능 향상을 위한 소규모 영역 비용 

 

18. 샘플러 피드백 스트리밍(엑스박스 벨로시티 아키텍쳐 GPU 지원)

- 이전 스타일 PRT : 소프트 페이지 장애를 통한 가상화된 텍스처

- 쉐이더 계발의 부담

- 드라이버 메모리 관리자를 통한 직렬화

 

- 신규 H/W : 2개의 새로운 MIP 맵핑 구조

LOD 타일 레지던트 맵 : 샘플러 명령어는 클램프 된 LOD를 가져옵니다.

LOD 타일 리퀘스트 맵 : 필요한 최소 누적된 LOD를 가져옵니다.

 

- 단순화된 쉐이더 모델 

 

 

 

 

 

19 ~ 23. 샘플러 피드백 스트리밍(구축)

19. ① 전체 텍스처 할당, 작은 LOD(예 : 2 및 UP), 마크 표시

20 ~ 21. ② 렌더 프레임

20. A) 샘플(레지던시 맵, 레지던트 텍스처)

21. B) 요청된 LOD 레코드

22. 앱이 LOD를 검사 및 기록하고, 사용하지 않는 타일 제거 및, 요청된 타일을 로드함.

23. 레지던트 맵 업데이트 

 

24. H/W 커스텀 지정 상주 지도 필터링

- 텍스처 타일당 하나의 맵 "텍셀"만 전환 기능으로 허용

- 평활화(스무싱)(으)로 전환하여 아티팩트를 최소화

- 전통적 이선형, 오답형 답변을 생성함.

- 신규 필터 : 커서-LOD 영역에서 항상 전환

 

→ 샘플러 피드백 스트리밍

매우 작은 영역 비용, 최대 60%의 I/O 및 메모리 절약 

 

25. 다이렉트X 레이 트레이싱 가속 기능 ①

완전한 대체되지 않는 기존 렌더링으로의 경제적인 업그레이드 

 

26. 다이렉트X 레이 트레이싱 가속 기능 ②

- 커스텀 지정 레이-박스와 레이-트라이앵글 유닛

- 380G/Sec 레이-박스 피크, 95G/Sec 레이-트라이앵글 피크

- 네트워크 성능(?)은 대역폭, 1개의 레이당 방문한 노드 수 / Tris에 따라 다름.

- 쉐이더는 BVH Traversal, Material Shading 등을 위해 병렬로 실행가능함.

- 3배 ~ 10배 가속에 드는 경미한 비용 발생함. 

 

27. 기타 기술

- 게임용 머신러닝 추론 가속화(캐릭터 동작, 해상도 스케일링)

- 매우 작은 초소형 면적 비용으로 3배 ~ 10 성능 향상 

 

 

 

 

 

출처 : namu.wiki/w/Xbox%20Series%20X?from=%EC%97%91%EC%8B%9C%EC%97%91

bbs.ruliweb.com/news/board/1001/read/2220926

www.tomshardware.com/news/microsoft-xbox-series-x-architecture-deep-dive

반응형

관련글 더보기

댓글 영역