안녕하세요, H3SOLUTION입니다.
이번 포스팅에서는 저희가 진행하는 NVIDIA DGX STATION V100 수리에 대해 소개해드리려고 합니다.
저희는 국내에서 유일하게 DGX STATION V100 수리를 전문적으로 진행하는 업체이며, 수냉식 시스템에 대한 깊이 있는 경험과 노하우를 보유한 전문가들이 모인 회사입니다.
수리에 대한 자세한 내용을 설명하기 전에, 먼저 DGX STATION V100이 어떤 제품인지 간단히 소개해드리겠습니다.
DGX STATION V100 이란 ?

NVIDIA DGX STATION V100은 2017년 NVIDIA에서 공개한 고성능 GPU 워크스테이션으로, VOLTA 아키텍처를 기반으로 한 V100 GPU를 탑재하고 있습니다.
이 제품은 데이터 센터 수준의 컴퓨팅 성능을 워크스테이션 환경에서도 구현할 수 있도록 설계되었으며, 딥러닝과 AI 연구, 고성능 컴퓨팅(HPC) 작업을 수행하는 전문가들을 위해 개발되었습니다. DGX 시리즈 중에서도 유일하게 워크스테이션 형태로 제작된 모델로, 서버실이 아닌 사무실이나 연구실 환경에서도 효율적으로 운용될 수 있도록 설계된 제품입니다.

DGX STATION V100은 일반적인 서버 환경과 달리 사무실이나 개인 공간에서 사용할 수 있도록 설계된 워크스테이션입니다. 이에 따라 소음과 냉각 성능을 고려해 수냉식 냉각 시스템이 적용되었습니다.


또한, GPU 자체의 메모리 용량이 크고 연산 성능이 뛰어나기 때문에 출시된 지 상당한 시간이 지났음에도 불구하고 여전히 딥러닝과 인공지능 연구 분야에서 많은 연구실과 기관에서 꾸준히 사용되고 있는 제품입니다.
DGX의 냉각 구조의 문제


(수리로 입고된 DGX V100)
문제 확인에 앞서 , 내부의 냉각 구조에 대해서 잠시 알아보겠습니다.
CPU에는 1열(120mm) 일체형 수냉식 쿨러가 장착되어 있으며, GPU는 균등하게 칩셋에 냉각을 제공할 수 있는 매니폴드를 이용해 균등하게 열을 분배하고 냉각하는 구조로 되어 있습니다. 서버실처럼 냉각이 충분히 제공되는 환경과는 달리, DGX STATION V100은 일반적인 실내 환경에서 사용할 수 있도록 설계되었습니다.
NVIDIA에서는 DGX STATION V100에 대한 추가 워런티를 제공했지만, 출시 후 약 8년이 지난 현재 대부분의 제품이 보증 기간이 만료된 상태입니다. 그로 인해 냉각 계통의 문제로 인한 고장을 경험하는 사용자들이 많아지고 있습니다.
대표적인 고장 사례로는 CPU 쿨러의 노후화로 인해 냉각 성능이 저하되면서 부팅이 불가능해지는 경우가 있고

(GPU의 높은 온도로 인한 쓰로틀링)
GPU 냉각 시스템의 문제로 인해 과열이 발생해 시스템이 셧다운되거나 쓰로틀링이 걸리는 현상이 발생합니다. 실제로 0,1번 GPU의 경우에는 온도로 인해서 전력양도 떨어질 뿐더러 , 제대로 된 성능을 내지 못하고 있음을 볼 수 있습니다.
해당 DGX의 경우에는 , 아직까지 셧다운과 같은 커다란 문제는 없지만, 당장 사용하는데 있어서 불편함을 겪음은 물론이고 , 시간에 따라 GPU칩셋의 수명에 치명적으로 작용할 가능성이 있습니다.


DGX 시스템의 냉각수 상태를 분석한 결과, 우측 사진에서는 냉각수가 이미 산화되어 초록색으로 변색된 모습이 확인됩니다. 내부 금속 부식이 진행되면서 색 변화가 발생하며, 지속적인 운용으로 인해 산화가 더욱 심화된 끝에 최종적으로 변색까지 이루어진 것으로 판단됩니다.
좌측 사진은 최근 입고된 DGX STATION V100의 냉각수 일부를 촬영한 것으로, 단순한 산화를 넘어 심각한 오염과 이물질 혼입이 발생한 상태입니다. 냉각수 내 미세 부유물과 침전물이 다량 검출되며, 이로 인해 열교환 효율이 저하되고 냉각이 제대로 이루어지지 않는 상황이 확인됩니다.

저희쪽에서 생각하기엔 냉각수가 워터블록 내부의 구리(Cu)와 지속적으로 접촉하면서, 냉각수 내에 용존된 산소(O₂)와 수분(H₂O)이 반응하여 구리 표면에서 산화반응이 진행되었을 가능성이 높다고 생각됩니다.
구리(I) 산화물(Cu₂O)이 형성된 후, 추가적인 산소와 반응하면서 수산화구리(Cu(OH)₂)로 전환된 후에 냉각수에 용해되면서 청록색 또는 초록색 변색을 유발하고, 시간이 지나면서 탄산구리(CuCO₃·Cu(OH)₂, 녹청)로 변했다고 생각됩니다.

또한, 냉각수 내 포함된 이소티아졸리논 계열(살균제)이 장기간 사용되면서 분해될 경우, 황화수소(H₂S) 또는 황 이온(S²⁻)이 발생할 가능성이 있으며, 이들이 구리와 반응하여 검은색 황화구리(CuS)가 형성되었을 가능성이 있습니다.
이 과정에서 냉각수의 냉각 성능 저하가 심하게 이루어져 , 제대로 된 냉각 효율을 내지 못한다고 생각이 됩니다.
(냉각수의 오염의 화학반응은 뇌피셜 입니다, 혹여나 틀린 부분이 있다면 말씀주시면 수정하겠습니다 ! )

상대적으로 상태가 괜찮은 냉각수 였음에도 , 냉각수를 제거 한 후에 수통에 부유물이 가득 차있는것을 확인 할 수 있습니다.
실제로 냉각수가 이 정도 상태라면 GPU의 냉각을 담당하는 GPU 워터블럭 내부에는 훨씬 심각한 수준의 이물질이 쌓여 있을 가능성이 높습니다. 장기간 사용된 제품일수록 내부 오염이 심해지며, 냉각 효율이 급격히 저하될 수 있습니다.
DGX의 수리 과정

단순히 냉각수만 교체해서 해결될 문제가 아니라 , 냉각 계통을 이루고 있는 펌프탑 / 매니폴드 / 워터블럭을 전부 세척하고 오염도가 심한 제품은 새 제품으로 교환하여 수리를 진행합니다.
세척이 어려운 펌프와 라디에이터 , 호스 , 피팅류는 새 제품으로 교환하도록 합니다.

지금 보여드리는 사진 속 워터블럭은 상대적으로 양호한 상태에 속한다고 볼 수 있습니다. 이 정도 수준이면 냉각 성능 저하가 어느 정도 진행되었을 가능성이 있지만, 칩셋의 손상을 야기할 정도의 냉각 계통의 장애가 아니였기에 수리와 세척을 통해 충분히 원래의 성능을 회복할 수 있습니다.

(워터블록의 미세수로 , 핀 이미지 )
해당 이미지에서 볼 수 있는 핀 형태의 미세 수로는 GPU에서 발생하는 열을 효과적으로 분산시키고, 냉각수가 흐르면서 최대한 많은 열을 흡수할 수 있도록 설계된 핵심적인 구조입니다.
일반적인 평평한 표면보다 미세 수로 구조를 활용하면 열 교환 면적이 극대화되므로, 동일한 냉각수 흐름에서도 더 많은 열을 빠르게 흡수하고 방출할 수 있습니다.
다만 이물질로 인해서 미세수로가 막혀버린다면, 냉각수가 제대로 순환하지 못해 GPU의 발열이 충분히 해소되지 못하고 온도가 급상승하게 됩니다. 결국 쓰로틀링(성능 저하), 시스템 셧다운, 심할 경우 하드웨어 손상으로 이어질 수 있습니다.


윗 사진과 같이 대부분의 DGX STATION GPU 워터블럭은 내부 수로가 심각하게 오염되어 아예 막혀버리는 경우가 많습니다. 그러나 단순한 수로 오염보다 더 큰 문제는, 열 교환이 이루어지는 미세 수로가 막히는 현상입니다.

저희는 이러한 문제를 해결하기 위해 약품 처리와 세척을 통해 워터블럭 내부 수로와 미세 수로 (핀) 의 이물질을 완전히 제거하는 작업을 진행하고 있습니다. 이를 통해 냉각 성능을 회복시키고, 시스템이 정상적으로 동작할 수 있도록 복원합니다.

깨끗하게 세척 된 워터블럭이라 해도, 기존 GPU 워터블럭의 오링(O-ring) 이 노후화되어 제 기능을 하지 못하는 경우가 종종 발생합니다. 이에 따라 각 제품별로 공기압을 이용한 누수 테스트를 진행해 워터블럭의 상태를 꼼꼼히 점검한 후 장착합니다.


블럭의 청소 뿐만 아니라 , 펌프탑과 매니폴드의 세척도 진행하고 , 내부 모터 쪽의 오염으로 인한 손상이 많은 펌프는 새 제품으로 교환해주도록 합니다.


CPU의 쿨링은 좌측 사진처럼 매니폴드에 추가로 연결하여 수냉식 시스템에 병합시키는 방법이 있고 , 우측 사진처럼 일체형 1열 수냉쿨러를 교체해서 사용하는 방법이 있습니다.
이번 경우에 고객님께서는 일체형 수냉쿨러로 교체를 원하셔서 일체형 수냉쿨러로 교체 후에 진행하였습니다.

만에 하나라도 발생할 수 있는 누수에 주의하며 , 시스템의 펌프만 가동하여 정상적으로 작동하는지 확인하는 과정입니다. 확인에 더불어 냉각수를 주입한 초기에는 기포가 많이 발생하여 제 냉각 성능을 발휘하지 못하는 경우가 많아 , 기포를 빼내주는 작업이기도 합니다. 누수 체크를 하였음에도 , 한번 더 하루 정도 테스트를 진행하고 있습니다.

이렇게 수리가 마무리 된 DGX V100은 , 테스트용 저장장치를 통해서 GPU 과부하 테스트를 진행하여 전체적으로 온도의 이상이 없는지 , 그 외에 문제는 없는지 체크를 꼼꼼히 진행하고 다시 출고되고 있습니다.
DGX STATION 외에도 , 저희 H3SOLUTION 에서는 GPU 서버와 , 공랭식 워크스테이션 , 서버의 수냉화 작업도 진행하고 있습니다 .
DGX의 대한 포스팅은 저희 H3SOLUTION BLOG에서도 확인 가능하고 , 유튜브에서도 확인하실수 있습니다
DGX 수리기 네이버 포스팅 >
https://blog.naver.com/h3solution/223736010480
https://blog.naver.com/h3solution/223700387006
https://blog.naver.com/h3solution/223462616832
DGX 수리 유튜브 영상 >
글 읽어주셔서 감사합니다
저희 에이치쓰리솔루션은
이러한 분들을 위해 활짝 열려 있습니다.
✔️ 딥러닝, LLM, 인공지능 등
연구 및 개발을 위한 서버 및
워크스테이션이 필요하신 분!
✔️ 기존 시스템의 냉각 및 집적도 개선이 필요하신 분!
✔️기타 데스크탑 및 서버, 워크스테이션이 필요하신 분!
견적 및 문의사항 있으시면,
아래의 경로로 편하게 문의 남겨주세요.
최선을 다해 도와드리겠습니다 🙂
TEL.📞 02-6953-0880
FAX.📠 0504-401-0400
MAIL.📧 h3solution@h3soln.com
ADD.🏢 서울 용산구 효창원로12길 37
감사합니다! 🙂