GPU(5)
-
g++ compile error
계속 작성하던 코드 디버깅을 하다가 갑자기 아래와 같이 'extern' error가 뜨면서, 코드에서 불러온 stdlib library 에서 compile에러가 발생했다. cpp, g++ version issue 는 아닌걸로 확인 찾아보니 함수나 구조체 등 무언가 선언이 완료되지 않으면 주로 발생하다는 글을 확인 (https://bearnet.tistory.com/23) 알고보니 include 된 다른 function 헤더 파일 내 함수에서 ; (세미콜론)이 빠져있었다. 항상 되던 코드가 안된다면 내 문제이니 내가 추가한 코드를 살펴보자!
2024.04.03 -
pytorch resume 시 error
ssd network 를 중간 weight (iteration) 에서 이어서 학습하려고 하니 error가 발생했다. RuntimeError: module must have its parameters and buffers on device cuda:0 (device_ids[0]) but found one of them on device: cuda:1 찾아보니 해당 에러는 dataparallel을 사용할 시 다중 gpu를 사용하면서 load된 weight가 module을 포함하여 발생하는 error 였다. 가장 간단한 해결방법은 module을 제거하고 다시 학습시키는건데 (save시 net.module.save~ 로 save) 이미 학습된걸 다시 학습시키는 건 차선책이라고 생각하여 최대한 이미 학습된 결과를..
2023.11.07 -
[Ubuntu 16.04] 하드디스크 Input/output error 부터 컴퓨터 사망까지
오랜만에 슬픈 글을 쓴다. 시작은 내가 사용하는 리눅스 서버 특정 하드디스크가 read only 로 바뀌면서 시작된다. 잘 쓰고있던 폴더가 갑자기 wirte 가 안되고 파일 복사도 안되는 답답한 상황이 발생하여 해결 방법을 찾아보았다. 위의 문제는 : - 마운드 에러 - 디스크 에러 중 하나이고, 우선은 unmount 후 다시 mount 하는 방법을 사용해야 한다. 다른 블로그 글들을 보면 마운트 해제 후 다시 마운트 했을때 문제가 없어보이는데, 본인은 마운트 해제까지는 문제가 없었지만 다시 mount 하려니 "mount: wrong fs type, bad option" 에러가 발생한다. - 해당 문제를 nfs 패키지 추가 설치 (apt-get install nfs-common) 로 해결한 사례가 있어 ..
2023.09.06 -
pytorch --> c code 변환 (SSD Network) - 학습 검증 issue
python과 pytorch library로 동작하는 SSD를 low level 구현을 위해 c로 작성했다. 연산 검증까지 마무리 된 상태에서 학습이 잘 되는지를 확인하기 위한 검증 단계에 있는데 문제가 발생했다. - b=4로 두고 학습시킬때, 초반 학습 단계 (12 iteration 이내에서) class loss가 inf로 발산하는 문제이다. - augmentation단계에서 gt에 문제가 생기는지 (localization issue이긴 하지만) 확인해 봤지만 문제는 없었다. - class loss가 갑자기 크게 나오는 포인트 찾으려고 test로 loss_c 값들 출력하도록 돌렸는데, 초반 loss_c값이 크게 잡히고, 일단 32 iter까지 문제없이 도는 중 --> 즉 초반 어떤 dataset을 사용..
2023.01.13 -
Senet TensorRT Test 과정 - 1 try
분명 임시저장 해두면서 test내내 작성하고 있었는데, 다 사라져 버림 ;ㅇ; 결론은 예전에 nvidia-ai-iot github에 올라와있었던 jetpack 이전 버전용 deepstream_reference_apps중 하나를 test 해보려함. 현재는 github에서 사라진 상태 (업데이트된 버전으로 다른 network 들이 올라와있음. 테스트 코드는 예전에 받아두었던 것임) 필요한 환경은 - Prepare ImageNet dataset - Install Cuda 10.0 - Install TensorRT 5.x - Inistall Tensorflow - Install Opencv 4.x - Download Tensorpack 0.8.9 code to working directory. Note that..
2020.01.02