일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- program
- Memory Leak
- OpenCL 2.0
- VLD
- initialize
- Device
- OpenCL 2.0 시작하기
- 메모리 누수
- Platform
- Queue
- OpenCL 초기화
- Intel OpenCL
- OpenCL
- OpenCL 설치
- Visual Leak Detector
- init
- Kernel
- Today
- Total
목록OpenCL (10)
후로링의 프로그래밍 이야기
Vtune Amplifier Vtune AMplifier는 프로세서의 성능을 분석하기 위한 도구입니다. CPU에서 돌아가는 기본적인 프로그램 뿐만 아니라 내장 GPU에서 돌아가는 OpenCL프로그램의 각 함수, 커널에 대해서 분석이 가능합니다. 홈페이지 주소 : https://software.intel.com/en-us/intel-vtune-amplifier-xe다운로드 링크 : https://software.intel.com/en-us/intel-vtune-amplifier-xe/try-buy기본적으로 1000달러 정도 하는 비싼 프로그램이지만 고맙게도 이메일 인증만 하면 30일 무료버전을 사용 하실 수 있습니다. 여건이 되는 회사나 연구실에서는 30일 이후에 구매하셔서 사용하시면 되고, 여건이 안되는..
히스토그램(Histogram) 도수분포표를 그래프로 나타낸 것을 히스토그램이라고 합니다. 간단히 얘기하면 히스토그램은 해당 항목에 대한 빈도수를 구해 그래프로 나타낸 것이라고 할 수 있습니다. 히스토그램은 자료를 분석하는데 있어서 아주 기본적인 도구입니다. 히스토그램 연산 예를들어 1부터 10 사이의 임의의 정수로 이루어진 100의 크기를 가진 배열이 있다고 하면 histogram[10]의 배열에 각 정수의 빈도수를 저장 하는 것입니다. 간단하지만 대상 자료의 크기가 커진다면? 이미지의 해상도에 따라 적게는 100만부터 1000만번씩 연산을 하게 됩니다. 여러개의 데이터에 대해 하나의 연산을 적용하는것이기 때문에 OpenCL로 최적화 하기 아주 좋은 케이스 입니다. 메모리 충돌 스레드 프로그래밍을 배울때..
Median FIlter Median Filter는 픽셀 주변을 둘러싼 픽셀 중 중간값을 찾아서 대체해주는 필터 입니다. 극대값과 극소값을 제거할 수 있습니다. 신호처리 나 이미지 처리에 자주 쓰이는 것으로 대표적으로는 이미지의 소금&후추 잡음을 없애는데 많이 쓰입니다. 다음 예에서는 이미지의 극대값을 없애는데 사용 하였습니다. Median Filter 연산 Median FIlter연산은 연산의 대상이 되는 픽셀 주변의 픽셀을 한줄로 세워 가운데 서있는 픽셀의 값을 취하는 형태입니다. 다시말해 정렬을 해야합니다. 다들 아시다시피 정렬 연산의 Optimal은 O(n*logn)입니다. 수만 픽셀에 대해 정렬을 수행하는 것이라면 GPU를 이용하면 Optimal은 O(logn)입니다. 하지만 Median FIl..
루프 언롤링(Loop Unrolling) 이전 포스트에서 루프 언롤링을 통해 최적화 하는 코드를 잠깐 보았습니다. 루프언롤링이란 for문이나 while문과같은 루프문을 직접적인 명령어의 나열로 바꾸는 기법입니다. 루프를 코드의 나열로 바꾸게 되면 루프 제어를 위한 증가연산, 비교연산이 생략되어 연산량을 감소 시킬 수 있습니다. 또한, GPU에서 실행하는 코드를 컴파일하게 되면 명령어를 묶어 덩어리로 실행하게 되는데, 루프를 사용하지 않으면 명령어가 끊기지않고 담기게 되어 연산속도가 향상됩니다. 코드로 간단히 살펴보면 다음과 같습니다. 먼저 Not unrolled 코드 입니다. 보시는 바와 같이 일반적인 for문입니다. 1234567// Not unrolled for(int i = localRow; i
전체 CL 코드 Local Memory를 이요한 Convolution Filter의 CL 코드 전부 입니다. 복잡해 보이지만 크게 두부분으로 나눌 수 있습니다. barrier(CLK_LOCAL_MEM_FENCE); 를 기준으로 Local Memory에 이미지를 쪼개 넣고 실제로 필터 연산을 수행하는 부분으로 나누어져 있다는 것만 기억하신 후 세부적인 코드로 넘어가도록 하겠습니다. 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677787980818283848586878889909192939495969..
Convolution Filter란? 출력화소를 만들기 위해서 주변의 화소값을 이용하여 계산하는 작업을 말합니다. 블러링, 샤프닝, 미분처리, 미디언필터, 평균값필터 등등이 convolution filter에 포함됩니다. 픽셀값을 결정하기위해서 픽셀 주변에 필터에 적용하는 NxN크기의 배열을 convolution kernel이라고 합니다. 예를들어 9개 픽셀의 평균값으로 픽셀의 값을 정하는 연산을 하고싶다면 이 연산에 적용되는 커널은 각 1의 원소를 가진 3X3 크기의 배열입니다. Convolution FIlter와 복잡도 단순하게 생각했을때, 한 이미지에 대해 각 픽셀당 한번씩의 연산을 수행하는 시간이 10ms라면 3x3 크기의 필터를 사용하게되면 연산량이 9배 , 9x9 필터를 사용하게 되면 81배 ..
아마 OpenCL의 전체적인 워크 플로우가 머릿 속에 들어오지 않아 세부적인 이해가 되지 않는 분이 있으리라 생각됩니다. 전체적인 작업의 흐름이 머릿속에 들어오는 것이 무엇보다 중요하므로 확실히 알 수 있도록 정리를 하고 이미지 프로세싱에 들어가려 합니다. Initialization initialization 부분은 GPU에서 병렬처리 작업을 할 수 있도록 CPU와 GPU간의 인터페이스를 정의하고 GPU에서 실행할 함수를 정의하는 부분입니다. 아래 6개의 설정을 마침으로서 OpenCL을 통해 GPU에 작업을 명령할 수 있는 환경을 갖출 수 있게 됩니다. 각 용어에 대한 설명은 본 블로그 OpenCL 튜토리얼 초반부에 잘 설명되어 있으니 참고하시기 바랍니다. -Platform 선택-Device 선택-선택한..
OpenCL 에서 커널이란 GPU에서 동작하는 함수 입니다. 그리고 커널은 GPU에 할당 된 메모리를 이용해 작업을 수행합니다. 따라서 GPU에서 무언가 작업을 하기 위해서는 다음과 같은 작업 과정이 필요합니다. - 메모리 할당 및 데이터 쓰기 GPU메모리를 할당하고 할당한 메모리에 값을 적재하는 부분 까지가 bufferWrite()함수의 내용입니다. clCreateBuffer()함수로 이전 강의에서 생성한 context를 이용해 생성합니다. 인자로는 메모리를 Read용도로만 쓸 것인지, Write용도로만 쓸 것인지 둘다 사용할 것인지에 대한 인자와 사이즈 등이 들어있습니다. 버퍼를 내용을 변경하지 않는 constant버퍼로 사용할 경우 CL_MEM_READ_ONLY로 설정하면 읽는 속도가 더 빨라 진다..
OpenCL은 인터페이스입니다. 다시 말해 CPU와 GPU사이를 오가며 작업을 처리 해 줄 수 있게 도와주는 역활을 해줍니다. 아래 그림의 빨간색 선에 해당하는 것이 바로 OpenCL 인터페이스 입니다. GPU를 사용하기위해서는 platform, device 포인터와 device를 이용해서 만드는 context 포인터 정보를 가지고 있어야 합니다. 그리고 device와 context를 이용해 실제 CL코드를 실행하는 queue에 대한 포인터를 를 생성해야 합니다. 각각이 무엇인지 확실히 이해를 하고 넘어가야 OpenCL이 실행되는 방식을 이해 할 수 있습니다. Platform 만약 컴퓨터에 Interl CPU와 AMD GPU가 설치되어 있다면 선택 가능한 platform은 intel, amd입니다. 다시..
- 포스팅에 들어가며 최근 CPU 로 처리하던 이미지 프로세싱 코드를 OpenCL을 이용해 GPU로 옮기는 프로젝트를 하게 되면서 넷 상에 한글로 된 기초 자료가 너무 부실한 것이 너무 아쉬웠습니다. 또한 코딩을 하면서 겪은 시행착오들을 새로 시작하시는 분들이 겪지 않았으면 해서 앞으로 약 10회정도 OpenCL에 관련한 포스팅을 하며 블로그를 시작해 볼까 합니다. OpenCL(Open Computing Language)은 개방형 범용 병렬 컴퓨팅 프레임워크입니다. 이종 플랫폼이라는 말을 들어보셨나요? 여기서 얘기하는 이종플랫폼은 CPU, GPU, DSP등의 연산장치가 혼재되어있는 시스템을 말합니다. OpenCL은 이러한 시스템 내에서 여러 연산장치의 연산 유닛을 유저가 쉽게 사용 할 수 있도록 도와주는..