가공
홈페이지홈페이지 > 소식 > 가공

가공

May 16, 2023

Scientific Reports 12권, 기사 번호: 14396(2022) 이 기사 인용

3220 액세스

4 인용

5 알트메트릭

측정항목 세부정보

최첨단 고해상도 카메라에서 생성된 방대한 양의 데이터를 처리해야 한다는 요구로 인해 에너지 효율적인 새로운 온디바이스 AI 솔루션이 탄생하게 되었습니다. 이러한 카메라의 시각적 데이터는 일반적으로 센서 픽셀 어레이에 의해 아날로그 전압으로 캡처된 다음 아날로그-디지털 변환기(ADC)를 사용하여 후속 AI 처리를 위해 디지털 도메인으로 변환됩니다. 최근 연구에서는 근거리 및 센서 내 처리 형태로 대규모 병렬 저전력 아날로그/디지털 컴퓨팅을 활용하려고 시도했습니다. 여기서 AI 계산은 부분적으로 픽셀 어레이 주변에서 수행되고 부분적으로는 별도의 픽셀 어레이에서 수행됩니다. -보드 CPU/가속기. 안타깝게도 고해상도 입력 이미지는 여전히 카메라와 AI 처리 장치 간에 프레임별로 스트리밍되어야 하므로 에너지, 대역폭 및 보안 병목 현상이 발생합니다. 이 문제를 완화하기 위해 우리는 아날로그 다중 채널, 다중 비트 컨볼루션, 배치 정규화 및 정류 선형 단위에 대한 지원을 추가하여 픽셀 배열을 사용자 정의하는 새로운 P2M(Processing-in-Pixel-in-Memory) 패러다임을 제안합니다( ReLU). 당사의 솔루션에는 전체적인 알고리즘-회로 공동 설계 접근 방식이 포함되어 있으며 결과 P2M 패러다임은 파운드리 제조 가능 CMOS 이미지 센서 플랫폼 내에 메모리 집약적인 CNN(Convolutional Neural Network) 모델의 처음 몇 레이어를 내장하기 위한 드롭인 대체품으로 사용될 수 있습니다. . 우리의 실험 결과에 따르면 P2M은 센서 및 아날로그에서 디지털로의 변환에서 데이터 전송 대역폭을 \({\sim }\,21\times\)만큼 줄이고 TinyML에서 MobileNetV2 모델을 처리할 때 발생하는 에너지 지연 곱(EDP)을 줄입니다. 시각적 깨우기 단어 데이터 세트(VWW)의 사용 사례는 표준 근접 처리 또는 센서 내 구현과 비교하여 테스트 정확도가 크게 떨어지지 않고 최대 \(\mathord {\sim }\,11\times\) 향상되었습니다.

오늘날 감시1, 재난 관리2, 야생 동물 모니터링을 위한 카메라 트랩3, 자율 주행, 스마트폰 등을 포괄하는 컴퓨터 비전의 광범위한 적용은 이미지 감지 플랫폼4의 놀라운 기술 발전과 끊임없이 발전하는 딥 러닝 알고리즘5 분야에 힘입어 촉진되었습니다. 그러나 비전 감지 및 비전 처리 플랫폼의 하드웨어 구현은 전통적으로 물리적으로 분리되어 왔습니다. 예를 들어, CMOS 기술을 기반으로 하는 현재 비전 센서 플랫폼은 2차원 포토다이오드 배열을 통해 입사광 강도를 디지털화된 픽셀 값으로 변환하는 변환 개체 역할을 합니다6. 이러한 CIS(CMOS 이미지 센서)에서 생성된 비전 데이터는 CPU와 GPU7로 구성된 클라우드 환경의 다른 곳에서 처리되는 경우가 많습니다. 이러한 물리적 분리는 고해상도 이미지/비디오의 객체 감지 및 추적과 같이 이미지 센서에서 백엔드 프로세서로 대량의 데이터를 전송해야 하는 애플리케이션의 처리량, 대역폭 및 에너지 효율성에 병목 현상을 발생시킵니다.

이러한 병목 현상을 해결하기 위해 많은 연구자들은 근접 센서 처리8,9, 센서 내 처리10, 픽셀 내 처리11,12,13. 근거리 센서 처리는 전용 기계 학습 가속기 칩을 동일한 인쇄 회로 기판8에 통합하거나 CIS 칩9과 함께 3D 스택하는 것을 목표로 합니다. 이를 통해 클라우드가 아닌 센서에 더 가까운 곳에서 CIS 데이터를 처리할 수 있지만, 여전히 CIS와 처리 칩 간의 데이터 전송 비용이 발생합니다. 반면, 센서 내 처리 솔루션10은 CIS 센서 칩 주변에 디지털 또는 아날로그 회로를 통합하여 CIS 센서와 처리 칩 간의 데이터 전송을 줄입니다. 그럼에도 불구하고 이러한 접근 방식에서는 버스를 통해 CIS 포토 다이오드 어레이에서 주변 처리 회로로 데이터를 스트리밍(또는 병렬로 읽음)해야 하는 경우가 여전히 많습니다10. 이와 대조적으로,11,12,13,14,15와 같은 픽셀 내 처리 솔루션은 개별 CIS 픽셀 내에 처리 기능을 내장하는 것을 목표로 합니다. 초기 노력은 픽셀 내 아날로그 컨볼루션 작업에 중점을 두었지만 많은11,14,15,16에서는 새로운 비휘발성 메모리 또는 2D 재료를 사용해야 합니다. 불행하게도 이러한 기술은 아직 성숙되지 않았으므로 기존 CIS의 주조 공장 제조에 적용할 수 없습니다. 더욱이 이러한 작업은 대부분의 실용적인 딥 러닝 애플리케이션에 필요한 다중 비트, 다중 채널 컨볼루션 작업, BN(배치 정규화) 및 ReLU(Rectified Linear Unit)를 지원하지 않습니다. 또한 픽셀 병렬 SIMD(Single Instruction Multiple Data) 프로세서 어레이12로 구성된 디지털 CMOS 기반 픽셀 내 하드웨어를 대상으로 하는 작업은 컨볼루션 작업을 지원하지 않으므로 숫자 인식과 같은 장난감 작업 부하로 제한됩니다. 이러한 작업 중 다수는 일반적으로 아날로그 내부 픽셀 대안에 비해 낮은 수준의 병렬성을 생성하는 디지털 처리에 의존합니다. 대조적으로, 13의 작업은 픽셀 내 병렬 아날로그 컴퓨팅을 활용하며, 여기서 신경망의 가중치는 개별 픽셀의 노출 시간으로 표시됩니다. 이들의 접근 방식에서는 제어 펄스를 통해 픽셀 노출 시간을 조작하는 데 가중치를 사용할 수 있어야 하므로 가중치 메모리와 센서 배열 사이에 데이터 전송 병목 현상이 발생합니다. 따라서 다중 비트, 다중 채널 컨볼루션, BN 및 ReLU 작업과 같은 중요한 딥 러닝 작업을 효율적으로 구현하는 개별 픽셀 내에서 가중치와 입력 활성화를 모두 사용할 수 있는 현장 CIS 처리 솔루션은 여전히 ​​찾기 어렵습니다. 또한 기존의 모든 픽셀 내 컴퓨팅 솔루션에는 최첨단 CIS에 매핑된 기계 지능의 실제 적용을 나타내지 않는 대상 데이터 세트가 있습니다. 구체적으로, 기존 연구의 대부분은 MNIST12와 같은 단순한 데이터 세트에 초점을 맞추고 있는 반면, CIFAR-10 데이터 세트를 사용하는 경우는 거의 없습니다(13개). CIFAR-10 데이터 세트는 입력 이미지가 매우 낮은 해상도(\(32\times 32\))로 캡처된 이미지를 나타내지 않습니다. 최첨단 고해상도 CIS.