Markus Zitt, 14. Mai 2020, 14:30 Uhr

Sony bringt Bildsensoren mit künstlicher Intelligenz

Die Sony Corporation hat heute die Einführung zweier Intelligent Vision Sensors bekannt gegeben. Es soll sich dabei um die weltweit ersten Bildsensoren mit KI-Verarbeitungsfunktion handeln. Die Integration der KI-Verarbeitungsfunktion direkt in den Bildsensor bedeutet, dass die Daten über Edge-AI in Hochgeschwindigkeit verarbeitet werden können und nur die erforderlichen Daten extrahiert werden. Dies ermöglicht es, bei der Nutzung von Cloud-Diensten die Latenzen bei der Datenübertragung zu verkürzen, Datenschutzvorgaben Rechnung zu tragen und den Energieverbrauch sowie die Kommunikationskosten zu senken.

Die Integration künstlicher bzw. artifizielle Intelligenz (KI bzw. AI) macht es möglich, dass die Sensoren nicht bloss Bilder liefern, sondern das «Gesehen» selbst analysieren und sozusagen zusätzlich oder lediglich eine Inhaltsbeschreibung übers Internet liefern. So erfolgt die Übermittlung nahezu ohne Verzögerung (Latenz) und wesentlich kompakter, als wenn Bilder selbst an einen auszuwertendes System gesendet würden.

Sony bringt die weltweit ersten Intelligent Vision Sensors mit KI-Verarbeitung auf den Markt: Den Intelligent Vision Sensor IMX500 (links) und IMX501 (rechts). Die neuen Sensoren ermöglichen Edge AI-Verarbeitung in Hochgeschwindigkeit und erleichtern den Aufbau optimaler cloudvernetzter Systeme.

Die Intelligent Vision Sensors eröffnen neue Möglichkeiten zur Entwicklung KI-fähiger Kameras. Sie können eine Vielzahl von Anwendungen im Einzelhandel und Industrieausrüstungssektor unterstützen und den Aufbau optimaler, mit der Cloud verbundener Systeme erleichtern.

Mit dem Aufstieg des «Internet of Things» (IoT) werden Geräte aller Art mit der Cloud verbunden. So ist heute der Einsatz von Informationsverarbeitungssystemen gang und gäbe, bei denen die Daten, die diese Geräte liefern, mit künstlicher Intelligenz in der Cloud verarbeitet werden. Die zunehmende Datenverarbeitung in der Cloud wirft allerdings auch eine Reihe von Problemen auf: höhere Latenzen bei der Datenübertragung, welche die Informationsverarbeitung in Echtzeit behindern; Sicherheitsbedenken seitens der Nutzer, wenn personenbezogene Daten in der Cloud gespeichert werden und weitere Probleme, wie etwa der erhöhte Energieverbrauch und die Kommunikationskosten, die Cloud-Dienste mit sich bringen.

Die neuen Sensoren sind gestapelt («stacked») aufgebaut und bestehen aus einem Pixelchip und einem Logikchip. Es sind die weltweit ersten Bildsensoren, bei denen künstliche Intelligenz (KI) zur Bildanalyse und Bildverarbeitung in den Logikchip integriert ist. Das Signal, das der Pixelchip erfasst, wird durch KI auf dem Sensor verarbeitet, sodass keine Hochleistungsprozessoren oder externen Speicher benötigt werden. Dies ermöglicht die Entwicklung von Edge-AI-Systemen.

Der Sensor gibt anstelle von Bildinformationen Metadaten aus (d. h. semantische Informationen zu den Bilddaten), was die Datenmengen reduziert und Datenschutzbedenken Rechnung trägt. Darüber hinaus ermöglicht die KI-Fähigkeit die Bereitstellung vielfältiger Funktionen für ein breites Spektrum von Anwendungen, wie etwa Echtzeit-Objektverfolgung mit KI-Verarbeitung in Hochgeschwindigkeit. Nutzer können auch andere KI-Modelle wählen: Dazu wird der interne Speicher entsprechend den jeweiligen Anforderungen oder den Bedingungen am Einsatzort des Systems neu beschrieben.

Die wichtigsten Merkmale

Weltweit erster Bildsensor mit KI-Verarbeitungsfunktion: Der Pixelchip ist hintergrundbeleuchtet und verfügt über ca. 12,3 effektive Megapixel zur Erfassung von Informationen über einen weiten Betrachtungswinkel. Neben der herkömmlichen Bildsensor-Betriebsschaltung ist der Logikchip mit DSP (Digital Signal Processor) von Sony für die KI-Signalverarbeitung und einem Speicher für das KI-Modell ausgestattet. Diese Bauweise macht den Einsatz von Hochleistungsprozessoren oder externen Speichern überflüssig und eignet sich daher ideal für Edge-AI-Systeme.

Metadatenausgabe: Die vom Pixelchip erfassten Signale werden durch einen ISP (Bildsignalprozessor) geleitet. Die KI-Verarbeitung erfolgt in der Prozessstufe auf dem Logikchip, und die extrahierten Informationen werden als Metadaten ausgegeben, was das Datenvolumen reduziert. Da keine Bildinformationen ausgegeben werden, werden Sicherheitsrisiken verringert und dem Datenschutz so Rechnung getragen.

Zusätzlich zu dem Bild, das der konventionelle Bildsensor aufzeichnet, können Nutzer je nach individuellen Anforderungen und Einsatzzwecken auch andere Datenausgabeformate wählen. Dazu zählen die Ausgabe von Bildern im ISP-Format (YUV/RGB) und die Ausgabe bestimmter ROI (Region of Interest)-Bildbereiche.

Das Datenausgabeformat ist wählbar, um unterschiedlichen Anforderungen gerecht zu werden.

KI-Verarbeitung in Hochgeschwindigkeit: Wenn ein Video mit einem herkömmlichen Bildsensor aufgezeichnet wird, müssen die Daten für jedes einzelne Ausgabebild an die KI-Verarbeitung gesendet werden. So müssen grosse Datenmengen übertragen werden, und es wird schwer, Echtzeitleistung zu erreichen. Die neuen Sensoren von Sony führen die ISP-Verarbeitung und die Highspeed-KI-Verarbeitung (3,1 Millisekunden Verarbeitungszeit für MobileNet V1[2]) auf dem Logikchip aus und schliessen den gesamten Prozess in einem einzigen Videobild ab. Dieses Design ermöglicht eine hochpräzise Echtzeitverfolgung von Objekten bei Videoaufnahmen.

Beispiel für Echtzeit-Tracking mit Produkt und Aufgabe an einer Kasse

Wählbares KI-Modell: Nutzer können die KI-Modelle ihrer Wahl in den eingebetteten Speicher schreiben und sie je nach ihren Anforderungen oder den Bedingungen am Einsatzort des Systems auch neu schreiben und aktualisieren. Wenn beispielsweise mehrere Kameras, die diesen Sensor nutzen, in einem Ladengeschäft installiert sind, lassen sich mit einem einzigen Kameratyp verschiedene Standorte, Gegebenheiten, Zeiten oder Zwecke abdecken. Wird die Kamera im Eingangsbereich installiert, so kann damit die Anzahl der Besucher gezählt werden, die das Geschäft betreten. An einem Regal angebracht erkennt sie, wo Ware fehlt. Wird sie an der Decke installiert, so kann sie zur Erstellung von Wärmebildern genutzt werden, um beispielsweise Bereiche zu orten, in denen viele Ladenbesucher zusammentreffen. Darüber hinaus kann das KI-Modell in einer Kamera neu geschrieben werden, sodass beispielsweise aus einem Modell zur Erkennung von Wärmebildern ein Modell zur Ermittlung des Kundenverhaltens wird.

Beispiel für den Einsatz in einer Ladenumgebung

Preise und Verfügbarkeiten

Modellname	Auslieferung	Preisangabe (ohne Steuer)
IMX500, Intelligent Vision Sensor, Typ 1/2.3 (7,857 mm diagonal), ca. 12,3 effektive Mpx (bare chip product)	ab April 2020	10’000 JPY
IMX501, Intelligent Vision Sensor, Typ 1/2.3 (7,857 mm diagonal), ca. 12,3 effektive Mpx (package product)	ab Juni 2020 (geplant)	20’000 JPY

Weitere Informationen

Video Sony Intelligent Vision Sensors (YouTube)

Technische Daten im Vergleich
Modellname	IMX501 (bare chip product)	NIMX500 (package product)
Anzahl Pixel (effektiv)	4056 (H) × 3040 (V), ca. 12,3 Mpx
Bildgrösse	Diagonal 7,857 mm (Typ 1/2.3)
Elementarzellengrösse	1,55 μm (H) × 1,55 μm (V)
Bildfrequenz	Full Pixel: 60 fps Video: 4K (4056 × 2288 px) 60 fps oder 1080p 240 fps Vollständige/Video+AI-Verarbeitung: 30 fps Metadatenausgabe: 30 fps
Empfindlichkeit (Standardwert F5.6)	Ca. 250 LSB
Sättigungssignal (Mindestwert)	Ca. 9610e-
Energieversorgung	Analog: 2,7 V Digital: 0,84 V Interface: 1,8 V
Hauptfunktionen	KI-Verarbeitung, ISP, HDR-Aufzeichnung
Ausgabe	MIPI D-PHY 1.2 (4 Lane) / SPI
Farbfilter-Array	Bayer Array
Ausgabeformat	Bild (Bayer RAW), ISP-Ausgabe (YUV/RGB), ROI, Metadaten
Package	IMX500: –	IMX501: Keramik-LGA 12,5 mm (H) × 15,0 mm (V)

[*2] MobileNet V1: Ein KI-Modell zur Bildanalyse für die Objekterkennung auf mobilen Geräten.