Kontakt aufnehmen
Lars Tholen

Lars Tholen

Geschäftsführer
Digital Solutions
+49 531 213605513

    Ich stimme der Verwendung meiner Daten zur Bereitstellung der angeforderten Informationen zu.

    Unicode

    Stand: 15.08.2022

    Unicode (deutsch: Einheitsschlüssel) ist ein genormter alphanumerischer Zeichensatz, ein sogenanntes Character Encoding Scheme (CES), zur Kodierung von Textzeichen (Buchstaben, Satzzeichen, Sonderzeichen, Ziffern). Unicode umfasst ein Kompendium aller weltweit bekannten Textzeichen und enthält auch mathematische, kaufmännische und technische Sonderzeichen. Im Bereich des Online Marketing wird Unicode unter anderem für die HTML-Codierung oder innerhalb von Textverarbeitungsprogrammen angewendet. Darüber hinaus ermöglicht die Zeichensprache die Darstellung von Textzeichen in Form von binären Zahlen, da sie für jedes Zeichen einen Byte-Wert definiert. Die Datenbank für Unicode umfasst derweil um die 230.000 Zeichen und beinhaltet zudem eine Reserve-Datenbank mit über einer Million weiterer Zeichen. Neben dem umfassenden Kompendium des Unicodes gibt es noch andere genormte Zeichensätze.

    Definition

    Unicode ist ein genormter alphanumerischer Zeichensatz, ein sogenanntes Character Encoding Scheme (CES), zur Kodierung von Textzeichen. Unicode umfasst alle weltweit bekannten Textzeichen und enthält auch mathematische, kaufmännische und technische Sonderzeichen. Im Bereich des Online Marketing wird Unicode unter anderem für die HTML-Codierung oder innerhalb von Textverarbeitungsprogrammen angewendet. Darüber hinaus ermöglicht die Zeichensprache die Darstellung von Textzeichen in Form von binären Zahlen, da sie für jedes Zeichen einen Byte-Wert definiert. Die Datenbank für Unicode umfasst derweil um die 230.000 Zeichen und umfasst zudem eine Reserve-Datenbank mit über einer Million weiterer Zeichen. Für die Zuordnung von Zeichen zu Byte-Werten gibt es neben Unicode noch zahlreiche andere, in der Regel unvereinbare Zeichensätze. Der American Standard Code for Information Interchange (ASCII) ist die wohl wichtigste Zeichenkodierung für den digitalen Raum.

    Arten von Unicodes

    Für die Zuordnung von Zeichen zu Byte-Werten gibt es neben Unicode noch zahlreiche andere, in der Regel unvereinbare Zeichensätze. Der American Standard Code for Information Interchange (ASCII) ist die wohl wichtigste Zeichenkodierung für den digitalen Raum. Innerhalb dieses Zeichensatzes wird jedes Zeichen mit 7-Bits kodiert. Insgesamt können mithilfe des ASCII also 128 Zeichen kodiert werden. Der American Standard Code for Information Interchance beinhaltet im Gegensatz zum Unicode nur die Buchstaben des lateinischen Alphabets und die arabischen Ziffern. Dementsprechend ist die Auszeichnungssprache vor allem für den englischsprachigen Raum nützlich, da der Zeichensatz weder Umlaute noch Akzentzeichen berücksichtigt.

    Der Unicode ist in mehrere Ebenen, sogenannte Planes, unterteilt. Dabei wird die erste Ebene, die „Basic Multilingual Plane“ (deutsch: Grundlegende mehrsprachige Ebene) am häufigsten verwendet. Die Zeichensätze auf dieser ersten Ebene werden mithilfe des Universal Character Set 2 (UCS-2) kodiert. Hier werden bereits 16-Bit zur Kodierung jedes Zeichens definiert, sodass insgesamt 65.536 Zeichen verfügbar sind. Statt UCS-2 wird für diese Ebene oft auch der Begriff UFT-16 (UCS Transformation Format 16 Bit) verwendet. Die ersten 265 Zeichen des UFT-16 beinhalten die Schriftzeichen der westeuropäischen Sprachen.

    Auf den übrigen Ebenen des Unicodes, die über die erste Ebene hinausgehen, sind selten verwendete, meist historische Schriftzeichen kodiert. Hier finden sich unter anderem alt-ägyptische Hieroglyphen oder seltene chinesische Schriftzeichen. Da 16-Bit für die Kodierung dieser Zeichen nicht mehr ausreichend ist, wird jedes Zeichen mit 32-Bit kodiert, sodass insgesamt 4.294.967.296 verschiedene Zeichen möglich sind. Die höheren Ebenen des Unicodes werden als Universal Character Set 4 (UCS-4) bezeichnet. Die UCS-4-Kodierung ermöglicht die Darstellung jedes beliebigen Unicode-Zeichens unabhängig von der Unicode-Ebene in einem 32-Bit langen Datenwort. UCS-4 wird auch als UTF-32 (UCS Transformation Format 32 Bit) bezeichnet. Bei der Verwendung sollte die der hohe Ressourcenbedarf berücksichtigt werden.

    Neben UTF-16 und UTF-32 wird im europäischen Raum vor allem das UCS Transformation Format 8 Bit (UTF-8) angewendet. UTF-8 kann jedes Unicode-Zeichen als Abfolge von Datenwörtern von je 8 Bit Länge ausdrücken und ermöglicht die Umkodierung der Schriftzeichen von 16-Bit auf 8-Bit. UTF-8 stimmt in den ersten 128 Zeichen mit der ASCII-Kodierung überein.

    Bedeutung für das Online Marketing

    Der Unicode-Standard wird heutzutage schon von führenden internationalen Unternehmen wie Apple, IBM, Microsoft oder Hewlett-Packard verwendet. Auch bei der Programmiersprache Java kommt der Unicode zum Einsatz. Die Kodierung mithilfe des im europäischen Raum gängigen UTF-8 ermöglicht eine hohe Usability der Webseite und eine große mögliche Reichweite, da die verwendeten Zeichen in der Regel weltweit gebräuchlich sind. Darüber hinaus ist UTF-8 im Vergleich zu anderen Unicodes relativ ressourcenschonend. Im Vergleich zum derzeitigen Standard ASCII können mithilfe von UTF-8 auch Umlaute und Akzentzeichen dargestellt werden.

    Lars Tholen
    Über den Autor
    Lars Tholen
    Lars Tholen’s DNA ist agil, kraftvoll und digital. Schon seit 2007 arbeitet Jan in den neuen Medien und hat sich seit dem auf Online-Marketing, den dazugehörigen Konzepten und der dazu notwendigen Technologie spezialisiert.

     

    Was versteht man unter Unicode?

    Unicode ist ein digitaler Kodierungsstandard für Schriftzeichen. Er wurde 1991 vom Unicode Consortium, einer gemeinnützigen Organisation, geschaffen. Das Ziel von Unicode ist es, eine eindeutige Nummer für jedes Zeichen in jeder geschriebenen Sprache bereitzustellen, so dass Software automatisch mehrere Sprachen ohne Konflikte unterstützen kann
    Unicode war unglaublich erfolgreich; es wird heute von Millionen von Menschen auf der ganzen Welt verwendet und von fast allen wichtigen Softwareplattformen unterstützt. Dennoch bleibt er für die Benutzer weitgehend unsichtbar; die meisten Menschen müssen nichts darüber wissen, um ihre Computer oder Telefone zum Schreiben in ihrer Muttersprache zu verwenden
    Einfach ausgedrückt, handelt es sich um eine Liste von Zeichen mit zugewiesenen Codepunkten. Unicode ist ein Industriestandard für die einheitliche Kodierung, Darstellung und Handhabung von Text in den meisten Schriftsystemen der Welt. Er ermöglicht es Menschen auf der ganzen Welt, Texte in einer Vielzahl von Sprachen und Schriften auszutauschen.

    Wie funktioniert der Unicode?

    Unicode ist ein Industriestandard für die einheitliche Kodierung, Darstellung und Handhabung von Text, der in den meisten Schriftsystemen der Welt ausgedrückt wird. Der Standard kodiert jedes Zeichen mit einem eindeutigen numerischen Wert, so dass Textdaten von Computern bearbeitet werden können, ohne dass die zugrunde liegende Darstellung geändert werden muss. Dadurch ist es möglich, Text aus verschiedenen Sprachen nebeneinander anzuzeigen oder Text zwischen verschiedenen Computerplattformen auszutauschen.

    Welche Unicode Zeichen gibt es?

    Die Unicode-Zeichen sind ein Satz von Codepunkten, die zur Darstellung aller Schriftsysteme der Welt verwendet werden. Jeder Codepunkt entspricht einem bestimmten Zeichen oder Symbol und kann in jedem Kontext verwendet werden, in dem dieses Zeichen oder Symbol verwendet werden könnte. Unicode erweitert ständig sein Repertoire an Codepunkten, um mit den Bedürfnissen der weltweiten Gemeinschaft Schritt zu halten, so dass es immer neue und interessante Zeichen zu entdecken gibt. Eine Liste aller derzeit zugewiesenen Unicode-Zeichen finden Sie hier: http://www.unicode.org/charts/.

    Wie gibt man Unicode Zeichen ein?

    Die meisten Tastaturen haben keine eingebaute Möglichkeit, Unicode-Zeichen einzugeben, aber es gibt einige Möglichkeiten, dies zu tun.
    Eine Möglichkeit ist die Verwendung des Dienstprogramms Zeichentabelle in Windows. Drücken Sie dazu einfach die Windows-Taste und geben Sie „Zeichentabelle“ ein. Suchen Sie dann das Zeichen, das Sie einfügen möchten, und doppelklicken Sie darauf. Klicken Sie anschließend auf „Kopieren“ und fügen Sie das Zeichen in Ihr Dokument ein oder wo immer Sie es verwenden möchten.
    Eine weitere Möglichkeit ist die Verwendung eines Unicode-Eingabeprogramms wie WinCompose oder Ukelele (für Mac). Mit diesen Werkzeugen können Sie bestimmten Unicode-Zeichen Tastenkombinationen zuweisen, so dass Sie die Tastenkombination einfach eintippen können, ohne das Zeichen suchen und auswählen zu müssen.

    Was ist eine Unicode Tabelle?

    Eine Unicode-Tabelle ist eine Tabelle mit den Zeichen, die in einer Unicode-Kodierung verfügbar sind. Eine Unicode-Kodierung ist eine Methode zur Darstellung von Text mithilfe von Bitmustern.
    Unicode ist ein Standard für die Darstellung von Text, der die meisten Schriftsysteme der Welt umfasst. Er wurde vom Unicode-Konsortium, einer gemeinnützigen Organisation, entwickelt. Ziel von Unicode ist es, einen einzigen Zeichensatz bereitzustellen, der zur Darstellung von Text aus allen Sprachen der Welt verwendet werden kann.

     

    Auch interessant:

     

    Ihr Kontakt zu uns
    Adresse
    Löwenstark Digital Group GmbH
    Petzvalstraße 38,
    38104 Braunschweig

      Jetzt Kontakt aufnehmen

      * Pflichtfeld
      Ich stimme der Verwendung meiner Daten zur Bereitstellung der angeforderten Informationen zu. Die Löwenstark Digital Group GmbH und verbundene Unternehmen können mich telefonisch, per E-Mail oder Post über Neuigkeiten zu Online-Marketing-Themen und Umfragen zur Kundenzufriedenheit informieren. Meine Kontaktdaten dürfen zu diesem Zweck an verbundene innerhalb der Unternehmensgruppe weitergegeben werden. Ich bin damit einverstanden, dass die Öffnungsrate von Mailings erfasst wird. Die Einwilligung kann jederzeit über den Abmeldelink im Mailing oder unter kontakt@loewenstark.com widerrufen werden. Weitere Informationen finden Sie in unserer Datenschutzerklärung.