Zeichencodierung – SELFHTML-Wiki

Zeichencodierung – SELFHTML-Wiki
Herzlich willkommen zum
SELF-Treffen 2026
vom 24.04. – 26.04.2026
in Halle (Saale)
Zeichencodierung
Aus SELFHTML-Wiki
(Weitergeleitet von
Zeichenkodierung
Wechseln zu:
Suche
Im Computerbereich gibt es verschiedene
Zeichensätze
und
Zeichencodierungen
. Um ein konkretes Dokument zu erstellen, muss man dafür eine Zeichen
codierung
verwenden. Die Zeichencodierung legt fest, wie ein bestimmtes Zeichen in Bits und Bytes abgebildet wird.
Wenn du nichts weiter unternimmst, werden deine Werkzeuge (Editor, Browser) eine voreingestellte Codierung verwenden. Das ist insofern problematisch, als dass alle beteiligten Systeme nun raten müssen, in welcher Codierung ein Dokument vorliegt. Das ist aber nicht immer eindeutig erkennbar. Es ist deshalb eine gute Idee, für Klarheit zu sorgen.
Bytes und Buchstaben
ASCII
ISO-8859-Familie
Unicode
UTF-16
UTF-32
UTF-8
Unicode in der Praxis
im Editor
Meta-Angabe im Dokument
HTTP-Header
𝕯𝖊𝖐𝖔𝖗𝖆𝖙𝖎𝖛𝖊 𝕾𝖈𝖍𝖗𝖎𝖋𝖙?
𝕂𝕖𝕚𝕟𝕖 𝕘𝕦𝕥𝕖 𝕀𝕕𝕖𝕖!
Fake Bold - Unicode in Social Media
🌻🌼
Emojis und Emoticons
Darstellung
zugängliche Emoticons
Zeichencodierung in MySQ
Empfehlung:
Verwende für neue Projekte
UTF-8
als Zeichencodierung, wenn überwiegend westliche Sprachen verwendet werden (bei asiatischen Sprachen ist oft UTF-16 günstiger).
Stelle sicher, dass du diese Zeichencodierung nicht nur angibst, sondern das Dokument auch wirklich in diesem Format abspeicherst.
Lies dazu den
Ratschlag zur praktischen Anwendung
Inhaltsverzeichnis
Begrifflichkeiten
1.1
Zeichensatz
1.2
Codepoint
1.3
Schriftart
1.4
Glyphe
1.5
Font
1.6
Tastatur-Layout
Weblinks
Beachte:
Eine korrekt verwendete Zeichencodierung oder eine Ersatzschreibweise für einzelne Zeichen bedeutet nicht zwangsläufig, dass alle Zeichen korrekt dargestellt werden. Es müssen u. U. auch die Schriftarten auf dem Computer installiert werden, die für diese verwendeten Zeichen Darstellungsvorschriften enthalten. Fehlen diese, erscheinen statt der Schriftzeichen Kästchen oder Ähnliches auf dem Bildschirm.
Als Autor von Webseiten kannst du deiner Webseite
die passenden Schriften
mitliefern.
Eine
Zeichencodierung
beschreibt die konkrete Zuordnung eines
Codepoints
zu einem Byte oder einer Bytesequenz.
UTF-8
und UTF-16 sind beispielsweise Codierungen für den Zeichensatz Unicode.
Einige Software-Hersteller bezeichnen Zeichencodierungen mit einem historisch gewachsenen Synonym, nämlich der „Zeichensatz-“ oder kurz „Zeichentabelle“ (
code page
bzw.
codepage
). So bezeichnet beispielsweise Microsoft im seinem Windows-Betriebssystem die Zeichencodierung UTF-8 als „Codepage 65001“ oder kurz „CP65001“.
Wenn du dich mit Zeichencodierung noch nicht weiter beschäftigt hast, ist es sicherlich am besten, zuerst die auf dieser Seite beschriebenen Grundlagen zur Zeichencodierung zu lesen und sich anschließend die konkreten Beschreibungen zur Umsetzungen in den einzelnen Techniken der nachfolgenden Links anzuschauen.
Zeichencodierung
(Übersicht)
Bytes und Buchstaben
Begrifflichkeiten
Für die Zeichen-Problematik gibt es eine Reihe Begrifflichkeiten, die allerdings oftmals falsch angewendet werden. Nachfolgend der Versuch einer Aufklärung:
Zeichensatz
Ein
Zeichensatz
(englisch:
character set, charset
) ist die Gesamtheit der zur Verfügung stehenden Zeichen. Ein
Zeichensatz
ist ein eher abstraktes Gebilde, das nur die Zeichen selbst und eine Reihenfolge beschreibt, nicht jedoch eine konkrete Abbildung auf Byte-Werte. Das ist Aufgabe der
Zeichencodierung
Beispielsweise ist
Unicode
ein Zeichensatz,
UTF-8
hingegen ist eine Zeichencodierung.
Zur Blütezeit der 1-Byte-Codierungen (für Zeichensätze mit bis zu 256 Zeichen) wurde die Unterscheidung zwischen Zeichensatz und Zeichencodierung in der Praxis oft vernachlässigt. Die Position eines Zeichens im Zeichensatz und seine Codierung ist mit den Werten von 0 bis 255 (= 1 Byte) immer gleich, und auch eindeutig in beide Richtungen. Bei Zeichensätzen mit mehr als 256 Zeichen gibt es jedoch mehrere Verfahren, sie auf Byte-Werte abzubilden, weswegen die Unterscheidung zwischen Zeichensatz und Zeichencodierung wichtig geworden ist.
Der Zeichensatz für HTML-Dokumente ist seit Version 4.0 stets Unicode. Die Zeichencodierung eines konkreten Dokuments (Datei) ist beispielsweise UTF-8 oder ISO-8859-1. Mit einer 1-Byte-Codierung wie ISO-8859-1 können nur deren Zeichen direkt eingefügt werden. Über die Escaping-Mechanismen
Numerische Zeichenreferenz
und teilweise
Entitys
lassen sich alle in Unicode definierten Zeichen in ein HTML-Dokument einfügen.
Statt Zeichensatz werden oft die Begriffe Font, Schriftart oder Zeichencodierung verwendet, obwohl diese genau genommen etwas anderes bedeuten. Auch wird die englische Übersetzung
charset
an vielen Stellen verwendet, an denen korrekterweise
encoding
(Codierung) stehen müsste. Das betrifft vor allem den Parameter
charset
im
HTTP-Header
Content-type
und im gleichnamigen
HTML-Meta-Element
. Im Vorspann einer
XML-Datei
wird hingegen richtigerweise
encoding
verwendet.
Codepoint
Zeichen in einem Zeichensatz (z. B. ASCII oder Unicode) werden in einer bestimmten Reihenfolge in einem Coderaum (
code space
) angeordnet. Die Position eines Zeichens ist der
Codepoint
(zu Deutsch etwa „Codeposition“). Ein Zeichensatz mit Codepoints ist ein codierter Zeichensatz (
coded character set
).
Ein Unicode-Zeichen wird oftmals in der Form
U+xxxxxx
beschrieben, zum Beispiel wenn aus der bildlichen Darstellung nicht eindeutig auf ein Zeichen geschlossen werden kann. Das
xxxxxx
ist die hexadezimale Codepoint-Angabe aus bis zu sechs Ziffern. Auch für Numerische Zeichenreferenzen in HTML wird der Codepoint in dezimaler oder hexadezimaler Schreibweise verwendet.
Beispiel: € = Codepoint
U+20AC
(dez.
8364
) =
€
oder
€
Schriftart
Für die grafische Darstellung von Zeichen wird eine
Schriftart
verwendet, die in der Regel eine in sich konsistente Gestaltung aufweist, beispielsweise für die Strich-Dicke oder Verzierungen. Arial, Times New Roman oder Courier sind Beispiele für Schriftarten.
Schriftart ist im engeren Sinne nach eher ein Synonym zu Schriftschnitt, also bspw.
Helvetica 24pt fett
. Da Schriftarten wie Arial, Helvetica, Times Roman usw. oft aus mehreren Schriftschnitten für Breiten (schmal, breit, …), Strichstärken (leicht, normal, fett, …) und Zeichenlagen (normal, kursiv, …) bestehen, verwendet man auch den Begriff Schriftfamilie, der nicht genau von Schriftart abzugrenzen ist.
Glyphe
Der Begriff
Glyphe
wird gelegentlich für die konkrete Darstellung eines Zeichens verwendet. Die Schriftart bestimmt, welches Zeichen mit welcher Glyphe dargestellt wird.
Font
Der Begriff
font
ist
mehrdeutig
Weitere Bedeutungen sind unter
Font (Begriffsklärung)
aufgeführt.
Ein
Font
ist die Aufbereitung einer Schriftart für den Einsatz mit einem Computer, also eine Datei, die eine Schriftart beschreibt.
Tastatur-Layout
Ein
Tastatur-Layout
oder eine
Tastaturbelegung
(auch Tastenlayout oder Tastenbelegung) ordnet einer Taste auf der Tastatur einen
Codepoint
zu.
Beispielsweise produziert die auf einer deutschen Tastatur mit „z“ beschriftete Taste mit einer deutschen Tastenbelegung den Unicode-Codepoint
U+007A
, also (erwartungsgemäß) ein „z“. Ändert man die Tastenbelegung auf US-amerikanisch, so erzeugt dieselbe Taste den Codepoint
U+0079,
also ein „y“. Mit einer russischen Belegung produzieren praktisch sämtliche Tasten andere Resultate, nämlich die Codepoints für kyrillische statt lateinischer Buchstaben, also z. B. „н“ (
U+043D
) statt „z“.
Weblinks
W3C:
Zeichencodierung für Anfänger
W3C:
Dokument-Zeichensatz
W3C:
Verwendung von Zeichen-Escapes in Markup und CSS
W3C:
Änderung der Zeichencodierung einer (X)HTML-Seite auf UTF-8
W3C:
Darstellungsprobleme durch das UTF-8-BOM
Beachten Sie:
Die Verweise sind nicht sprachspezifisch. Das heißt, es wird die Sprach-Version geöffnet, die in Ihrem Browser als bevorzugte Sprache voreingestellt ist (so eine Übersetzung existiert). Eine andere Sprache kann auf den W3C-Seiten oben rechts gewählt werden.
Unicode
Alan Woods Unicode Resources
: Alle Unicode-Tabellen in reiner HTML-Form (im Gegensatz zu denen des Unicode-Consortiums), dazu ausführliche Infos über Unicode-Schriftarten und Schriftarten für spezielle Zeichensätze, Informationen zu unicode-fähigen Software-Produkten, inklusive Font- und Tastatur-Utilities und Hinweise zum Erstellen mehrsprachiger Webseiten.
Autor: Allen Wood
Typografie
Typograph online
: Umfangreiche Einführung in die Lehre von der Typografie. Alles über Schriftarten, Schrifttypen und typografische Begriffe wie Dickte, Kerningpaar usw.
Autor: Ralf Janaszek
Abgerufen am 24.04.2026
von "
Kategorien
Begriffsklärung
Zeichencodierung
Navigationsmenü
SELFHTML
SELFHTML
Forum
Blog
Verein
Meine Werkzeuge
Benutzerkonto erstellen
Anmelden
Namensräume
Seite
Diskussion
Varianten
Ansichten
Lesen
Quelltext anzeigen
Versionsgeschichte
Mehr
Suche
Starten
Wie fange ich an?
HTML
CSS
JavaScript
SVG
Werkzeuge
Links auf diese Seite
Änderungen an verlinkten Seiten
Spezialseiten
Druckversion
Permanenter Link
Seiteninformationen
Mitmachen
Hilfe
Offline-Wiki
Spenden
Letzte Änderungen
Diese Seite wurde zuletzt am 23. März 2025 um 08:38 Uhr geändert.
Unterstützt durch
Die Inhalte des SELFHTML-Wikis unterliegen der
CC-BY-SA 3.0 (de)
Nähere Informationen finden Sie unter
SELFHTML/Lizenzvereinbarungen
Datenschutz
Über SELFHTML-Wiki
Impressum