Unicode - Wikipedia
Vai al contenuto
Da Wikipedia, l'enciclopedia libera.
Logo dell'
Unicode Consortium
Unicode
è un sistema di
codifica
che assegna un
numero
univoco ad ogni
carattere
usato per la scrittura di testi, in maniera indipendente dalla
lingua
, dalla
piattaforma informatica
e dal
programma
utilizzato.
È stato compilato e viene aggiornato e pubblicizzato dallo
Unicode Consortium
, un consorzio internazionale di aziende interessate alla interoperabilità nel trattamento informatico dei testi in lingue diverse.
Storia
modifica
modifica wikitesto
Unicode è stato creato per risolvere i limiti dei tradizionali schemi di codifica dei caratteri. Ad esempio, sebbene i caratteri definiti nella ISO 8859-1 siano ampiamente utilizzati in paesi diversi, spesso si verificano incompatibilità tra paesi diversi. Molti metodi di codifica tradizionali hanno un problema comune, ovvero consentono ai computer di gestire un ambiente bilingue (di solito utilizzando lettere latine e le loro lingue native), ma non possono supportare un ambiente multilingue allo stesso tempo (riferendosi a una situazione in cui più lingue possono essere mescolate contemporaneamente).
La codifica Unicode contiene caratteri con stili di scrittura diversi, come " ɑ / a ", "强 / 强", "casa / famiglia / 戸". Tuttavia, c'è stata una controversia sull'identificazione del polimorfismo nei caratteri cinesi. Per i dettagli si vedano gli ideogrammi unificati di
Cina
Giappone
Corea
In termini di elaborazione testi, Unicode definisce un codice univoco (cioè un numero intero) per ogni carattere anziché un glifo. In altre parole, Unicode elabora i caratteri in modo astratto (cioè i numeri) e lascia il lavoro di deduzione visiva (come dimensione del carattere, forma dell'aspetto, forma del carattere, stile, ecc.) ad altri software, come la navigazione web o l'elaboratore di testi.
Al momento, quasi tutti i sistemi informatici supportano l'alfabeto latino di base e ciascuno supporta diversi altri metodi di codifica. Per essere compatibili con loro, i primi 256 caratteri di Unicode sono riservati ai caratteri definiti da ISO 8859-1, in modo che la conversione delle lingue esistenti dell'Europa occidentale non richieda una considerazione speciale; e un gran numero degli stessi caratteri viene ripetuto in diversi. Nel codice carattere, il vecchio complicato metodo di codifica può essere convertito direttamente tra la codifica Unicode senza perdere alcuna informazione. Ad esempio, la sezione del formato full-form contiene il formato full-form delle principali lettere latine. Nei glifi cinesi, giapponesi e coreani, questi caratteri sono presentati in full-form invece che nella comune forma half-form, che ha un effetto importante sul testo verticale e sul testo a spaziatura fissa.
Quando si rappresenta un carattere Unicode, di solito è rappresentato da "U +" seguito da un insieme di cifre esadecimali. Nel piano multilingue di base: (piano multilingue di base in inglese tutti i caratteri. BMP abbreviato noto anche come "piano zero", piano 0) all'interno, si utilizzano quattro cifre (ovvero 2 byte, per un totale di 16 bit, Come U + 4AE0, che supporta un totale di oltre
60 000
caratteri); per i caratteri al di fuori del piano zero si devono utilizzare cinque o sei cifre. La vecchia versione dello standard Unicode utilizza metodi di marcatura simili, ma con alcune piccole differenze: in Unicode 3.0, "U-" viene utilizzato seguito da otto cifre e "U +" deve essere seguito da quattro cifre.
Struttura del codice
modifica
modifica wikitesto
Unicode era stato originariamente pensato come una codifica a 16 bit (quattro cifre esadecimali) che dava la possibilità di codificare 65.535 (2
16
− 1) caratteri. Tanto si riteneva essere sufficiente per rappresentare i caratteri impiegati in tutte le lingue scritte del mondo.
Ora invece lo standard Unicode, che tendenzialmente è perfettamente allineato con la norma
ISO/IEC 10646
, prevede una codifica fino a 21 bit e supporta un repertorio di codici numerici che possono rappresentare circa un milione di caratteri.
Ciò appare sufficiente a coprire anche i fabbisogni di codifica di scritti del patrimonio storico dell'umanità, nelle diverse lingue e negli svariati sistemi di segni utilizzati.
Al 2009, solo una piccolissima parte di questa disponibilità di codici è assegnata. Per lo sviluppo dei codici sono infatti previsti 17 "piani" ("planes", in inglese), da 00 a 10
hex
, ciascuno con 65.536 posizioni (quattro cifre esadecimali), ma solo i primi tre e gli ultimi tre piani sono ad oggi assegnati
, e di questi il primo, detto anche BMP, è praticamente sufficiente a coprire tutte le lingue più usate.
Concretamente, questo repertorio di codici numerici è
serializzato
mediante diversi schemi di ricodifica, che consentono l'uso di codici più compatti per i caratteri usati più di frequente. È previsto l'uso di codifiche con unità da 8 bit (
byte
), 16 bit (
word
) e 32 bit (
double word
), descritte rispettivamente come
UTF-8
UTF-16
UTF-32
Piano
Intervallo
Descrizione
Abbreviazione
000000-00FFFF
Basic Multilingual Plane
BMP
010000-01FFFF
Supplementary Multilingual Plane
SMP
020000-02FFFF
Supplementary Ideographic Plane
SIP
030000-03FFFF
Designato preliminarmente come
Tertiary Ideographic Plane
(TIP), ma nessun carattere gli è stato assegnato al momento
TIP
4-13
040000-0DFFFF
Attualmente non assegnati
14
0E0000-0EFFFF
Supplementary Special-purpose Plane
SSP
15
0F0000-0FFFFF
Supplementary Private Use Area-A
16
100000-10FFFF
Supplementary Private Use Area-B
Basic Multilingual Plane (BMP)
modifica
modifica wikitesto
Il piano 0, il
Basic Multilingual Plane
(lett. "Piano multilinguistico di base") o BMP, è quello in cui sono stati assegnati la maggior parte dei caratteri. Il BMP contiene caratteri per quasi tutti i moderni linguaggi e un grande numero di caratteri speciali. La maggioranza dei codici assegnati ai caratteri nel BMP sono stati usati per codificare quelli cinesi, giapponesi e coreani (
CJK
).
Sistemi di scrittura rappresentati
modifica
modifica wikitesto
Unicode comprende quasi tutti i sistemi di scrittura attualmente utilizzati, fra i quali:
Alfabeto arabo
Alfabeto armeno
Alfabeto bengalese
Scrittura Braille
Sillabario aborigeno canadese
Sillabario cherokee
Alfabeto copto
Alfabeto cirillico
Alfabeto devanagari
Alfabeto ebraico
Alfabeto dell'esperanto
Alfabeto geʽez
Alfabeti georgiani
Alfabeto greco
Alfasillabario gujarati
Alfabeto gurmukhi
lingua punjabi
Scrittura hanzi
lingua cinese
Alfabeto hangŭl
scrittura hanja
lingua coreana
Scrittura hiragana
katakana
scrittura kanji
lingua giapponese
Alfabeto fonetico internazionale
(IPA)
Alfabeto khmer
lingua cambogiana
Scrittura kannada
Alfabeto lao
Alfabeto latino
(base ed esteso)
Scrittura limbu
Alfabeto malayalam
Scrittura mongola
Alfabeto birmano
Alfabeto N'Ko
Scrittura odia
Ol Chiki
Alfabeto osmanya
Scrittura sylheti
Alfabeto siriaco
Scrittura tamil
Scrittura telugu
Alfabeto tailandese
Alfabeto tibetano
Scrittura tifinagh
Sillabario yi
Alfabeto bopomofo
In aggiunta a quelli citati, sono disponibili
glifi
appartenenti a sistemi di scrittura più particolari, come quelli delle
lingue estinte
Scrittura cuneiforme
Alfabeto deseret
Scrittura lineare B
Scrittura kharoshthi
Alfabeto ogamico
Alfabeto etrusco
lingua etrusca
osca
umbra
Scrittura cuneiforme persiana antica
Alfabeto fenicio
Alfabeto gotico
Alfabeto runico
Alfabeto shaviano
Alfabeto ugaritico
Infine, lo Unicode comprende anche molti simboli, come quelli
matematici
musicali
Cronologia delle versioni
modifica
modifica wikitesto
Negli ultimi anni una nuova versione è stata pubblicata praticamente ogni anno a seguito di una media di oltre 1.000 richieste di cambiamenti all'anno.
DP 10646 1989 (Proposta di bozza della norma ISO
10646, indipendente dall'Unicode)
DIS-1 10646 1990 (Prima bozza della norma ISO
10646, indipendente dall'Unicode)
Unicode 1.0.0 ottobre 1991
Unicode 1.0.1 giugno 1992 (Modificato per un eventuale allineamento alla norma ISO
10646)
Unicode 1.1.0 giugno 1993 (Unicode e ISO unificate per la prima volta: i due codici sono identici allo standard ISO
10646-1: 1993)
Unicode 1.1.5 giugno 1995
Unicode 2.0.0 luglio 1996 (Allineata allo standard ISO
10646 estesa)
Unicode 2.1.2 maggio 1998 (Fra gli altri, introduzione del carattere
euro
: €)
Unicode 2.1.5 agosto 1998
Unicode 2.1.8 dicembre 1998
Unicode 2.1.9 aprile 1999
Unicode 3.0.0
settembre 1999 (Allineata allo standard ISO
10646-1: 2000)
Unicode 3.0.1
agosto 2000
Unicode 3.1.0
marzo 2001 (Allineata allo standard ISO
10646-2: 2001)
Unicode 3.1.1
agosto 2001
Unicode 3.2.0
marzo 2002
Unicode 4.0.0
aprile 2003 (Allineata allo standard ISO
10646: 2003)
Unicode 4.0.1
marzo 2004
Unicode 4.1.0
31 marzo 2005
Unicode 5.0.0
14 luglio 2006 oltre 99.000 glifi
Unicode 5.1.0
4 aprile 2008
Unicode 5.2.0
1º ottobre 2009
Unicode 6.0.0
10 ottobre 2010
Unicode 6.1.0
26 gennaio 2012
Unicode 6.2.0
26 settembre 2012
Unicode 6.3.0
30 settembre 2013
Unicode 7.0.0
16 giugno 2014
Unicode 8.0.0
17 giugno 2015
Unicode 9.0.0
21 giugno 2016
Unicode 10.0.0
20 giugno 2017
Unicode 11.0.0
5 giugno 2018
Unicode 12.0.0
5 marzo 2019
Unicode 12.1.0
7 maggio 2019
Unicode 13.0.0
10 marzo 2020
Unicode 14.0.0
14 settembre 2021
Unicode 15.0.0
13 settembre 2022
Unicode 16.0.0
10 settembre 2024
Unicode 17.0.0
5 febbraio 2025
Note
modifica
modifica wikitesto
EN
Pagina ufficiale di Unicode Consortium
Piani assegnati (2009):
00-BMP
Piano di base Multilinguistico
01-SMP
piano supplementare multilinguistico
02-SIP
piano supplementare ideografico
15
0E-SSP
piano supplementare per scopi speciali
16
0F-PUA
riservato ad aree di uso privato
17
10-PUA
riservato ad aree di uso privato
Roadmap to the TIP
, su
www.unicode.org
URL consultato il 13 settembre 2022
Unicode Consortium:
Unicode Character Database 5.0 Released
Archiviato
il 5 agosto 2011 in
Internet Archive
, 18 luglio 2006
Unicode 16.0.0
, su
www.unicode.org
URL consultato il 16 febbraio 2025
Voci correlate
modifica
modifica wikitesto
ASCII
ASCII esteso
Charset
ConScript Unicode Registry
Ordine dei byte
inglese
Endianness
Operatori matematici Unicode
Altri progetti
modifica
modifica wikitesto
Altri progetti
Wikizionario
Wikimedia Commons
Wikizionario
contiene il lemma di dizionario «
Unicode
Wikimedia Commons
contiene immagini o altri file sullo
Unicode
Collegamenti esterni
modifica
modifica wikitesto
EN
Sito ufficiale
, su
unicode.org
EN
Blog ufficiale
, su
blog.unicode.org
Unicode
, su
sapere.it
De Agostini
EN
Unicode
, su
Enciclopedia Britannica
, Encyclopædia Britannica, Inc.
EN
Edizioni e traduzioni di Unicode
, su
Open Library
Internet Archive
Sito di segnalazione bug
, su
unicode-org.atlassian.net
Cos'è Unicode?
Dal sito di Unicode
EN
The Unicode Consortium
EN
Indice dei dati Unicode e dei dati Java
, su
fileformat.info
URL consultato il 20 Maggio 2018
DE
EN
DecodeUnicode - Unicode WIKI
98.884 gifs
Semplice HowTo su Unicode e UTF-8
, su
linkas.it
URL consultato il 16 aprile 2005
(archiviato dall'
url originale
il 3 aprile 2005)
EN
Joel on software: The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets
Unicode
Codifiche
UTF-7
UTF-8
CESU-8
UTF-16/UCS-2
UTF-32/UCS-4
UTF-EBCDIC
SCSU
Punycode
Altro
UCS
Mappatura
Testo bidirezionale
BOM
Unificazione Han
Unicode eHTML
Controllo di autorità
LCCN
EN
sh98000843
GND
DE
4343497-6
J9U
EN
HE
987007558790605171
Portale Informatica
accedi alle voci di Wikipedia che trattano di informatica
Estratto da "
Categorie
Unicode
Repertori di caratteri
Categorie nascoste:
Template Webarchive - collegamenti all'Internet Archive
P856 letta da Wikidata
Voci con template Collegamenti esterni e qualificatori sconosciuti
P1581 letta da Wikidata
P6706 letta da Wikidata
P1417 letta da Wikidata
P648 letta da Wikidata
P1401 letta da Wikidata
Voci con codice LCCN
Voci con codice GND
Voci con codice J9U
Voci non biografiche con codici di controllo di autorità
Unicode
Aggiungi argomento