Cum de a identifica și de a schimba codificarea fișierului

Administratorii de Linux care lucrează cu web hosting, știu cât de important este de a stoca documente în HTML de codificare corectă.

În acest articol vă va învăța cum să determine codificarea fișierului din linia de comandă în Linux.







De asemenea, veți face cunoștință cu cea mai bună soluție pentru conversia de text între diverse codificări.

În plus, voi oferi exemple de conversie de text între aceste codificări cele mai comune ca CP1251 (Windows-1251 chirilic), UTF-8. ISO-8859-1, și ASCII.

Se determină codificarea fișierului

Utilizați următoarea comandă pentru a afla ce codificare a caracterelor utilizate în fișier:

Nu imprimați numele fișierului (modul scurt)

Pentru a determina tipul de fișier și codificarea

Definiți codificarea in.txt fișiere:

Schimbați codificarea fișierului

Utilizați următoarea comandă pentru a schimba codificarea fișier:

Schimbarea cu codare

Modificarea codificării

Salvați rezultatul într-un fișier

Schimbarea Codificarea fișierului cu CP1251 (Windows-1251 chirilic) la UTF-8:

Modificarea codificarea fișierelor ISO-8859-1 la UTF-8 și de a salva rezultatul în out.txt:







Schimbarea Codificarea fișierului din ASCII în UTF-8:

Schimbați codificarea fișier pentru UTF-8 la ASCII:

secvența de intrare ilegală în poziția: Deoarece UTF-8 pot conține caractere care nu sunt transformate în formatul ASCII, iconv va genera o «secvență de intrare ilegală mesaj de eroare de la poziția«, până când spui, nu pierdeți toate neconvertibilă în caractere ASCII, folosind opțiunea -c.

Pentru a exclude de la ieșire caractere nevalide

Puteți pierde caractere: Rețineți că utilizarea inconv cu opțiunea -c, unele caractere pot fi pierdute.

O situație destul de comună pentru cei care lucrează în colaborare cu Windows și Linux.

În special, acest lucru se aplică pentru mașinile Windows cu alfabetul chirilic.

Copiați orice fișier de la Windows la Linux, dar atunci când îl deschideți în Linux, puteți vedea „Êàêèå-êðàêîçÿáðû Oi“ - Ce ....

Nu intra in panica - aceste linii pot fi convertite cu ușurință de la CP1251 codare (Windows-1251 alfabet chirilic) în UTF-8:

Listă de toate seturile de caractere

Lista toate codificări cunoscute:

Sunt rulează Linux Mint 18.1 cu scorțișoară 3.2. Am avut unele caractere cehe în nume de fișiere (de exemplu: Pešek.m4a). 'S a apărut ca o. și numele de fișier a inclus un avertisment cu privire la codificare nevalid. Am folosit convmv pentru a converti numele de fișiere (de la izo-8859-1) la utf-8, dar Š apare acum ca un alt personaj (un pătrat cu 009A în ea. Am încercat comanda de fișier recomandat, și a primit răspunsul că charset a fost binar. Cum pot rezolva acest lucru? aş dori să aibă numele de fișiere includ corect caractere UTF-8.
Vă mulțumim pentru ajutor- dvs.

OpenSSL: Verificați cheia unui certificat corespunzător SSL și CSR