Una diéresis es una vocal alemana, representada por escrito como una letra con dos puntos ( diéresis ) sobre la vocal básica. Ejemplos de diéresis son ä, ö y ü.
Estas tres letras se pueden representar en el texto como un solo carácter, por ejemplo, ü como Unicode U+00FC, o como dos caracteres: la vocal básica (por ejemplo, u, U+0075) y la diéresis combinada (¨, U + 0308 ).
Tanto la diéresis de un solo carácter como la diéresis de dos caracteres tienen el mismo aspecto en un documento PDF, pero su código subyacente es diferente. Esta animación muestra texto copiado del mismo (!) archivo PDF abierto en Firefox (arriba) y Vista previa (abajo) en un editor de texto sin formato (BBEdit) y luego elimina letras individuales:
Cuando la diéresis se representa como un carácter y busca una palabra alemana con diéresis , por ejemplo, Tür "puerta", en un texto, encontrará esa palabra si está allí. Si por el contrario la diéresis se representa con dos caracteres y buscas Tür , no lo encontrarás:
Die Tür ist offen. <= you will find "Tür" in this text
Die Tu¨r ist offen. <= you will not find "Tür" in this text
En Preview y Safari de Apple, pero también en la última versión de Adobe Acrobat Reader DC (18.011.20058), las diéresis en los documentos PDF se representan como dos caracteres (vocal más diéresis), mientras que en el mismo documento PDF , cuando lo abro en Firefox, Chrome o una versión anterior de Adobe Acrobat X Pro (10.1.16), se representan como un solo carácter.
¿Por qué es así y cómo puedo evitar las diéresis de dos caracteres cuando creo documentos PDF?
Si termina con 1 o 2 caracteres depende de cómo las aplicaciones y los procesos que está utilizando aplican la Normalización Unicode .
No sé si hay alguna forma de garantizar uno u otro, excepto quizás a través de una utilidad como UnicodeChecker .
Dado que las dos formas son equivalentes, un sistema de búsqueda competente debería encontrar cualquiera de ellas.
jaume
walter t
Natsfán
tom gewecke
jaume