Evite las diéresis de dos caracteres en archivos PDF

explicación introductoria

Una diéresis es una vocal alemana, representada por escrito como una letra con dos puntos ( diéresis ) sobre la vocal básica. Ejemplos de diéresis son ä, ö y ü.

Estas tres letras se pueden representar en el texto como un solo carácter, por ejemplo, ü como Unicode U+00FC, o como dos caracteres: la vocal básica (por ejemplo, u, U+0075) y la diéresis combinada (¨, U + 0308 ).

Tanto la diéresis de un solo carácter como la diéresis de dos caracteres tienen el mismo aspecto en un documento PDF, pero su código subyacente es diferente. Esta animación muestra texto copiado del mismo (!) archivo PDF abierto en Firefox (arriba) y Vista previa (abajo) en un editor de texto sin formato (BBEdit) y luego elimina letras individuales:

ingrese la descripción de la imagen aquí

Cuando la diéresis se representa como un carácter y busca una palabra alemana con diéresis , por ejemplo, Tür "puerta", en un texto, encontrará esa palabra si está allí. Si por el contrario la diéresis se representa con dos caracteres y buscas Tür , no lo encontrarás:

Die Tür ist offen.  <= you will find "Tür" in this text
Die Tu¨r ist offen. <= you will not find "Tür" in this text

Pregunta

En Preview y Safari de Apple, pero también en la última versión de Adobe Acrobat Reader DC (18.011.20058), las diéresis en los documentos PDF se representan como dos caracteres (vocal más diéresis), mientras que en el mismo documento PDF , cuando lo abro en Firefox, Chrome o una versión anterior de Adobe Acrobat X Pro (10.1.16), se representan como un solo carácter.

¿Por qué es así y cómo puedo evitar las diéresis de dos caracteres cuando creo documentos PDF?

Hola Walter, bienvenido a Ask Different. Cuando escribes "Si por el contrario la diéresis se representa con dos caracteres y buscas Tür, no lo encontrarás", te refieres dentro de la aplicación (Preview, Adobe Reader, etc), o con Spotlight, o con ¿Terminal?
@jaume En la aplicación. La búsqueda en Spotlight funciona bien (ya que no es el archivo PDF el que tiene los caracteres incorrectos).
Cuando escribo ü es solo un carácter. Debe ser la aplicación utilizada para escribir inicialmente la prueba o tal vez no entiendo el problema bien planteado. Esto es completamente posible. Las diéresis creadas por mi Mac parecen ser un carácter en los ejemplos que he probado. Notas, Edición de texto, Vista previa y Páginas. Ni siquiera sé cómo crear diéresis de 2 caracteres. Espero que esto ayude un poco.
@jmh Puede crear diéresis de dos caracteres (y toneladas de cosas similares) usando el teclado extendido ABC para agregar diacríticos combinados a las letras base.
Hola Walter, ¿cuál es la versión de macOS que se ejecuta en tu Mac? ¿Puede cargar un documento PDF de este tipo en OneDrive o Dropbox y compartir el enlace? No he podido reproducir el problema con un documento PDF.

Respuestas (1)

Si termina con 1 o 2 caracteres depende de cómo las aplicaciones y los procesos que está utilizando aplican la Normalización Unicode .

No sé si hay alguna forma de garantizar uno u otro, excepto quizás a través de una utilidad como UnicodeChecker .

Dado que las dos formas son equivalentes, un sistema de búsqueda competente debería encontrar cualquiera de ellas.