Programa para eliminar caracteres especiales no ascii de archivos de texto grandes

Question

Programa para eliminar caracteres especiales no ascii de archivos de texto grandes

ventanas
Software
editor de texto
procesamiento de texto

Ray Crush

Tengo archivos de texto de más de 100 MB de tamaño y tienen muchos caracteres especiales. No puedo importarlos a mi DBMS porque PostgreSql no reconoce estos caracteres. ¿Cómo puedo eliminarlos? ¿Qué software hace esto?

Actualmente estoy usando EmEditor pero tengo que encontrar caracteres especiales manualmente y reemplazarlos todos. Hay toneladas de ellos. Más de 10k. Estoy en Windows.

jonas stein

¿Tiene acceso a una máquina Linux? Sería una sola línea de comando en Linux, si puede iniciarlo, por ejemplo, con un Live CD

Respuestas (2)

Programa para eliminar caracteres especiales no ascii de archivos de texto grandes

¿Tiene acceso a una máquina Linux? Sería una sola línea de comando en Linux, si puede iniciarlo, por ejemplo, con un Live CD

steve barnes · Answer 1

Una secuencia de comandos de python muy simple , o incluso desde una sesión interactiva de terminal/línea de comando , podría leer desde un archivo de entrada y escribir en un archivo de salida mientras cambia la codificación a ASCII; tendría la opción de qué hacer con los caracteres no conformes de :

ignorar omitir ninguno caracteres ascii
reemplazar con?
xmlcharrefreplace la salida en un formato comoꀀ
barra invertida reemplazar la salida en un formato como\\ua000
salida namereplace en un formato como \\N{YI SYLLABLE IT}donde los nombres están disponibles.

El código, en Python 3 sería algo así como, sin probar :

with open('somefilename') as infile: # You may need to add 'rb' to the open command
   with open('outname', 'wt') as outfile:  # You may need to use 'wb' here
      outfile.write(infile.read().encode('ascii', 'backslashreplace'))

El código anterior leerá el archivo de entrada, lo transcodificará y lo escribirá; también podría, para un archivo grande, especificar un tamaño de búfer máximo en el readmétodo.

Consulte https://docs.python.org/3/howto/unicode.html para obtener más detalles.

Python es gratuito, gratuito y de código abierto, y está disponible para casi todas las plataformas, está preinstalado en la mayoría de las plataformas que no son de Windows .

Rprograma · Answer 2

Instale el editor CudaText .

Llame al elemento de menú "Complementos - Crear complemento"
Ingrese el nombre del complemento "MyRemove" e ingrese el nuevo texto del complemento a continuación.
Guarde, reinicie CudaText, aparece el nuevo complemento "Complementos - MyRemove".
Abra su archivo con no ASCII
Ejecutar complemento
Guardar archivo como...

Texto del complemento:

from cudatext import *

class Command:
    def run(self):
        s=ed.get_text_all()
        for i in range(32):
            if not i in [10,13,9]:
                s=s.replace(chr(i), '')
        ed.set_text_all(s)

Programa para eliminar caracteres especiales no ascii de archivos de texto grandes

Ray Crush

jonas stein

Respuestas (2)

steve barnes

Rprograma

¿Existe un programa para copiar directorios de rutas de carpetas completas?

Editor de texto sin formato de Windows que permite poner en negrita/cursiva/sangría

Editor de texto que ocupa más de 10 gb

¿Qué editores de texto funcionan como el bloc de notas para Windows pero con funciones adicionales para un novato?

¿Algún editor de texto donde pueda colapsar (doblar) la matriz PHP?

Editor Markdown para Windows con representación en vivo en el panel de edición, NO en un panel de vista previa separado

Editor de texto de Windows con celdas

¿Hay algún editor de texto de Windows que permita abrir enlaces en el texto en modo incógnito del navegador?

Software para comparar dos archivos de texto o html diferentes

Editor de código independiente del idioma con funciones avanzadas de formato/resaltado