¿Qué pasuk en Tanach tiene la mayor cantidad de letras?

Estoy intentando construir una base de datos con cada pasuk en Tanach, estoy tratando de determinar el tamaño del varchar necesario para esto. ¿Qué pasuk es este y cuántas letras tiene?

¿Cuentas los espacios?
@DoubleAA Planeo hacer un programa de códigos de la Torá, así que supongo que necesito con y sin
¿Esa base de datos tuya está en Ksiv o en Ktiv?
Y, si puedo preguntar, ¿no existen ya esos programas? ¿En qué se diferenciaría el tuyo? Por ejemplo, ¿ya ha visto TORAWARE.COM?

Respuestas (2)

El verso en Tanaj con más palabras es Ester 8: 9 ( fuente ) con 43 palabras:

ויקראו ספרי המלך בעת ההיא בחדש השלישי הוא חדש סיון בשלושה ועשרים בו ויכתב ככל אשר צוה מרדכי אל היהודים ואל האחשדרפנים והפחות ושרי המדינות אשר מהדו ועד כוש שבע ועשרים ומאה מדינה מדינה ומדינה ככתבה ועם ועם כלשנו ואל היהודים ככתבם וכלשונם: ‏

Dado que estas palabras no parecen tan inusualmente cortas (y de hecho contienen una de las palabras más largas en Tanach האחשדרפנים) y el siguiente pasuk más largo tiene solo 41 palabras, supongo que este pasuk también tiene la mayor cantidad de letras, que según mi cuenta es 193 (235 si cuentas los espacios).

Esto no responde a su pregunta, pero en MySQL, un varchar no ocupa espacio adicional en el disco si lo hace más grande de lo necesario.

¿Está almacenando en UTF-8, UTF-8-MB4 o 8859-8? Los diferentes tipos ocupan diferentes cantidades de espacio. (3, 4 o 1 respectivamente, suponiendo que esté utilizando MySQL).

Entonces, es posible que solo desee hacer varchar (65535) y no preocuparse por eso.

Sin embargo, si anticipa muchas operaciones de clasificación, los varchars más grandes ocupan espacio de tabla temporal adicional, lo que puede ralentizar las cosas. Pero si ordena a través de un índice, esto no es un problema.

Hmm, me pregunto si este es el sitio de stackexchange incorrecto... :)

Además, si su fuente de datos tiene nekudos, el tamaño depende de si está almacenando el carácter compuesto o no. Si no están compuestos, debe duplicar el espacio para tener en cuenta los nekudos. (Aunque se prefieren los caracteres compuestos, por lo que debe convertirlos).

Bueno, técnicamente, un varchar 65535 ocupará un byte más que un varchar 255, pero de todos modos, mi principal preocupación es que si alguna vez necesito ordenarlo, se creará una tabla temporal enorme.
Sí, eso es correcto, pero dado que UTF-8 en hebreo toma dos bytes por carácter como mínimo (suponiendo que no haya nekudos), estoy bastante seguro de que superaría los 128 caracteres, por lo que necesita el byte adicional de todos modos. Una tabla temporal puede ser una preocupación, pero ¿realmente alguna vez ordenarás alfabéticamente por la primera letra de un pasuk? De lo contrario, no va a ser un problema. Para los códigos bíblicos, necesita una estructura de datos totalmente diferente, no cadenas.
No estoy de acuerdo con Ariel. ¿Ariel está tan seguro de que un programa no puede usar una matriz en lugar de una base de datos para hacer al menos un trabajo tan bueno?