Herramientas para capturar y convertir la web

¿Cómo GrabzIt convierte HTML a DOCX?

HTML puede representar muchas estructuras complicadas, como DIV en línea o SPAN, una al lado de la otra. Elementos HTML superpuestos y bordes aplicados a diferentes elementos HTML. En su mayor parte, esto no sería un enfoque sensato en DOCX mientras sería posible crear floatAl combinar elementos HTML con cuadros de texto, casi todo el contenido estaría contenido dentro de cuadros de texto, lo que daría como resultado un documento de Word muy feo y desordenado.

Es por esta cuestión que ignoramos la floating de elementos HTML y bordes de la mayoría de elementos HTML. Sin embargo, respetamos los bordes de algunos elementos HTML como las celdas de las tablas y la alineación de los elementos de la imagen, por ejemplo.

¿Significa esto que no puedes colocar contenido uno al lado del otro? No. Esto todavía es posible usando atributos CSS de columna, tablas HTML y tabulaciones como se describe a continuación.

Si desea que un documento HTML se capture exactamente como se muestra en la pantalla, sería mejor convertir el HTML a PDF ya que el formato de archivo PDF utiliza posicionamiento absoluto.

Tabulaciones

Tabulaciones son una característica DOCX especial que se activa si floatLos elementos HTML entrantes, con alineación de texto, están contenidos dentro de un elemento HTML de 100% de ancho que no tiene una alineación de texto específica en sí. Esto es importante ya que significa que no se debe aplicar la alineación normal a los elementos secundarios. Esto se hace usando text-align:start. Tenga en cuenta que las tabulaciones no funcionarán dentro de una tabla o lista.

Un ejemplo de esto se muestra a continuación.

<div style="width:100%;text-align:start">
   <div style="width:50%;text-align:left;float:left">Aligned One</div>
   <div style="width:50%;text-align:left;float:left">Aligned Two</div>
</div>

Idioma del texto

Para hacer que el texto del documento DOCX tenga un idioma particular. El HTML El elemento de etiqueta del documento HTML debe tener un lang atributo. U otro elemento HTML dentro del documento HTML, como un P La etiqueta debe tener un idioma especificado.

Si el elemento HTML secundario no tiene una etiqueta de idioma especificada, entonces el idioma vuelve al valor predeterminado del documento. Si no se especifica ninguno, se utiliza el inglés.