Java 提取Word中的文本和图片

2025-11-18 15:52:36

1、方法1:从官网(https://www.e-iceblue.cn/Downloads/Spire-Doc-JAVA.html)下载jar包。在程序下新建一个directory目录,并命名裕薪(本示例中命名为lib);将控件包lib文件夹下的jar(如下图1)拷贝到程序中新建的目录下。复制jar文件后救脾,鼠标右键点击jar文件,选择”Add as Library”。完成导入肥敏轿(如下图2)。

Java 提取Word中的文本和图片

Java 提取Word中的文本和图片

2、方法2:通过maven导入。参考导入方法(https://www.e-iceblue.cn/licensing/install-spirepdf-for-java-from-maven-repository.html )。

1

Java 提取Word中的文本和图片

1、import com.spire.doc.*;

import java.io.FileWriter;

import java.io.IOException;

public class ExtractText {

    public static void main(String[] args) throws IOException{

        //加载测试文档

        Document doc = new Document();

        doc.loadFromFile("test.docx");

        //获取文本保存为String

        String text = doc.getText();

        //将String写入Txt

        writeStringToTxt(text,"提取文本.txt");

    }

    public static void writeStringToTxt(String content, String txtFileName) throws IOException {

        FileWriter fWriter= new FileWriter(txtFileName,true);

        try {

            fWriter.write(content);

        }catch(IOException ex){

            ex.printStackTrace();

        }finally{

            try{

                fWriter.flush();

                fWriter.close();

            } catch (IOException ex) {

                ex.printStackTrace();

            }

        }

    }

}

2、文本提取结果:

Java 提取Word中的文本和图片

1、import com.spire.doc.Document;

import com.spire.doc.documents.DocumentObjectType;

import com.spire.doc.fields.DocPicture;

import com.spire.doc.interfaces.ICompositeObject;

import com.spire.doc.interfaces.IDocumentObject;

import javax.imageio.ImageIO;

import java.awt.image.RenderedImage;

import java.io.File;

import java.io.IOException;

import java.util.ArrayList;

import java.util.LinkedList;

import java.util.List;

import java.util.Queue;

public class ExtractImg {

    public static void main(String[] args) throws IOException {

        //加载Word文档

        Document document = new Document();

        document.loadFromFile("test.docx");

        //创建Queue对象

        Queue nodes = new LinkedList();

        nodes.add(document);

        //创建List对象

        List images = new ArrayList();

        //遍历文档中的子对象

        while (nodes.size() > 0) {

            ICompositeObject node = (ICompositeObject) nodes.poll();

            for (int i = 0; i < node.getChildObjects().getCount(); i++) {

                IDocumentObject child = node.getChildObjects().get(i);

                if (child instanceof ICompositeObject) {

                    nodes.add((ICompositeObject) child);

                    //获取图片并添加到List

                    if (child.getDocumentObjectType() == DocumentObjectType.Picture) {

                        DocPicture picture = (DocPicture) child;

                        images.add(picture.getImage());

                    }

                }

            }

        }

        //将图片保存为PNG格式文件

        for (int i = 0; i < images.size(); i++) {

            File file = new File(String.format("图片-%d.png", i));

            ImageIO.write((RenderedImage) images.get(i), "PNG", file);

        }

    }

}

2、图片提取结果:

Java 提取Word中的文本和图片

声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
猜你喜欢