python读取word文件|python如何读取word文件

python读取word文件|python如何读取word文件的第1张示图

㈠ python3读取word文件到sqlite

大象关进冰箱需要两步走:

获取word文件内容将获取的内容拆分为对应的业务字段并写入sqlite中

首先我这有个文档,里面包含了驾照考试科四试题。

㈡ python读取已经打开的3个word和excle文件的路径

使用os.path.abspath()函数来获取文件绝对路径

文件目录结构如下:

㈢ python能打开word文档吗

首先下载安装win32comfrom win32com import client as wcword = wc.Dispatch('Word.Application')doc = word.Documents.Open('c:/test')doc.SaveAs('c:/test.text', 2)doc.Close()word.Quit()这种方式产生的text文档,不能用python用普通的r方式读取,为了让python可以用r方式读取,应当写成doc.SaveAs('c:/test', 4)注意:系统执行完成后,会自动产生文件后缀txt(虽然没有指明后缀)。在xp系统下面,应当,open(r'c:\text','r')wdFormatDocument = 0wdFormatDocument97 = 0wdFormatDocumentDefault = 16wdFormatDOSText = 4wdFormatDOSTextLineBreaks = 5wdFormatEncodedText = 7wdFormatFilteredHTML = 10wdFormatFlatXML = 19wdFormatFlatXMLMacroEnabled = 20wdFormatFlatXMLTemplate = 21 = 22wdFormatHTML = 8wdFormatPDF = 17wdFormatRTF = 6wdFormatTemplate = 1wdFormatTemplate97 = 1wdFormatText = 2wdFormatTextLineBreaks = 3wdFormatUnicodeText = 7wdFormatWebArchive = 9wdFormatXML = 11wdFormatXMLDocument = 12 = 13wdFormatXMLTemplate = 14 = 15wdFormatXPS = 18照着字面意思应该能对应到相应的文件格式,如果你是office 2003可能支持不了这么多格式。word文件转html有两种格式可选wdFormatHTML、wdFormatFilteredHTML(对应数字 8、10),区别是如果是wdFormatHTML格式的话,word文件里面的公式等ole对象将会存储成wmf格式,而选用 wdFormatFilteredHTML的话公式图片将存储为gif格式,而且目测可以看出用wdFormatFilteredHTML生成的HTML 明显比wdFormatHTML要干净许多。当然你也可以用任意一种语言通过com来调用office API,比如PHP.from win32com import client as wcword = wc.Dispatch('Word.Application')doc = word.Documents.Open(r'c:/test1.doc')doc.SaveAs('c:/test1.text', 4)doc.Close()import restrings=open(r'c:\test1.text','r').read()result=re.findall('\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)|\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)',strings)chan=re.sub('\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)|\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)','()',strings)question=open(r'c:\question','a+')question.write(chan)question.close()answer=open(r'c:\answeronly','a+')for i,a in enumerate(result): m=re.search('[A-D]',a) answer.write(str(i+1)+' '+m.group()+'\n')answer.close()chan=re.sub(r'\xa3\xa8\s*[A-D]\s*\xa3\xa9','()',strings)#不要(),容易引起歧义。

㈣ python如何读取word当中的控件的状态和信息

请注意,所有的程序在它们第一行都是#!/usr/bin/env/python,也就是说,我们想要Python的解释器来执行这些脚本。因此,如果你想你的脚本具有执行性,请使用chmod +x your-script.py, 那么你就可以使用./your-script.py来执行它了(在本文中你将会看到这种方式)探索platform模块platform模块在标准库中,它有很多运行我们获得众多系统信息的函数。让我们运行Python解释器来探索它们中的一些函数,那就从platform.uname()函数开始吧:>>> import platform>>> platform.uname()('linux', 'fedora.echorand', '3.7.4-204.fc18.x86_64', '#1 SMP Wed Jan 23 16:44:29 UTC 2013', 'x86_64')如果你已知道linux上的uname命令,那么你就会认出来这个函数就是这个命令的一个接口。在Python 2上,它会返回一个包含系统类型(或者内核版本),主机名,版本,发布版本,机器的硬件以及处理器信息元组(tuple)。你可以使用下标访问个别属性,像这样:>>> platform.uname()[0]'Linux'在Python 3上,这个函数返回的是一个命名元组:>>> platform.uname()uname_result(system='Linux', node='fedora.echorand',release='3.7.4-204.fc18.x86_64', version='#1 SMP Wed Jan 23 16:44:29UTC 2013', machine='x86_64', processor='x86_64')因为返回结果是一个命名元组,这就可以简单地通过名字来指定特定的属性,而不是必须记住下标,像这样:>>> platform.uname().system'Linux'platform模块还有一些上面属性的直接接口,像这样:>>> platform.system()'Linux'>>> platform.release()'3.7.4-204.fc18.x86_64'

㈤ python如何读取word文件中的文本内容并写入到新的txt文件

㈥ 如何在 Linux 上使用 Python 读取 word 文件信息

第一步:获取doc文件的xml组成文件import zipfiledef get_word_xml(docx_filename):with open(docx_filename) as f:zip = zipfile.ZipFile(f)xml_content = zip.read('word/document.xml')return xml_content第二步:解析xml为树形数据结构from lxml import etreedef get_xml_tree(xml_string):return etree.fromstring(xml_string)第三步:读取word内容:def _itertext(self, my_etree):"""Iterator to go through xml tree's text nodes"""for node in my_etree.iter(tag=etree.Element):if self._check_element_is(node, 't'):yield (node, node.text)def _check_element_is(self, element, type_char):word_schema = '99999'return element.tag == '{%s}%s' % (word_schema,type_char)

㈦ python如何读取word文件

>>>defPrintAllParagraphs(doc):count=doc.Paragraphs.Countforiinrange(count-1,-1,-1):pr=doc.Paragraphs[i].Rangeprintpr.Text>>>app=my.Office.Word.GetInstance()>>>doc=app.Documents[0]>>>PrintAllParagraphs(doc)1.什么是域域应用基础>>>@staticmethoddefGetInstance():u'''获取Word应用程序的Application对象'''importwin32com.clientreturnwin32com.client.Dispatch('Word.Application')

my.Office.Word.GetInstance的方法实现如上,是一个使用win32com操纵Word Com的接口的封装

所有Paragraph即段落对象,都是通过Paragraph.Range.Text来访问它的文字的

㈧ python如何获取word文件中某个关键字之后的表格

最好是全部都读取到程序中,在程序中进行判断。本文实例讲述了Python实现批量读取word中表格信息的方法。分享给大家供大家参考。具体如下:单位收集了很多word格式的调查表,领导需要收集表单里的信息,我就把所有调查表放一个文件里,写了个python小程序把所需的信息打印出来#coding:utf-8import osimport win32comfrom win32com.client import Dispatch, constantsfrom docx import Documentdef parse_doc(f):"""读取doc,返回姓名和行业"""doc = w.Documents.Open( FileName = f )t = doc.Tables[0] # 根据文件中的图表选择信息name = t.Rows[0].Cells[1].Range.Textsituation = t.Rows[0].Cells[5].Range.Textpeople = t.Rows[1].Cells[1].Range.Texttitle = t.Rows[1].Cells[3].Range.Textprint name, situation, people,titledoc.Close()def parse_docx(f):"""读取docx,返回姓名和行业"""d = Document(f)t = d.tables[0]name = t.cell(0,1).textsituation = t.cell(0,8).textpeople = t.cell(1,2).texttitle = t.cell(1,8).textprint name, situation, people,titleif __name__ == "__main__":w = win32com.client.Dispatch('Word.Application')# 遍历文件PATH = "H:\work\\aaa" # windows文件路径doc_files = os.listdir(PATH)for doc in doc_files:if os.path.splitext(doc)[1] == '.docx':try:parse_docx(PATH+'\\'+doc)except Exception as e:print eelif os.path.splitext(doc)[1] == '.doc':try:parse_doc(PATH+'\\'+doc)except Exception as e:print e希望本文所述对大家的Python程序设计有所帮助。

㈨ 如何用python读取word

使用Python的内部方法open()读取文本文件

try:f=open('/file','r')print(f.read())finally:iff:f.close()

如果读取word文档推荐使用第三方插件,python-docx 可以在官网上下载

使用方式

#-*-coding:cp936-*-importdocxdocument=docx.Document(文件路径)docText=''.join([paragraph.text.encode('utf-8')forparagraphindocument.paragraphs])printdocText

㈩ python 读取word页内容

f=file(yourpath)for line in f: t = line.split("==") part_1 = t[0] + "==" (part_2,part_3) = t[1].split("–") del t print "第一段:%s\t第二段:%s\t第三段:%s" %(part_1,part_2,part_3)

未经允许不得转载:山九号 » python读取word文件|python如何读取word文件

赞 (0)