在“小叮当python人工智能篇:轻松获得英语课本电子版”中,已为大家分享通过人工智能的图文识别方法拿到英语课本的电子版。
其思路是:通过课后网址---拍照到电脑---人工智能图文识别---获得大体正确的网址---人工对比修正---获得正确网址---访问网址---将内容复制粘贴到本地---获得课文电子版
但是,这种方法仍需要我们通过网址访问后,进行手工粘贴复制内容到本地。当课文多时,那也可真是累成狗!
难道我们必须手工复制粘贴?答案当然还是:不存在的!
都人工智能新时代了,这种机械重复的工作就交给计算机来完成吧。
而我们人类,应该过上舒服惬意而又快乐的生活。
所以,我们可以通过语法简单、代码简洁、容易上手的python代码来为我们工作,使我们从大量的简单机械重复性的工作中解脱出来!
通过“小叮当python人工智能篇:轻松获得英语课本电子版”中的方法,我们已经可以轻松快速的拿到Unit1、Unit5单元的TextA和TextB的访问网址。
曾有伟人说过,“世界上怕就怕认真二字!”
而IT小叮当就最讲究认真二字!我们得到的网址是否都对应着英文课本呢?
经过对比,果然发现有一个与课文内容不相符的网址——“url_unit5_texta”
此时我们仍利用“小叮当python人工智能篇:轻松获得英语课本电子版”中的方法识别课文标题。将识别出来的标题放入百度中进行搜索,果然立马就找到一个与课文相符的网址。
我们将网址复制粘贴给变量“url_unit5_texta,此时,我们已得到正确访问的课文网址。
下面,我们就以unit1-texta为例,为大家分享怎样通过python让计算机为我们将英语课文自动写入word。
Step1.拿到课文所在网页内容
Step2.获取课文内容
经分析发现,课文标题在一个class为“pageTitle”的h2标签中。
课文内容在p标签下。
我们通过简单的正则表达式即可拿到课文标题和内容。
但我们发现,此时的英文课文中还有一些“br/换行标签等的格式标签存在。我们使用正则去掉,从而将标签去掉。
但此时我们发现,还有一种特殊字符存在,形如“rsquo”之类的html字符实体。
我们使用python中的html库,将其转化为相应的字符。
可以看到使用html库解析后,我们已得到不含特殊字符干扰的英文课文。
Step3.将英语课文写入word中
我们先新建一个名为“0英语课文电子版”的文件夹,用来存储我们将要写成word的英语课文。
建好存储的文件夹后,我们来让python为我们自动写入英语课文,并保存为word形式。可以看到,程序运行前,该文件夹为空。
执行程序后,我们建的文件夹下便多了一个“unit1-texta.doc的文件。可见,程序已帮我们自动写好word文件。
双击打开后,提示选择文档编码,默认选择为utf-8,我们点击确定即可。
到此,我们已成功实现将获得的英语课文写入word之中。
虽然,我们已成功将英文课文写入word中,但我们更需要的是获得它的汉语翻译。
由于今天四六级监考,时间有限,小叮当将在“小叮当python人工智能篇:让Google为我们自动翻译英语课文!”为大家分享怎样让Goole为我们自动翻译出英语课文。