zhaodi-Wen
/
illness_crawel
Public
-
Notifications
You must be signed in to change notification settings - Fork 0
-
Star 0
爬取网站 https://www.msdmanuals.com 的中文版,英文版和法语版内容
0
stars
0
forks
Branches
Tags
Activity
Star
Notifications
You must be signed in to change notification settings
zhaodi-Wen/illness_crawel
Branches Tags
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Latest commitHistory14 Commits | ||||
.idea | .idea | |||
Chinese | Chinese | |||
English | English | |||
French | French | |||
illness | illness | |||
orpha_rare_illness | orpha_rare_illness | |||
README.md | README.md | |||
getIllnessContent3.py | getIllnessContent3.py | |||
scrapy.cfg | scrapy.cfg | |||
Repository files navigation
2019.08.19
爬取网站 https://www.msdmanuals.com 的中文版,英文版和法语版内容
使用了scrapy框架和selenium框架
2020.02.2
添加网页r' https://medlineplus.gov/ency/ 的爬取
2020.04.23
添加了一个网页的 https://reference.medscape.com/drug/ 的爬取
本来打算使用dict将所有的网页的路径(保存在本地)和他的url形成一个字典,然后最后遍历这整个大dict下载文本
后面发现整个大的dict全部添加完要比较长的时间,需要进行4个大的for循环,
最后决定不保留dict,使用tuple记录每个路径和url,然后下载文本。
2024.02.18
添加了一个网页的 https://www.orpha.net/consor/cgi-bin/Disease_Search_List.php?lng=EN 的爬取
将所有的子url爬取后,使用dict保存 name 和 url,方便下载的时候以 name 为文件名保存爬取内容。使用线程池,边爬取边下载。
小tips
爬取网页按照顺序爬取的一个特别好的写法是
patt1 = re.compile(r'<p>(.*?)</p>|<li>(.*?)</li>|<h3>(.*?)</h3>|<h4>(.*?)</h4>', re.S)
subcontent = patt1.findall(str(subDiv))
原理是先用正则表达式将所要爬取的内容的tags全部先complile设置好,
然后使用findall查找已经解析出来的网页部分,这样获得的就是按照顺序的文本。
About
爬取网站 https://www.msdmanuals.com 的中文版,英文版和法语版内容
Resources
Readme
Activity
Stars
0
stars
Watchers
2
watching
Forks
0
forks
Report repository
Releases
No releases published
Packages 0
No packages published
Languages
- Python 100.0%