首页 >要闻 > > 正文

每日信息:支持开票 | Python实证指标构建与文本分析

2022-12-23 12:13:57

LovelyPlots库 | 格式化科学论文、论文和演示文稿的可视化图形


(相关资料图)

付费课程 |支持开票|购前咨询 微信372335839概览为何要学Python?

在科学研究中,数据的获取及分析是最重要的也是最棘手的两个环节!

在前大数据时代,一般使用实验法、调查问卷、访谈或者二手数据等方式,将数据整理为结构化的表格数据,之后再使用各种计量分析方法,对这些表格数据进行分析。但大数据时代,网络数据成为各方学者亟待挖掘的潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中。那么对于经管为代表的人文社科类专业科研工作者而言,通过Python可以帮助学者解决使用Web数据进行科研面临的两个问题:

网络爬虫技术解决 如何从网络世界中高效地采集数据?文本分析技术解决 如何从杂乱的文本数据中 抽取文本指标(变量)?一、Python语法入门

Python跟英语一样是一门语言

数据类型之字符串

数据类型之列表元组集合

数据类型之字典

数据类型之布尔值、None

逻辑语句(if&for&tryexcept)

列表推导式

理解函数

常用的内置函数

内置库文件路径pathlib库

内置库csv文件库

内置库正则表达式re库

初学python常出错误汇总

二、数据采集

网络爬虫原理

网络访问requests库

网页解析pyquery库

案例豆瓣读书

案例Boss直聘

如何解析json数据

案例豆瓣电影

案例京东商城

案例用爬虫下载文档及多媒体文件

案例上市公司定期报告pdf批量下载

案例上交所招股说明pdf批量下载

案例深交所招股说明pdf批量下载

爬虫知识点总结

三、初识文本分析

从编码/解码视角重新理解文本

读取不同格式文件中的数据

如何将多个txt文件整理到一个excel中

案例中文分词及数据清洗

案例词频统计&词云图

案例共现法扩展情感词典(领域词典)

案例词向量word2vec扩展领域词典

案例中文情感分析(词典法)

cntext库 情感分析代码操作

案例对excel中的文本进行情感分析 91

案例 语言具体性与心理距离 | 以JCR2021论文为例

案例 使用MD&A数据测量企业数字化| 以管理世界2021、财经研究2022论文为例

四、机器学习与文本分析

了解机器学习ML

使用机器学习做文本分析的流程

scikit-learn机器学习库简介

文本特征抽取(特征工程)

案例在线评论文本分类

使用标注工具对数据进行标注

案例计算文本情感分析(有权重)

案例 文本相似性计算

案例 使用文本相似性识别变化(政策连续性)

案例 Kmeans聚类算法

案例 LDA话题模型

使用机器学习从图片中提取文本信息

五、词嵌入与认知

词嵌入原理及应用概述

案例 豆瓣影评-训练词向量&使用词向量

案例 使用词向量做话题建模

案例 认知指标(态度、偏见等)的测量

总结-文本分析在社科(经管)领域中的应用

相关文献

在这里我把技术细分为词频、词袋、w2v建词典、w2v认知变迁四个维度,整理了经管7篇论文。大家可以阅读这7篇论文,掌握文本分析的应用场景。

[1]沈艳,陈赟,&黄卓.(2019).文本大数据分析在经济学和金融学中的应用:一个文献综述.经济学(季刊),18(4),1153-1186.[2]王伟,陈伟,祝效国,王洪伟.众筹融资成功率与语言风格的说服性-基于Kickstarter的实证研究.*管理世界*.2016;5:81-98.[3]胡楠,薛付婧,王昊楠.管理者短视主义影响企业长期投资吗?——基于文本分析和机器学习[J].管理世界,2021,37(05):139-156+11+19-21.[4]KaiLi,FengMai,RuiShen,XinyanYan,MeasuringCorporateCultureUsingMachineLearning,*TheReviewofFinancialStudies*,2020[5]LoughranT,McDonaldB.Textualanalysisinaccountingandfinance:Asurvey[J].*JournalofAccountingResearch*,2016,54(4):1187-1230.AuthorlinksopenoverlaypanelComputationalsocioeconomics[6]Berger,Jonah,AshleeHumphreys,StephanLudwig,WendyW.Moe,OdedNetzer,andDavidA.Schweidel."Unitingthetribes:Usingtextformarketinginsight."*JournalofMarketing*84,no.1(2020):1-25.[7]Cohen,Lauren,ChristopherMalloy,andQuocNguyen."Lazyprices."*TheJournalofFinance*75,no.3(2020):1371-1415.[8]孟庆斌,杨俊华,鲁冰.管理层讨论与分析披露的信息含量与股价崩盘风险——基于文本向量化方法的研究[J].*中国工业经济*,2017(12):132-150.[9]Wang,Quan,BeibeiLi,andParamVirSingh."Copycatsvs.OriginalMobileApps:AMachineLearningCopycat-DetectionMethodandEmpiricalAnalysis."*InformationSystemsResearch*29.2(2018):273-291.[10]Packard,Grant,andJonahBerger.“Howconcretelanguageshapescustomersatisfaction.”_JournalofConsumerResearch_47,no.5(2021):787-806.[11]冉雅璇,李志强,刘佳妮,张逸石.大数据时代下社会科学研究方法的拓展——基于词嵌入技术的文本分析的应用[J].南开管理评论:1-27.[12]曾庆生,周波,张程,陈信元.年报语调与内部人交易:“表里如一”还是“口是心非”?[J].管理世界,2018,34(09):143-160.[13]彭红枫,&林川.(2018).言之有物:网络借贷中语言有用吗?——来自人人贷借款描述的经验证据[J].金融研究,461(11),133-153.[14]吴非,胡慧芷,林慧妍,and任晓怡.“企业数字化转型与资本市场表现——来自股票流动性的经验证据[J].”管理世界(2021).

免费公开资料-社会科学文本挖掘资料汇总

公众号和博客积累了大量社会科学文本挖掘资料,涵盖文本分析概念、技术、代码、数据等。全部理清楚感兴趣的可以关注收藏。

https://hidadeng.github.io/blog/the_text_analysis_list_about_ms/

文献类

读完本文你就了解什么是文本分析

转载 | 金融学文本大数据挖掘方法与研究进展

视频 | Python文本分析与会计

视频 |文本分析在经管研究中的应用

视频| Python文本挖掘与金融科技

资料 | 量化历史学与经济学研究

近年《管理世界》《管理科学学报》使用文本分析论文

管理世界 | 使用中文LM金融词典做管理层语调分析

管理世界 | 使用文本分析&机器学习测量短视主义

管理世界 | 使用 经营讨论与分析 测量 企业数字化指标

文本分析在市场营销研究中的应用

营销研究中文本分析应用概述(含案例及代码)

计算文本的语言具体性 | 以JCR2021论文为例

文本分析方法在2021管理世界中的应用

转载 | 大数据时代下社会科学研究方法的拓展——基于词嵌入技术的文本分析的应用

文本可读性研究及应用清单

词嵌入测量不同群体对某概念的态度(偏见)

PNAS | 文本网络分析&文化桥梁Python代码实现

PNAS | 历史语言记录揭示了近几十年来认知扭曲的激增

PNAS | 情侣分手3个月前就有预兆!聊天记录还能反映分手后遗症

PNAS|词汇熟悉度对线上参与和资金筹集的预测性效用

MS | 使用网络算法识别创新的颠覆性与否

文本可读性研究及应用清单

代码类

Python语法入门 | 含视频代码

30天Python编程学习挑战

中文金融情感词典

在会计研究中使用Python进行文本分析

Python与文化分析入门

免费社科类Python编程课程列表

tomotopy库 | 速度最快的LDA主题模型

cntext库 | 中文情感分析包

认知的测量 | 向量距离vs语义投影

BERTopic主题建模库

doccano|为机器学习建模做数据标注

PyPlutchik库 | 可视化文本的情绪轮(情绪指纹)

WordBias库 | 发现偏见(刻板印象)的交互式工具

whatlies库 | 可视化词向量

KeyBERT | 关键词发现库

FinBERT | 金融文本BERT模型,可情感分析、识别ESG和FLS类型

Top2Vec | 主题建模和语义搜索库

tfidf有权重的情感分析

Shifterator库 | 词移图分辨两文本用词风格差异

使用Pandas处理文本数据

Label-Studio|多媒体数据标注工具

工具分享 | 正则表达式解析

EmoBank | 中文维度情感词典

Maigret库 | 查询某用户名在各平台网站的使用情况

百度指数 | 使用qdata采集百度指数

Asent库 | 英文文本数据情感分析

安装python包出现报错:Microsoft Visual 14.0 or greater is required. 怎么办?

Python | 词移距离(Word Mover"s Distance)

豆瓣影评| 探索词向量妙处

karateclub库 | 计算社交网络中节点的向量

causalinference库 | 使用Python做因果推断

机器学习实战 | 信用卡欺诈检测

实战 | 构建基于客户细分的 K-Means 聚类算法!

nlp-roadmap | 文本分析知识点思维脑图

R语言 | ggplot2简明绘图之散点图

R语言 | 使用posterdown包制作学术会议海报

R语言 | 使用ggsci包绘制sci风格图表

R语言 | ggpubr包让数据可视化更加优雅

R语言 | 让统计更easy的easystats集合包

R语言 | 使用shiny的reactive表达式写应用程序

R语言 | 使用stargazer包输出格式化回归结果

R语言 | 使用word2vec词向量模型

Latex | 为Rmarkdown配置tinytex环境

LovelyPlots库 | 格式化科学论文、论文和演示文稿的可视化图形

数据集

YelpDaset | 酒店管理类数据集10+G

70G上交所年报数据集

14G数据集 | 2007-2021年A股上市公司年度报告(txt文件)

17G资源 | 深交所企业社会责任报告

27G数据集 | 使用Python对27G招股说明书进行文本分析

1850万条 | 世界地图POI兴趣点数据集

1.5G数据集 | 200万条Indiegogo众筹项目信息

12G数据集 | 23w条Kickstarter项目信息

中文语义常用词典 | ChineseSemanticKB

中文词向量资源汇总 & 使用方法

NLP资源 | 汽车、金融等9大领域预训练词向量模型下载资源

Google Books Ngram Viewer显示英文词汇历史使用趋势

上一篇: 下一篇:
x
推荐阅读

每日信息:支持开票 | Python实证指标构建与文本分析

2022-12-23

【世界新要闻】奇才用八村报价克劳德遭拒 太阳想换首发级别球员

2022-12-23

每日速讯:大湖股份: 大湖水殖股份有限公司独立董事关于第八届董事会第二十五次会议相关事项的独立意见

2022-12-22

非法买卖部队证件,买卖双方均获刑 全球今热点

2022-12-22

网贷逾期44年暂时还不起会怎么样 天天滚动

2022-12-22

环球聚焦:美国驻北约大使鼓吹中俄破坏北约统一,外交部回应

2022-12-21

美众议院要求公布特朗普近6年税表详细内容 世界讯息

2022-12-21

动态:漫步者: 防范大股东及关联方资金占用专项制度

2022-12-21

大北农跌7.12%,天风证券一个月前给出“买入”评级,目标价16.00元

2022-12-20

全球讯息:甬矽电子董秘回复:公司产品的毛利率受产业周期、原材料采购价格、工艺技术、客户结构等多种因素的影响

2022-12-20

业务流程建模,细到几层?

2022-12-19

31省份累计报告接种新冠病毒疫苗345749.1万剂次-当前动态

2022-12-19

仁和药业董秘回复:只要是对公司有利的商业行为,在合法合规前提下,公司都秉持积极的心态去操作

2022-12-19

平桥区:线上调解“云办案” 司法为民“在指尖”_每日头条

2022-12-18

被判死刑缓刑是什么意思,有重大立功表现的怎样办, 天天快报

2022-12-18

关注:江湛线列车推出“小候鸟”乐园服务 营造良好乘车氛围

2022-12-17

佐力药业: 关于聘任公司高级管理人员的公告

2022-12-16

楚环科技(001336)12月16日主力资金净卖出412.71万元

2022-12-16

润阳科技(300920)12月15日主力资金净买入397.55万元-动态焦点

2022-12-16

商丘交警一大队火车站中队组织外卖企业开展“一盔一带”宣传活动 全球讯息

2022-12-15

凯盛新材董秘回复:截止2022年12月9日,公司股东人数为22216人-速讯

2022-12-15

今日热文:华致酒行(300755)12月14日主力资金净买入1531.69万元

2022-12-15

恒华科技获40家机构调研:公司目的不在于持有新能源资产,而是专注于运用自主可控的工业软件平台在新能源资产数字化运维方面的服务,来获得持续稳健收益和利润(附调研问答)|焦点简讯

2022-12-14

泰瑞机器:泰瑞机器是注塑机制造商及智能注塑解决方案提供商

2022-12-14

资讯推荐:软中华多少钱一条价格表(新版扁盒中华100元叫什么)

2022-12-14

当前要闻:东海证券:线下家电门店客流有望渐进恢复

2022-12-13

【环球报资讯】欧盟盯上Teams 微软拟让步避免反垄断调查

2022-12-13

莱茵生物(002166):公司董事减持计划时间过半未减持股份 全球动态

2022-12-12

天天速递!助企纾困加力 多地落实落细系列税费支持政策

2022-12-12

全球热文:广州出台18条措施加快先进制造业项目投资建设

2022-12-10

焦点简讯:Vail Resorts(MTN.US):2023年Q1财报实现营收2.794亿美元

2022-12-09

复旦微电: 关于2021年限制性股票激励计划首次授予部分第一个归属期归属条件成就的公告

2022-12-07

世界观察:万朗磁塑(603150):于公司会议室举行投资者关系活动

2022-12-06

山东推出文化体验主题旅游产品 推出多种旅游惠民措施

2022-05-22

唐山加快验收时间 为建筑工地开复工保驾护航

2022-03-19

消费者“身材焦虑” 减肥市场疯狂吸金

2022-03-19

2月份秦皇岛新建商品住宅销售价格环比下降0.2% 同比下降4%

2022-03-19

深圳技术进出口全年合同数量共1347项 同比增长2.51%

2022-03-19

邢台柏乡:打造羊肚菌产业示范带 引领村级集体经济发展

2022-03-19

胡金秋32分17板 浙江广厦男篮“双杀”稠州金租

2022-03-19

新疆北部有降雪 湖北、湖南等地出现大雾

2021-12-13

黑龙江新增本土核酸检测初筛阳性人员5例 均在讷河市

2021-12-13

“恋爱盲盒”抽的不是爱情,是急功近利的心

2021-12-13

北京12月12日新增2例境外输入确诊病例

2021-12-13

满洲里本轮疫情社会面“清零”,迎来拐点!

2021-12-13

北京今日晴冷在线气温低 本周中后期或再遭冷空气侵袭

2021-12-13

近六成受访大学生表示自己不能脱离表情包

2021-12-13

停车费上涨,昆明部分医院停车难缓解了吗?

2021-12-13

救人快递小哥:我不想成为网红 将继续踏实工作

2021-12-13

野猪拟从“三有”野生动物名录中除名

2021-12-13

“三有”名录删除野猪,要把握好捕杀与保护的度

2021-12-13

齐齐哈尔讷河发现5例核酸检测初筛阳性人员

2021-12-13

野猪退出“三有”名录不是一道“滥捕滥杀令”

2021-12-13

网红蹭“遗孤”流量是变相吃“血馒头”

2021-12-13

演员涂们病逝 曾被称为“草原王爷专业户”

2021-12-13

被偷走的那些年:被拐14年后他们成夹在中间的孩子

2021-12-13

文峰道歉:官微官网整改,10个工作日内对接预付卡备案

2021-12-13

山东烟台海域货船沉没已致9人遇难 搜救仍在进行

2021-12-13

浙江绍兴累计报告确诊病例107例 无症状感染者1例

2021-12-13

第三届国际白鹤论坛举办 中外专家聚焦生物多样性保护

2021-12-13

浙江绍兴本轮疫情已累计报告107例确诊病例

2021-12-13

“零容忍” 浙江宁波公安机关将严厉打击涉疫违法犯罪行为

2021-12-13

宁波镇海疫情未发生外溢 44例感染者均在蛟川街道管控区内

2021-12-13

来华留学生游梵净山 感知贵州多彩文化

2021-12-13

货船触礁进水 福建海警成功营救6名船员

2021-12-13

战“疫”时刻:浙江疫情下的“特殊”二三事

2021-12-13

浙江宁波44人已确诊 年龄最小为2岁 最大为70岁

2021-12-13

浙江宁波此轮疫情病毒为德尔塔变异株(AY.4 进化分支)华沙株

2021-12-13

南粤古驿道徒步体验活动(西京古道站)韶关举行

2021-12-13

上海试点驾驶证“学法减分” 一年最多减6分

2021-12-13

河南周口发布公告 明确过节确需返乡应提前3天报备

2021-12-13

浙江越城区新增1例确诊病例 系上虞区病例的密接者

2021-12-13

浙江已报告阳性感染者139例 明确严控跨省出行

2021-12-13

第二届鄱阳湖国际观鸟周在“中国候鸟小镇”江西吴城开幕

2021-12-13

“酥油茶‘遇见’咖啡,好比空气中飘着香水味”

2021-12-13

西安新增1例本土确诊病例 活动轨迹公布

2021-12-13

浙江三地病例感染病毒均属于德尔塔变异株

2021-12-13

山东烟台海域一载有14人货船沉没 9人已无生命体征

2021-12-13

浙江严控跨省出行 中高风险地区人员严格限制出行

2021-12-13

陕西西安一诊所工作人员确诊 8份核酸检测环境样本结果呈阳性

2021-12-13

浙江绍兴越城区在集中隔离点发现1名核酸检测阳性感染者

2021-12-13

截至12日15时 西安已追踪管控密切接触者486人

2021-12-13

陕西西安一诊所工作人员被诊断为确诊病例 活动轨迹公布

2021-12-13

抗疫特写:交通封控后的上虞“24小时”

2021-12-13

居家观察期间擅自离开封控区域 浙江上虞警方处罚3人

2021-12-13

杭州发布致市民公开信:非必要不流动 少聚集

2021-12-13

满洲里新冠肺炎救治感控督导组:“战事”越严峻 越要教会大家如何躲“子弹”

2021-12-13

浙江宁波、绍兴和杭州三地累计新冠肺炎确诊病例138例

2021-12-13

宁波镇海疫情下的“产科故事”:三天迎来28个宝宝

2021-12-13

内蒙古满洲里核酸检测累计检出阳性样本532份

2021-12-13

内蒙古满洲里新增确诊病例3例

2021-12-13

银川一企业为社区防疫人员捐赠“黑心棉”大衣被查处

2021-12-13

重庆15家医疗美容机构被立案调查

2021-12-13

四川泸州市泸县发生3.0级地震 震源深度8千米

2021-12-13

物资如何安全运抵封闭城区?浙江镇海内外联动保供应

2021-12-13

广西宁明县实施分区分级防控 非必要不离县

2021-12-13

江西吉安发现1例境外输入新冠病毒核酸检测阳性

2021-12-13

一货船在烟台海域沉没 3人获救4人遇难7人失联

2021-12-13

【挑战365天正能量速写画】第012期:为了陌生人赴汤蹈火

2021-12-13

守望下一个春天——疫情中的“冰城人”侧记

2021-12-13