记者从山东省工业和信息化局获悉,山东省将开展语料库发布和试点应用,重点关注高端装备、烟草制品业、农业及二次食品加工业、家具制造、木材加工、皮革、毛皮、羽毛及其制品和制鞋业、乐器制造和废弃资源综合利用业等行业,重点开展工业数据技术研究。重点是制定工业数据语料库标准,打造优质工业语料库,推广语料库应用场景。重大行业语料库出版项目重点编制重大制造企业的理论研究基础、研究开发与产品设计、生产管理运营、过程质量检验等关键环节和特定场景的知识语料库。NG工业。它是基于结构化数据(例如数据库中的表格数据)、非结构化数据(例如文本、图像、图片、音频等)和半结构化数据(例如日志文件、XML文件)的高质量语料库,通过清洗、去噪和统一格式化来支持自然语言处理、计算机视觉、机器学习和深度学习等任务,以满足大规模开发、训练和模型调优的需要。行业内的大型场景。模型。项目启动时,行业相关数据语料量超过10万条,数据质量高、领域覆盖广、潜在价值高、应用效果好。项目验收时必须通过第三方评估。同时,山东省正在推进各行业语料库项目,加快语料库资源优化整合,积极发布公共语料库。 (大众新闻记者H乌玉婷)