热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

使用awk从文件创建单词索引-Useawktocreateindexofwordsfromfile

ImlearningUNIXforschoolandImsupposedtocreateacommandlinethattakesatextfileandge

I'm learning UNIX for school and I'm supposed to create a command line that takes a text file and generates a dictionary index showing the words (exluding articles and prepositions) and the lines where it appears in the file.

我正在学习UNIX for school,我应该创建一个命令行,它接受一个文本文件并生成一个字典索引,显示单词(包括文章和介词)以及它在文件中出现的行。

I found a similar problem as mine in: https://unix.stackexchange.com/questions/169159/how-do-i-use-awk-to-create-an-index-of-words-in-file?newreg=a75eebee28fb4a3eadeef5a53c74b9a8 The problem is that when I run the solution

我发现了类似的问题:https://unix.stackexchange.com/questions/169159/how-do-i-use-awk-to-create-an-index-of-words-in-file?newreg = a75eebee28fb4a3eadeef5a53c74b9a8问题是当我运行解决方案时

$ awk '
{
  gsub(/[^[:alpha:] ]/,"");
  for(i=1;i<=NF;i++) {
      a[$i] = a[$i] ? a[$i]", "FNR : FNR;
  }
}
END {
      for (i in a) {
          print i": "a[i];
      }
}' file | sort

The output contains special characters (which I don't want) like:

输出包含特殊字符(我不想要),如:

-Quiero: 21
Sancho,: 2, 4, 8

How can I remove all the special characters and excluding articles and prepositions?

如何删除所有特殊字符并排除文章和介词?

1 个解决方案

#1


2  

$ echo This is this test. |                    # some test text
awk '
BEGIN{
    x["a"];x["an"];x["the"];x["on"]            # the stop words
    OFS=", "                                   # list separator to a
}
{
    for(i=1;i<=NF;i++)                         # list words in a line
        if($i in x==0) {                       # if word is not a stop word
            $i=tolower($i)                     # lowercase it
            gsub(/^[^a-z]|[^a-z]$/,"",$i)      # remove leading and trailing non-alphabets
            a[$i]=a[$i] (a[$i]==""?"":OFS) NR  # add record number to list
        }
    }
END {                                          # after file is processed
    for(i in a)                                # in no particular order
        print i ": " a[i]                      # ... print elements in a
}'
this: 1, 1
test: 1
is: 1

推荐阅读
  • 2018-2019学年第六周《Java数据结构与算法》学习总结
    本文总结了2018-2019学年第六周在《Java数据结构与算法》课程中的学习内容,重点介绍了非线性数据结构——树的相关知识及其应用。 ... [详细]
  • 实用正则表达式有哪些
    小编给大家分享一下实用正则表达式有哪些,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下 ... [详细]
  • 本文探讨了如何通过预处理器开关选择不同的类实现,并解决在特定情况下遇到的链接器错误。 ... [详细]
  • 并发编程 12—— 任务取消与关闭 之 shutdownNow 的局限性
    Java并发编程实践目录并发编程01——ThreadLocal并发编程02——ConcurrentHashMap并发编程03——阻塞队列和生产者-消费者模式并发编程04——闭锁Co ... [详细]
  • 主调|大侠_重温C++ ... [详细]
  • 本文详细介绍了如何在Linux系统中创建和管理DB2数据库,包括用户切换、数据库创建、错误处理、连接与断开、表空间和缓冲池的创建,以及用户权限管理和数据导入导出等操作。 ... [详细]
  • 本文将指导如何向ReactJS计算器应用添加必要的功能,使其能够响应用户操作并正确计算数学表达式。 ... [详细]
  • 请看|间隔时间_Postgresql 主从复制 ... [详细]
  • 本文探讨了在QT框架中如何有效遍历文件内容,并解决了一个常见的错误,即文件内容读取为空时弹窗无法正常显示的问题。 ... [详细]
  • Docker 自定义网络配置详解
    本文详细介绍如何在 Docker 中自定义网络设置,包括网关和子网地址的配置。通过具体示例展示如何创建和管理自定义网络,以及容器间的通信方式。 ... [详细]
  • 本文探讨了如何利用Python处理来自不同来源的脚本输入,包括命令行参数、文件重定向和管道输出。 ... [详细]
  • Nginx 反向代理与负载均衡实验
    本实验旨在通过配置 Nginx 实现反向代理和负载均衡,确保从北京本地代理服务器访问上海的 Web 服务器时,能够依次显示红、黄、绿三种颜色页面以验证负载均衡效果。 ... [详细]
  • 本文深入探讨了SQL数据库中常见的面试问题,包括如何获取自增字段的当前值、防止SQL注入的方法、游标的作用与使用、索引的形式及其优缺点,以及事务和存储过程的概念。通过详细的解答和示例,帮助读者更好地理解和应对这些技术问题。 ... [详细]
  • 本文详细介绍了流编辑器sed中的G、H、g、h命令,探讨了它们的工作原理及应用场景。通过实例解析和图解分析,帮助读者掌握这些高级命令的使用方法。 ... [详细]
  • 本文介绍了一种监控网络接口速率的Shell脚本,重点分析了其中出现的语法错误,并提供了详细的修正方法。该脚本旨在实时监测网络接口的上传和下载速度。 ... [详细]
author-avatar
我确实是一只猪_143_267
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有